当前位置:首页音频新闻新闻资讯音频技术音频正文

互联网音频业务全球化的人工智能技术实践和未来展望

发布时间：11-03 编辑：CSDN

在知识付费的时代趋势下，承载内容生产的媒体平台成为内容生产者的聚集地，包括视频、音频、文字在内的多媒体数字化平台正在如火如荼地发展。其中，基于互联网的音频业务全球化市场规模也在持续增长。本文将对过去和当前互联网音频行业全球化中的人工智能技术实践进行回顾和总结，并展望未来技术在行业的发展趋势。

作者 | 刘治责编 | 夏萌

出品 | 《新程序员》编辑部

近年来，基于互联网的音频业务全球市场规模持续增长，在线音频业务平台生态和产品形态不断多样化，为互联网用户提供了音频类播客、直播、社交、游戏等服务场景。而从音频产业的创新技术发展来看，近十年，底层深度学习框架推动了AI在这一领域的产业化落地。基于市场和技术的双重作用，人工智能技术在音频业务中有了广泛的实践空间。

音频内容业务的应用：推荐、搜索

互联网音频平台的兴起，为用户生产内容( U s e rGenerated Content，UGC) 和平台生产的专业内容 (ProfessionalGenerated Content，PGC) 在音频领域的发展提供了条件。用户和平台生产了海量的音频内容，内容分发的效率和质量成为音频业务发展的关键。而由于传统人工运营编辑的模式无法满足用户“千人千面”的个性化需求，基于人工智能技术的音频内容推荐和搜索随之兴起，对于音频播客内容的分发起到重要作用。

推荐系统的核心是人工智能领域的机器学习算法，通过用户对音频内容的播放、点赞、评论、收藏等行为进行大数据存储和分析，结合机器学习训练算法模型，从而预测用户对音频内容的喜好程度，对每个用户构建个性化的音频内容列表，提升分发效率。

如图1所示，在工业级应用技术实践中，基于人工智能技术的音频内容推荐系统的构建，主要包括“召回”和 “排序”两个重要步骤，对应推荐系统的召回引擎和排序引擎。召回引擎主要实现对每个用户匹配的音频内容范围的选择，通过数据采集系统管理多个不同的数据源，并基于大数据计算和存储中心实现数据仓库架构搭建来提供数据标签和特征，将数据标签和特征作为机器学习算法的训练数据构建模型。

641.webp.jpg

图1 互联网音频内容个性化推荐系统技术框架

在通常的业务实践中，将用户的关键数据标签和特征称为用户画像，用户画像系统为召回引擎提供重要的数据支撑，是实现个性化音频内容推荐的数据核心。在实际技术应用中，召回环节主要从海量数据中选取一定范围的音频内容，并提供给后续的排序环节。由于召回音频内容的候选集合通常数据量较大且需要在线实时更新，因而召回模块的设计需要考虑轻量和低延迟。排序引擎则主要负责对召回音频内容的粗排、精排、重排，最终实现提供给用户个性化的音频内容输出。在推荐系统的构建中，协同过滤是人工智能的一种重要应用，通过用户画像数据和音频内容数据的评分矩阵，运用机器学习模型进行最优化求解，从而得到对每个用户推荐音频内容的排序。

搜索

搜索系统为用户提供音频内容查询的窗口，用户通过输入文字表达希望获取的音频内容，通过搜索系统对用户的查询进行分析，从大规模音频内容中选取满足用户需求的内容返回，实现基于用户意图的音频内容高效分发和匹配。

互联网音频平台的搜索系统设计和实现，同样以人工智能技术为基础，既包括对用户输入的文字信息的智能分析和理解，也包括对音频内容的分类和索引，以及将用户输入信息与音频内容实时匹配并返回的模型算法。对于用户输入文字信息的理解，需要通过自然语言处理算法，实现分词和关键词提取，并理解用户搜索意图。基于音频内容分类标签建立索引，将经过分析提取的用户搜索关键信息，通过排序学习的模型算法，对用户搜索信息与音频数据库中的相似内容进行匹配评分，实现有效匹配并以列表形式返回音频内容。

音频互动娱乐的精细化运营：业务风控、广告投放、知识图谱

实时音频技术(Real Time Communication，RTC)的发展和成熟，将音频行业从播客节目录制的阶段带入了实时

音频直播互动娱乐的时代。而音频直播互动娱乐的形式多样化，使得用户与音频直播平台的互动更加紧密，因此音频行业的精细化运营显得尤为重要。人工智能技术的持续发展，在业务风控、广告投放、知识图谱等多方面为音频互动娱乐业务的精细化运营提供了核心技术赋能，拓展了人工智能在音频业务中的应用。

业务风控

在业务风控方面，人工智能技术和大数据能力的结合，能够助力音频互动娱乐场景的智能业务风控建设。事实上，随着平台内容逐渐丰富的同时，大量用户在线的实时互动娱乐场景也带来了业务风险，例如：在注册登录的场景中，通常会出现互联网流量虚假注册；在用户支付的场景中，需要识别未成年支付和用户账号被盗取的情况；在营销活动中要及时发现模拟器操作以保障平台和用户权益。特别是在平台开展用户活动进行精细化运营的场景下，不仅存在平台的整体运营活动计划，对于每类相似的音频直播栏目都会动态制定和调整运营活动。在这种多场景深度运营的情况下，平台仅通过运营人员进行人工的风险识别显然已不能完全满足实际业务发展需要，需要构建业务风控能力实现平台的可持续运营。

通过AI，能够实现业务场景风险感知和风险事件精准拦截，从而降低运营的成本。如图2所示，在注册登录、用户支付和营销活动等场景中，智能风控系统都发挥了重要作用，包括风险数据标签、策略规则引擎、机器学习算法、在线风控模型等核心风控模块。其中，机器学习算法基于风险标签特征进行训练，能够实现在线风控模型的实时风险评分，结合评分数据支撑业务风控场景。

641.webp (1).jpg

图2 结合人工智能和大数据技术的业务风控

新应用

在实践应用中，为了提升智能风控系统在多场景的通用性，会将不同场景的策略规则和风控模型通过平台化方式集成，实现多场景共享相似的规则和模型。同时，智能风控系统在通用化的基础上，还需要对特定场景进行适配，将多个业务风控能力叠加和应用。例如，在用户支付场景中，为了增强支付风险识别的准确度，会首先通过风险数据标签评估当前用户设备的支付安全性，接着调用策略规则引擎以识别用户近期支付规律是否存在与过往差别较大的情况，然后再调用在线风控模型输出风险程度的评分决定是否调用短信校验和人脸识别功能进行二次确认。

广告投放

在广告投放场景中，获取匹配音频直播兴趣属性的用户成为最关键的一环，人工智能技术应用在互联网广告中产生了“计算广告”的技术方向。通常，在互联网广告投放的场景中会同时获取多家媒体渠道的流量，较为准确地判断音频平台的渠道新增用户归属，便能够将媒体数据和平台数据打通，进而分析计算不同媒体渠道的用户质量，是实现精细化投放的核心。通过海量媒体点击日志的数据分析实现智能广告渠道归因，成为音频直播平台的关键技术能力。具体地，在音频产品的广告投放中，对于多个媒体同时进行广告计划，智能广告渠道归因系统会先从这些媒体获取并汇总点击日志，再通过产品中用户的注册或登录等关键行为的时间点与点击日期进行匹配，从而根据规则确定音频平台产品的新增用户来源。

知识图谱

在知识图谱方面，因为业务精细化运营带来了对音频用户关系挖掘的需求，通过构建用户关系图谱可以获取兴趣相似的用户群体，进而推动了这一研究在音频直播的落地。在用户关系图谱的实际应用中，通常用实体表示用户、内容等，实体和实体的连接称为关系，如平台用户对平台用户的关注关系、平台用户对直播内容的点赞或收藏关系等。通过实体和关系的三元组的设计，可以将音频直播平台的用户之间、直播内容之间、用户与直播内

容的多种关联通过图数据结构的方式进行表达，进而通过图神经网络实现关系的分析和预测。在实际业务场景中，基于图神经网络的关系预测，可以实现在线用户实时匹配和直播内容快速接入，在运营层面为用户带来更好的体验。例如，在实践场景中，通过用户关系图谱可以获取对相同直播内容点赞或收藏的用户，从而针对每个音频内容快速圈选出用户群，基于用户群分析用户群体画像的特征，形成对于相似直播内容匹配用户群的数据模型，实现对直播内容进一步拓展的目标用户定位。

音频社交场景的核心能力：语音识别、语音合成

深度学习的兴起进一步推动了人工智能技术的发展，特别是在自然语言的分析、理解、处理上近年来取得了突破进展，在语音识别和语音合成方面的深度学习模型能够取得接近人类的效果，也使得通过人工智能技术打造全球化的互联网音频社交产品成为可能。如图3所示，在音频互联网业务产品实践中，通常采用的是基于人工智能的音频社交技术架构。

图3 基于人工智能的音频社交技术架构

语音识别

语音识别技术的诞生和发展，使得用户可以在音频社交场景下通过语音实现与系统的信息交互，不再限于文本内容信息的交流，同时语音信息表达的内容还包括了情绪和情感，能够让音频社交的形式更加生动。基于深度学习技术的语音识别，催生了端到端的系统架构设计理念，将输入的音频转化为声谱图作为深度学习模型的输入，进而对应到输出的文本字典。通过语音识别深度学习模型的改进，还能将语音识别技术能力拓展到音频的情绪和情感分类识别，从而在音频社交业务场景中实现文字内容和情绪情感的结合。例如，可以在业务实际场中，通过音频识别用户的情绪情感，从而匹配与当前用户状态接近的内容。

语音合成

语音合成同样是音频社交场景的关键技术之一，实现了系统具备类似人类产生音频的能力。传统基于人工智能的语音合成技术包括文本分析、声学模型、音频合成等多个复杂的模块和环节，随着深度学习端到端技术的发展，语音合成技术的效果得到了提升，进一步简化了语音合成在语音社交的技术集成复杂度。语音合成技术能够与语音识别有机结合，实现用户在音频社交场景与平台的实时信息交互。例如，在业务场景中实现基于人工智能的合成变声功能，使得用户获得更有趣的使用体验。

荔枝集团人工智能工程实践：基于云原生的智能计算平台

荔枝集团技术团队在人工智能工程实践中，构建了基于云原生的智能计算平台，尝试解决人工智能技术在业务产品实际落地中面临的难点，主要包括以下两个方面：

降低人工智能算法模型上线的流程和复杂度。通过智能计算平台多模块深度集成，将计算和存储资源申请、开发运行环境配置、训练数据预处理、模型训练和效果评估、训练任务调度、模型发布线上服务等环节模块化，并融入实际工作流程。

对智能计算平台资源的集约化管理。通过对集群整体CPU和GPU资源的动态分配，实现根据业务场景的弹性伸缩和资源调度，并灵活适应业务发展下的智能服务迁移和扩容，使得算法开发人员可以聚焦在提升智能模型效果的关键环节。

同时，智能计算平台的架构设计需要建立在全球化多地区混合云的基础设施上，满足不同类型的智能场景需要，包括但不限于：推荐、搜索、业务风控、广告投放、知识图谱、语音识别、语音合成、聊天对话等。

在业务工程实践中，如图4所示，荔枝基于云原生的人工智能计算平台架构可以分为：系统运维监控，以及业务层、能力层、分布式计算框架、资源管理、硬件设施等。业务层主要是提供多场景的智能服务接入，能力层则通过建模组件、开发工具、模型训练、镜像管理的核心模块提供智能模型能力，基于Kubeflow的拓展，支持Horovod、Ray、Spark、Valcano等分布式计算框架实现模型的快速训练和推理，资源管理和硬件设施结合通过Kubernetes和Rancher实现资源调度、资源隔离、集群管理并集成分布式存储，整个智能计算平台则通过 Prometheus进行系统运维监控。

641.webp (2).jpg

图4基于云原生的人工智能计算平台架构实践

总结和展望

通过在互联网音频行业实践的回顾，可以看到人工智能技术近年来由点到面、由浅到深地在行业实践中不断拓展，从音频播客内容分发的最初形态，逐渐结合实时音频通信技术延展到音频直播互动娱乐的精细化运营场景，并通过语音识别和语音合成等深度学习模型技术进一步赋能音频全球化社交业务产品。

新应用

当前，新一代人工智能技术仍在持续快速发展，以人工智能生成内容(AI GeneratedContent，AIGC)为代表的技术被认为是继UGC和PGC之后全新的内容生产方式，技术的进步为互联网音频行业的长期发展带来更多空间和可能性。

在音频内容的制作和产生上，可以以创作内容版权保护为基础，通过人工智能生成内容，为用户和平台创作者提供更高效的工具，丰富平台内容生态体系。同时，音频内容通过与计算机视觉深度学习模型结合，也能够在互联网广告投放素材的创作上带来效率的持续提升。

互联网音频平台在播客、直播、社交的形态上，会进一步与游戏场景结合，通过人工智能生成内容实现多场景融合，在声音的基础上增加游戏虚拟形象，为用户提供更丰富的服务场景和体验，帮助人们用声音连接彼此，更紧密沟通，更快乐生活。

随着基于人类反馈的强化学习(Reinforcement Learning with Human Feedback) 技术的飞速发展，以ChatGPT为代表的人工智能模型已经能生成与人类需求、认知、价值相似的内容，这也为互联网音频行业带来了机遇和挑战。未来，音频业务场景会进一步向更智能、更易用、更贴近用户的产品形态发展，通过人工智能生成模型实现在线声音聊天机器人已经成为可能，同时，对于音频内容的质量和信息安全也将带来更高的要求。

作者简介：

刘冶，荔枝集团大数据部总监，广东省计算机学会大数据专业委员会委员，负责荔枝集团的数据平台、数据仓库、数据分析、数据应用、算法平台、智能推荐、智能搜索、智能风控的技术研发和团队管理，主要研究方向为大数据与人工智能。

声明：该文观点仅代表作者本人，音频应用信息发布平台，官网仅提供信息存储空间服务。

CSDN音频资讯