当前位置:首页音频新闻厂商动态声学视听音频正文

谷歌正在构建支持多语言的人工智能语音模型

发布时间：03-22 编辑：21dB声学人

谷歌正在朝着建立支持1000种不同语言的人工智能语言模型的目标迈进。该公司的通用语音模型（USM）是一个支持100多种语言的系统，并作为构建一个更广泛的系统的“基础”。

640 (26).png

USM被描述为”一个最先进的语音模型家族”，拥有20亿个参数，训练了1200万个小时的语音和超过300种语言的280亿个句子。它还支持自动语音识别（ASR），并已被YouTube用于生成字幕。

谷歌的目标是创建一个支持世界上最常用的1000种语言的语言模型。这项技术可以有多种用途，包括内置在AR眼镜中，就像谷歌在去年的I/O活动上展示的概念一样，能够检测并提供实时翻译。然而，谷歌在I/O期间针对阿拉伯语言时的错误表示表明，它很容易出错。

谷歌的USM模型是实现公司语言模型目标的“关键的第一步”。谷歌已经宣布，计划在今年的年度I/O活动上展示20多种人工智能驱动的产品。

Meta正在开发一个类似的AI翻译工具，但仍处于早期阶段。然而，谷歌的USM已经在使用中并支持超过100种语言。

此外，谷歌发布了一篇研究论文，详细介绍了USM及其工作原理的更多信息。

信息源于：wonderful engineerin

关于我们

21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体，专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。

声明：该文观点仅代表作者本人，音频应用信息发布平台，官网仅提供信息存储空间服务。

21dB声学人音频资讯

厂商行业新闻

文章评论