当前位置:首页  音频新闻  厂商动态  声学视听音频正文

谷歌正在构建支持多语言的人工智能语音模型

发布时间:03-22 编辑:21dB声学人

谷歌正在朝着建立支持1000种不同语言的人工智能语言模型的目标迈进。该公司的通用语音模型(USM)是一个支持100多种语言的系统,并作为构建一个更广泛的系统的“基础”。

谷歌正在构建支持多语言的人工智能语音模型

 




谷歌正在朝着建立支持1000种不同语言的人工智能语言模型的目标迈进。该公司的通用语音模型(USM)是一个支持100多种语言的系统,并作为构建一个更广泛的系统的“基础”。


 640 (26).png



USM被描述为”一个最先进的语音模型家族”,拥有20亿个参数,训练了1200万个小时的语音和超过300种语言的280亿个句子。它还支持自动语音识别(ASR),并已被YouTube用于生成字幕。



 


谷歌的目标是创建一个支持世界上最常用的1000种语言的语言模型。这项技术可以有多种用途,包括内置在AR眼镜中,就像谷歌在去年的I/O活动上展示的概念一样,能够检测并提供实时翻译。然而,谷歌在I/O期间针对阿拉伯语言时的错误表示表明,它很容易出错。




谷歌的USM模型是实现公司语言模型目标的“关键的第一步”。谷歌已经宣布,计划在今年的年度I/O活动上展示20多种人工智能驱动的产品。



 



Meta正在开发一个类似的AI翻译工具,但仍处于早期阶段。然而,谷歌的USM已经在使用中并支持超过100种语言。




此外,谷歌发布了一篇研究论文,详细介绍了USM及其工作原理的更多信息。




信息源于:wonderful engineerin





  关于我们  


21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。


声明:该文观点仅代表作者本人,音频应用信息发布平台,官网仅提供信息存储空间服务。
最新音频交流