当前位置:首页  音频新闻  厂商动态  声学视听音频正文

研究团队正在教机器真正听到我们的声音

发布时间:07-23 编辑:音频应用

你的设备将很难重复你刚刚说过的话。它可能会提供一个荒谬的反馈或者它可能会给你一些接近但仍然不准确的东西,比如“toe pus(脚趾脓)”之类的令人恶心的词。
研究团队正在教机器真正听到我们的声音 弗吉尼亚大学(University of Virginia,UVA)认知科学家Per Sederberg发明了一个有趣的实验,你可以在家里就尝试它:拿出你的智能手机,使用语音助手,比如谷歌的搜索引擎,尽可能慢地说出“octopus(章鱼)”这个词。 你的设备将很难重复你刚刚说过的话。它可能会提供一个荒谬的反馈或者它可能会给你一些接近但仍然不准确的东西,比如“toe pus(脚趾脓)”之类的令人恶心的词。 Sederberg说,问题在于,当涉及到像人类和其他动物那样接收听觉信号时——尽管像谷歌、Deep Mind、IBM和微软这样的重量级公司都有专门的计算能力来完成这项任务——目前的人工智能仍然有些听力障碍。 但通过使用神经科学领域最近有突破性发展的模型,弗吉尼亚大学的合作研究已经可以将现有的人工智能神经网络转化为能够真正听懂我们说话的技术,无论我们说话的速度多快。 这个深度学习工具被称为SITHCon,通过泛化输入,它可以理解以不同语速所说出的话。 这种新能力不仅会改变终端用户的体验;它有可能改变人工神经网络“思考”的方式——让它们更有效地处理信息。 这可能会改变整个行业的一切,这个行业一直在寻求提高处理能力,最小化数据存储,并减少人工智能的巨大碳足迹。 Sederberg是心理学副教授,同时也是弗吉尼亚大学认知科学项目的负责人,他与研究生Brandon Jacques合作,与波士顿大学和印第安纳大学的研究人员合作,为这项技术编写了一个工作演示程序。 “我们已经证明,我们可以解码语音,特别是缩放语音,比我们所知道的任何模型都要好。”Jacques说,他是这篇论文的第一作者。 当前的AI训练:听觉过载 几十年来,公司在机器中建立了复杂的人工神经网络,试图模仿人类大脑如何识别不断变化的世界,过去20年更是如此。这些程序不仅促进了基本信息检索和消费主义;它们还专门用于预测股市、诊断医疗状况和监测国家安全威胁等许多其他应用。 “其核心是,我们试图发现我们周围世界中有意义的模式,”Sederberg说。“这些模式将帮助我们决定如何行为,如何与我们的环境保持一致,这样我们就可以获得尽可能多的奖励。” 程序员将大脑作为这项技术的最初灵感来源,因此得名“神经网络”。 Sederberg说:“早期的人工智能研究人员利用神经元的基本属性以及它们之间的连接方式,用计算机代码重新创造了这些属性。” 然而Sederberg表示,对于像教机器“听”语言这样的复杂问题,程序员们在不知不觉中选择了与大脑实际工作方式不同的路径, 他们没有基于对神经科学的理解的发展。 “这些大公司处理这个问题的方式是投入计算资源,”Sederberg解释说。“所以他们使神经网络规模更大。 一个最初受到大脑运行方式启发的领域已经变成了一个工程问题。” 从本质上讲,程序员以不同的速度输入大量不同的声音,使用不同的单词,并通过一种称为反向传播的过程来训练大型网络。程序员知道他们想要得到的响应,所以他们在循环中不断地将不断改进的信息反馈回来。 然后,AI开始对输入的各个方面给予适当的权重,从而产生准确的反应。 声音成为文本中可用的字符。 虽然作为输入的训练数据集和计算速度都有所提高,但这个过程仍然不够理想,因为程序员增加了更多的层来检测更大的细微差别和复杂性——所谓的“深度”或“卷积”学习。 当今世界上有7000多种语言, 同时还伴随着口音、方言、声音的高低、语速的快慢等变化。当同类产品的每一次改进时,都需要计算机进行大量的计算。 而这也会对环境产生影响。2019年,一项研究发现,训练单个大型深度学习模型所需的能量所产生的二氧化碳排放量相当于五辆汽车的寿命足迹。 大脑是如何真正听到语言的 波士顿大学(Boston University)已故的Howard Eichenbaum创造了“时间细胞”(time cell)一词,这一新的人工智能研究正是基于这一现象展开的。神经科学家先是研究老鼠的时间细胞,然后研究人类,发现当大脑解读基于时间的输入(比如声音)时,神经活动会出现峰值。 驻留在海马体和大脑的其他部分,这些单独的神经元捕捉特定的时间间隔——大脑根据关系审查和解释的数据点。 这些细胞位于所谓的“位置细胞”旁边,帮助我们形成心理地图。 时间细胞帮助大脑对声音形成统一的理解,无论信息到达的速度是快是慢。 “如果我说‘oooooooc-toooooo-pussssssss’,你可能从来没有听过有人以这样的速度说“octopus”,但是你能理解它,因为你的大脑处理信息的方式被称为‘scale invariant’,”Sederberg说, “它的基本意思是,如果你听到了这个信息,并学会了在一个尺度上解码这个信息,如果这个信息现在传入得更快或更慢,甚至更慢,你仍然能理解它。” Sederberg表示,这一规则的主要例外是信息以超快的速度进入,这些数据并不能完全转化。 “你会丢失一些信息。”他说。 波士顿大学认知研究者Marc Howard的实验室继续在时间细胞发现的基础上进行研究。Howard与Sederberg合作了20多年,研究人类如何理解自己生活中的事件,然后他将这种理解转化为数学。 Howard描述听觉记忆的方程包含一个时间轴。 时间轴是使用按顺序发射的时间单元来构建的。 关键的是,该方程预测随着声音向过去移动,时间线会以一种特定的方式模糊。 这是因为随着时间的推移,大脑对事件的记忆变得不那么精确。 Sederberg说:“因此,有一种特定的放电模式,它编码了过去特定时间发生的事情,而过去越远,信息就越模糊。”“最酷的事情是,Marc和一个博士后在Marc的实验室里用数学方法计算出了模型。 然后,神经科学家开始在大脑中寻找证据。” UVA编码语音解码器 大约五年前,Sederberg和Howard发现,人工智能领域可以从这种受大脑启发的表征中受益。与Howard的实验室合作,并与Zoran Tiganj和印第安纳大学的同事协商,Sederberg的计算记忆实验室开始建立和测试模型。 Jacques在大约三年前取得了重大突破,这帮助他完成了最终概念证明的编码工作。该算法的特点是一种可以根据需要解压的压缩形式——就像计算机上的zip文件压缩和存储大尺寸文件一样。 该机器只以将来有用的分辨率存储声音的“内存”,从而节省存储空间。 Sederberg说:“因为信息是对数压缩的,当输入按比例缩放时,它不会完全改变模式,它只是平移。” SITHCon的人工智能培训与研究人员可以免费获得的现有资源“时间卷积网络”进行了比较。我们的目标是将一个训练有素的网络转换成特定速度下的听觉网络。 这个过程从一种基本的语言开始——摩尔斯电码,它用长和短的声音爆发来表示点和虚线——然后发展到一套开放源代码的说英语的人说数字1到9作为输入。一旦人工智能以一种速度识别了交流,它就不会被扬声器串起的单词所欺骗。 Jacques说:“我们发现,SITHCon可以归纳出语音在速度上的放大或缩小,而其他模型无法在训练中看不到的速度下解码信息。” 现在,弗吉尼亚大学决定免费提供其代码,以提高知识水平。该团队表示,这些信息应该适合任何翻译语音的神经网络。 信息源于:techxplore
声明:该文观点仅代表作者本人,音频应用信息发布平台,官网仅提供信息存储空间服务。
最新音频交流