密歇根大学的项目旨在使语音技术更便于语言障碍人士使用

在过去的十年里,自动语音识别技术有了很大的进步。但这些进步往往让有语言障碍的人落后。语音无障碍项目是由伊利诺伊大学厄巴纳-香槟分校的研究人员发起的一项倡议,旨在改变语音识别软件(通常称为自动语音识别(ASR)系统)对语音障碍患者的无障碍性。密歇根大学电气与计算机工程教授、该项目的首席研究员Mark Hasegawa Johnson说:

“对我来说,成功的是,患有唐氏综合症(或其他影响言语的疾病)的人可以开始使用智能手机或智能音箱,它就会起作用。”。“他们将能够像同龄人一样使用它。”该项目旨在开发一个发音障碍语音数据集,这是一种由于运动语言障碍而难以理解的语音,这种障碍会影响用于说话的肌肉。长谷川·约翰逊说,在科技公司用来训练ASR系统的数据集中,非典型语音的人没有得到很好的体现。他说:

“到目前为止,我们遇到的最大障碍是,可用于训练ASR的演讲来自阅读有声读物的人。”。“因此,当你得到一些在某种程度上具有非典型语音的人时,他们听起来并不像训练集中的任何说话者,因此语音识别器不知道如何处理它。”人工智能工具使人们能够通过语音命令使用语音识别,如语音助手、语音转文本或翻译工具。这些系统依赖于机器学习;没有多样化和有代表性的数据,他们就无法准确理解不同类型的语音。

该项目针对五种主要诊断:帕金森病、脑瘫、唐氏综合征、肌萎缩侧索硬化症(ALS)和中风引起的言语障碍。据参与该项目的密歇根大学三年级研究生Xiuwen Zheng介绍,截至2023年,发音障碍语音的公共数据收集量比典型语音小32倍多,只有大约1000小时的数据是公开的。她说,2010年代ASR技术的爆炸式发展导致典型语音的ASR准确性迅速提高,2023年单词错误率降至1.4%。

但这些进步并没有扩展到发音困难的语言,其中单词错误率保持在18%左右。根据该项目的网站,截至2024年6月底,该项目已与资助它们的公司(亚马逊、苹果、谷歌、Meta和微软)共享了23.5万个语音样本,这些公司长期致力于为来自不同背景的人提供产品、服务和体验。郑说,语音无障碍项目最近启动了一项为期90天的挑战,旨在发现改进ASR系统的新想法。

该挑战邀请了密歇根大学以外的开发人员和研究人员,通过使用语音可访问性项目的数据集创建新的ASR模型,帮助解决发音障碍语音的ASR限制。郑说:“这次挑战的目标是尝试推进最先进的ASR语音识别技术。”。“我们实际上希望一些团队能想出一些新的想法或一些先进的语音识别器。”言语语言病理学家兼该项目的调查员克莱伦·门德斯表示,言语无障碍项目已与1200多名有五种目标诊断的人进行了合作。

“我觉得让我惊讶的是,人们有多喜欢这个过程
门德斯说:“他们告诉我们,与项目分享自己的声音是一种非常有益的体验。”。门德斯说,参与该项目的个人可以在自己舒适的家中和闲暇时录制。参与者会得到核心提示,比如“把音量调到最大”,这是一个常见的技术命令。他们还会得到更多个性化的提示,包括专有名词,如“播放泰勒·斯威夫特的歌曲”。

另一部分包括一系列来自小说的语音不同的句子,这些句子捕捉了英语的不同声音,以及开放式提示,如“告诉我一只宠物,或者你希望拥有的宠物。”该项目邀请五种目标条件下的任何人提供他们的语音样本。根据该项目的网站,参与者的时间会得到补偿,所有数据都是私人的,并且是去标识的。展望未来,该项目旨在扩大到包括有额外诊断的个人以及非英语母语者。门德斯说:“我很高兴这项技术有机会为这些参与者服务,让世界变得更加开放。

”。