摘要:人类或机器在识别演讲方面是否更好?一项新的研究表明,在嘈杂的条件下,当前的自动语音识别(ASR)系统具有出色的准确性,有时甚至超过了人类绩效。但是,这些系统需要接受大量数据的培训,而人类在更少的时间内获得了可比的技能。...
人类或机器在识别演讲方面是否更好?一项新的研究表明,在嘈杂的条件下,当前的自动语音识别(ASR)系统具有出色的准确性,有时甚至超过了人类绩效。但是,这些系统需要接受大量数据的培训,而人类在更少的时间内获得了可比的技能。

在过去的几年中,自动语音识别(ASR)取得了令人难以置信的进步,尤其是对于英语等说话的语言而言。在2020年之前,通常假定人类的语音识别能力远远超过了自动系统,但是一些当前的系统已经开始与人类的性能相匹配。开发ASR系统的目标一直是降低错误率,而不管人们在同一环境中的表现如何。毕竟,在嘈杂的环境中,甚至没有人会以100%准确的语音识别演讲。
在一项新的研究中,UZH计算语言学专家埃莉诺·乔德罗夫(Eleanor Chodroff)和剑桥大学Chloe Patman的一名研究员比较了两个受欢迎的ASR系统-Meta's Wav2Vec 2.0和AI张AI的Whisper-与英国本地英国听众打开AI的耳语。他们测试了系统在语音形噪声(静态噪声)或酒吧噪声中识别语音的系统,并以有或没有棉面膜的形式产生。
最新的Openai系统更好 - 除了一个例外
研究人员发现,人类仍然对两个ASR系统保持优势。但是,OpenAI的最新大型ASR系统Whisper大V3在所有测试的条件下都显着超过了人类听众,除了自然主义的酒吧噪音,而自然主义的酒吧噪音仅与人类相提并论。因此,Whisper大V3证明了其处理语音的声学特性的能力,并成功地将其映射到了预期的信息(即句子)。埃莉诺·乔德罗夫(Eleanor Chodroff)说:“这是令人印象深刻的,因为经过测试的句子是出于上下文的出现,很难从前一个单词中预测任何一个单词。”
庞大的培训数据
仔细观察ASR系统以及如何受过训练,表明人类正在做一些非凡的事情。两种测试的系统都涉及深度学习,但是最具竞争力的系统Whisper需要大量的培训数据。 META的WAV2VEC 2.0在960小时(或40天)的英语音频数据中接受了培训,而默认的耳语系统接受了75年以上的语音数据培训。实际上胜过人类能力的系统接受了500多年的不间断演讲的培训。乔德罗夫说:“人类能够在短短几年内与这种表现相匹配。” “几乎所有其他语言的自动语音识别也仍然存在巨大的挑战。”
不同类型的错误
该论文还揭示了人类和ASR系统会犯不同类型的错误。英国听众几乎总是产生语法句子,但更有可能写句子片段,而不是试图为口语的每个部分提供书面单词。相比之下,WAV2VEC 2.0在最困难的条件下经常产生胡言乱语。耳语还倾向于产生完整的语法句子,但更有可能“填补差距”完全错误的信息。









