黑人的自动语音识别不太准确研究

导读斯坦福工程(StanfordEngineering)的一项新研究表明,为美国领先的自动语音识别系统提供动力的技术,在解释非裔美国人所说的单词时,所犯的错误是白人所说相同单词时的两倍。研究人

斯坦福工程(StanfordEngineering)的一项新研究表明,为美国领先的自动语音识别系统提供动力的技术,在解释非裔美国人所说的单词时,所犯的错误是白人所说相同单词时的两倍。

研究人员的结论是,虽然这项研究只关注美国黑人和白人之间的差异,但类似的问题可能会影响那些用地区和非英语口音说话的人。

如果不加以解决,这种翻译失衡可能会对人们的职业乃至生活产生严重后果。 许多公司现在用自动在线面试来筛选求职者,这些面试采用语音识别。 法院利用这一技术帮助记录听证会。 此外,对于那些不会用手的人来说,语音识别对于访问计算机至关重要。

这一发现于3月23日发表在“国家科学院院刊”上,基于亚马逊、IBM、谷歌、微软和苹果公司开发的系统测试。 前四家公司提供在线语音识别服务收费,研究人员使用这些服务进行测试。 第五,研究人员建立了一个定制的iOS应用程序,使用苹果的自由语音识别技术进行测试。 测试是在去年春天进行的,从那时起,语音技术可能已经更新了。

研究人员无法确定这些公司的语音识别技术是否也被他们的虚拟助理使用,比如Siri在苹果公司和Alexa在亚马逊公司,因为这些公司没有披露他们是否在不同的产品产品中使用不同版本的技术。

研究报告的主要作者、计算和数学工程的博士生艾莉森·柯内克(Allison Koenecke)说:“但是,人们应该期望美国的公司能够生产出服务于所有美国人的产品。 “现在看来,他们并不是在为整个人口群体这样做。

误差率不相等

柯内克和她的同事用2000多个来自非裔美国人和白人的录音访谈的语音样本测试了每家公司的语音识别系统。 黑人语言样本来自地区非裔美国人语言语料库,白人样本来自加州之声的访谈,其中记录了对不同加利福尼亚社区居民的访谈。

所有五种语音识别技术的错误率几乎是黑人和白人的两倍-即使发言者的性别和年龄是匹配的,当他们说相同的话。 平均而言,这些系统误解了35%的黑人语言,但只有19%的白人语言。

非洲裔美国人的错误率最高,而使用非裔美国人白话英语的演讲者之间的差距更大。

研究人员还进行了额外的测试,以确定五种语音识别技术对单词的误解程度如此之大,以至于转录实际上是无用的。 他们测试了数千个语音样本,平均长度为15秒,以计算技术在每个样本中通过至少一半单词的阈值的频率。 这种令人无法接受的高错误率发生在20%以上的黑人所说的样本中,而少于2%的白人所说的样本。

隐藏偏差

研究人员推测,所有五种技术的共同差异都源于一个共同的缺陷-用于训练语音识别系统的机器学习系统可能严重依赖于美国白人所说的英语数据库。 一个更公平的办法是纳入反映其他讲英语者口音和方言更多样化的数据库。

与其他制造商不同,提供语音识别系统的公司不承担这种义务,因为法律或习惯通常要求它们解释产品的内容以及它们应该如何工作。

斯坦福大学计算工程教授沙拉德·戈尔(Sharad Goel)负责这项工作,他说,这项研究强调,需要对新技术进行审计,如语音识别,以识别可能排除已经被边缘化的人的隐性偏见。 这种审计需要由独立的外部专家进行,需要大量时间和工作,但必须确保这种技术具有包容性。

“我们不能指望公司来监管自己,”Goel说。 “这不是他们要做的。 我可以想象,如果有足够的公共压力,一些人可能会自愿承诺独立审计。 但政府机构也有必要施加更多的监督。 人们有权知道影响他们生活的技术有多好。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢