“插入遗漏的词:我关上了我的____的门。”这是许多人从学生时代就记得的练习。一些社会团体可能会用“度假屋”这个词来填充空间,而其他人可能更可能插入“宿舍”或“车库”。在很大程度上,我们的用词选择取决于我们的年龄、我们来自一个国家的哪个地方以及我们的社会和文化背景。
然而,我们在日常生活中使用的语言模型,在使用搜索引擎、机器翻译、与聊天机器人互动和命令Siri时,比其他人更能说一些群体的语言。哥本哈根大学计算机科学系的一项研究证明了这一点,该研究首次研究了语言模型是否偏爱某些人口群体的语言偏好——在行话中称为社会偏倚。答案?是的。
“在语言模型中,我们能够观察到系统性偏差。虽然40岁以下受教育时间较短的男性是语言模型最适合的群体,但最糟糕的是年轻的非男性使用的语言,”UCPH计算机科学系教授、该研究的主要作者AndersSøgaard说。
有什么问题?
分析表明,与年轻的男性相比,多达十分之一的模型对年轻非男性的预测要差得多。对于Søgaard来说,这足以构成一个问题:
“任何差异都是有问题的,因为差异会渗透到广泛的技术中。语言模型用于我们日常生活中的重要目的——例如在线搜索信息。当信息的可用性取决于你如何表达自己以及你是否语言与模型所训练的语言一致,这意味着其他人可以获得的信息,你可能无法获得。”
Søgaard教授补充说,在精度至关重要的情况下,即使模型中的轻微偏差也会产生更严重的后果:
“这可能是在保险行业,语言模型用于对案例进行分组并进行客户风险评估。也可能在法律环境中,例如在公共案件中,模型有时用于查找类似案例而不是先例。在这种情况下,微小的差异就可以证明是决定性的,”他说。
大多数数据来自社交媒体
语言模型通过向其中输入大量文本来训练模型,以教模型单词在特定上下文中出现的概率。就像上面的学校练习一样,模型必须从序列中预测丢失的单词。这些文本来自在线可用的内容,其中大部分是从社交媒体和维基百科下载的。
“然而,网络上可用的数据并不一定代表我们作为技术用户。维基百科是一个很好的例子,它的内容主要是由年轻的男性编写的。这对于模型学习的语言类型很重要,”索加德说。
研究人员仍然不确定为什么语言模型能最好地代表年轻男性的社会特征。但他们确实有一个有根据的猜测:
“这与以下事实相关:年轻的男性是对模型训练所依据的数据贡献最大的群体。数据的优势来自社交媒体。而且,我们从其他研究中了解到,正是这一人口统计数据对模型的贡献最大在这些类型的开放、公共论坛上写作,”安德斯·索加德解释说。
如果我们什么都不做,问题就会扩大
Søgaard教授解释说,这个问题似乎随着数字化的发展而增长:
“随着计算机变得更高效,有更多可用数据,语言模型趋于增长,并在越来越多的数据上进行训练。对于现在使用的最流行的语言类型,似乎——我们不知道为什么——模型越大,他们的偏见越多。因此,除非采取某些措施,否则某些社会群体之间的差距会扩大。”
幸运的是,可以采取一些措施来纠正这个问题:
“如果我们要克服失真,给机器提供更多数据是行不通的。相反,一个明显的解决方案是更好地训练模型。这可以通过改变算法来实现,而不是将所有数据视为同等重要,他们对来自更平衡的人口平均值的数据特别谨慎,”安德斯·索加德总结道。
研究文章“SociolectalAnalysisofPretrainedLanguageModels”收录在2021年自然语言处理经验方法会议(EMNLP)中。