为了诊断抑郁症,临床医生会采访患者,询问特定的问题-例如过去的精神疾病,生活方式和情绪-并根据患者的反应确定病情。近年来,机器学习已被提倡作为诊断的有用帮助。例如,已经开发了机器学习模型,可以检测可能表示沮丧的单词和语调。但是,这些模型往往会根据该人对特定问题的具体答案来预测该人是否处于沮丧状态。这些方法是准确的,但是它们对所问问题类型的依赖限制了它们的使用方式和使用位置。
在Interspeech会议上发表的一篇论文中,麻省理工学院的研究人员详细介绍了一种神经网络模型,该模型可以从采访中获取的原始文本和音频数据中释放出来,以发现表示抑郁的语音模式。给定一个新主题,它可以准确地预测个人是否沮丧,而无需任何其他有关问题和答案的信息。
麻省理工学院的研究人员开发了一种神经网络模型,该模型可以分析采访中的原始文本和音频数据,以发现表明抑郁的语音模式。该方法可用于为临床医生开发诊断辅助工具,该工具可以检测自然对话中的抑郁症迹象。图片来源:George Hodan通过PublicDomainPictures.net,CC0公共领域
研究人员希望这种方法可以用于开发工具来检测自然对话中的抑郁症迹象。例如,将来,该模型可以为移动应用程序提供强大功能,这些应用程序可以监视用户的文本和语音中是否存在精神困扰并发送警报。对于由于距离,成本或缺乏对某些问题的意识而无法去临床医生进行初步诊断的患者而言,这尤其有用。
“我们的第一个暗示是,一个人通过自己的讲话感到高兴,激动,悲伤或患有严重的认知障碍,例如抑郁症,”第一作者图卡·阿尔哈奈(Tuka Alhanai)说,他是计算机科学与人工智能实验室( CSAIL)。“如果您想以可扩展的方式部署[抑郁检测]模型……您希望最大程度地减少对正在使用的数据的约束。您想将其部署在任何常规对话中,并让模型从自然互动中挑选出个人的状态。”
共同作者,CSAIL的资深研究人员詹姆斯·格拉斯(James Glass)补充说,该技术当然仍可以用于识别临床办公室随便交谈中的精神困扰。他说:“每位患者的谈话方式都不相同,如果模型发现变化,可能对医生来说是一个标志。” “这是看看我们是否可以做些辅助手段来帮助临床医生的一步。”
该模型的关键创新在于它能够检测出指示抑郁的模式,然后将这些模式映射到新个体,而无需任何其他信息。“我们称其为“无上下文”,因为您没有对要查找的问题类型和对这些问题的回答类型施加任何限制,” Alhanai说。
其他模型提供了一组特定的问题,然后给出了无抑郁症患者如何应对的示例以及有抑郁症患者如何应对的示例,例如,直截了当的询问“您有抑郁症的病史吗?” 当询问完全相同的问题时,它将使用这些确切的响应来确定是否有新的个人感到沮丧。“但这不是自然对话的工作方式,” Alhanai说。
另一方面,研究人员使用了一种称为序列建模的技术,该技术通常用于语音处理。通过这种技术,他们可以从抑郁和非抑郁个体的问题和答案中逐一地输入文本和音频数据的模型序列。随着序列的累积,该模型提取了针对有或没有抑郁症的人出现的语音模式。诸如“悲伤”,“低”或“向下”之类的词可以与更平坦,更单调的音频信号配对。情绪低落的人说话速度可能会变慢,单词间的停顿时间会更长。在先前的研究中已经探索了这些用于精神困扰的文本和音频标识符。最终取决于模型来确定是否有任何模式可以预测抑郁。
Alhanai说:“模型可以看到单词或说话风格的序列,并确定在沮丧或不沮丧的人中更容易看到这些模式。” “然后,如果在新主题中看到相同的序列,它就可以预测他们是否也感到沮丧。”
这种排序技术还可以帮助模型从整体上审视对话,并记录随着时间的推移,患有抑郁症的人和没有抑郁症的人的讲话方式之间的差异。
检测抑郁
研究人员在来自Distress Analysis Interview Corpus的142个交互的数据集上训练和测试了他们的模型,该数据集包含对患有精神健康问题的患者以及由人类控制的虚拟代理人的音频,文本和视频采访。使用个人健康调查表,每位受试者的抑郁程度在0到27之间。高于临界值(介于中度(10到14)和中等严重度(15到19)之间)的分数被认为是沮丧的,而低于该阈值的所有其他分数都被认为没有沮丧。在数据集中的所有主题中,有28个(20%)被标记为沮丧。
在实验中,使用精度和召回率指标评估了模型。精确测量由模型识别出的哪些抑郁对象被诊断为抑郁。召回率衡量模型在检测整个数据集中所有被诊断为抑郁的受试者中的准确性。在精确度上,模型得分为71%,召回率则为83%。考虑到所有错误,这些指标的平均综合得分为77%。在大多数测试中,研究人员的模型几乎胜过所有其他模型。
Alhanai指出,这项研究的关键见解是,在实验过程中,该模型需要更多的数据来预测音频的压抑,而不是文本。借助文本,该模型可以使用平均七个问答序列来准确检测抑郁。对于音频,模型需要大约30个序列。Alhanai说:“这意味着人们使用的可以预测抑郁的单词模式发生在文本中的时间跨度要短于音频中的时间跨度。” 这些见解可以帮助MIT研究人员和其他人员进一步完善他们的模型。
格拉斯说,这项工作代表了“非常令人鼓舞”的飞行员。但是现在,研究人员试图发现该模型在数十个原始数据中识别出的特定模式。格拉斯说:“现在它有点黑匣子了。” “但是,当您对它们所要获取的内容进行解释时,这些系统将更加可信。…下一个挑战是找出要捕获的数据。”
研究人员还旨在对来自其他患有其他疾病(例如痴呆)的受试者的其他数据进行测试,以测试这些方法。Alhanai说:“检测抑郁并没有那么多,但它是从日常语音信号中评估某人是否患有认知障碍的类似概念。”