语音控制智能助手的普及已大大推动了语音识别和自然语言处理(NLP)领域。反过来,这又改进了使用此类技术的其他产品,例如会议和采访中使用的转录引擎。但是,简单地将有时难以理解的口语单词准确地翻译成文本是一回事,而在涉及多个人的会议中提取和突出要点则是另一回事。Voicera的会议助理EVA可以做到这两者,其秘密之处在于人工智能也就不足为奇了。具体来说,该公司正在向公众提供的渐进式注意力AI。
如今,将口语转换为文本相对容易。只需向转录引擎提供音频文件,然后观看它发出的字母即可。如今,转录的准确性通过使用机器学习和AI得以提高。但是要准确地确定转录中比其他部分更重要的部分,您将需要真正注意所讲的内容和表达方式。为此,您将需要双系统AI。
事实证明,人的大脑没有一心一意的想法。它的注意力实际上在两个层面上起作用。第一级就像高速雷达,它总是在不损害环境的情况下扫描环境。当它拾取重要的东西时,它将切换到第二级,在此第二级将注意力和大脑功能更多地集中在输入上,而忽略其他刺激。瞬间,大脑就可以无缝而轻松地在这两个层次之间切换,这是AI不能完全做到的。至少到现在为止。
AI系统通常必须在这两个级别之间进行选择,即在快速但准确性较低的过程中还是在准确但耗时的处理过程中进行选择。Voicera的解决方案是同时使用两者。EVA中的渐进式注意力AI实际上是由两个系统组成,它们模仿人的思维方式。人们总是在不断地聆听,寻找环境和声音的变化。另一个更深入,更集中,更准确,但只有在需要注意时才起作用。就像在谈话的重要部分一样。
如果此双系统渐进式注意力AI不足以提供您所需的AI,那么EVA实际上具有更多功能。顺便说一句,当Voicera设置EVA(企业语音AI的缩写)进行转录时,它实际上在同一个音频文件上使用了三个训练引擎。每个引擎都专门针对特定的场景,例如在背景噪音很大的会议上进行训练的引擎,在多方扬声器上进行训练的引擎等等。这称为“集成学习”,旨在提高输出的准确性。当引擎之间就特定声音所翻译的单词存在分歧时,机器学习层将充当仲裁者,要么偏爱在特定情况下具有更多专业知识的引擎,要么仅选择三分之二的引擎同意的输出在。
这种多方面的AI系统不仅可以使EVA准确地突出显示您可以稍后共享的笔录部分,而且还可以充当一种冗余系统。您可以录制会议或对话,确信即使Internet连接断开,您仍然会得到有用的成绩单。Voicera将降低流传输到其即时转录引擎的音频的比特率和质量,同时保留高质量的版本,以便在您建立更好的连接时进行后续处理。
EVA自然依赖于机器学习来提高其准确性,而Voicera也在寻求用户的帮助。转录完成后,用户进行的评论,注释和编辑可以大大改善AI模型。话虽如此,语音功能仍在努力改变其移动应用程序中尚缺乏的编辑功能。