教大家解放语言的PixelBuds谷歌翻译耳机之黑科技大揭秘

导读近日有关于教大家解放语言的PixelBuds谷歌翻译耳机之黑科技大揭秘的问题受到了很多网友们的关注,大多数网友都想要知道教大家解放语言的Pix

近日有关于教大家解放语言的PixelBuds谷歌翻译耳机之黑科技大揭秘的问题受到了很多网友们的关注,大多数网友都想要知道教大家解放语言的PixelBuds谷歌翻译耳机之黑科技大揭秘的具体情况,那么关于到教大家解放语言的PixelBuds谷歌翻译耳机之黑科技大揭秘的相关信息,小编也是在网上进行了一系列的信息,那么接下来就由小编来给大家分享下小编所收集到与教大家解放语言的PixelBuds谷歌翻译耳机之黑科技大揭秘相关的信息吧(以下内容来自于网络非小编所写,如有侵权请与站长联系删除)

探秘黑科技

输入调节:Pixel Buds 耳机所“听到的”语音会包含大量的背景噪音,所以“除噪”是必须的。语音活性检测(VAD)则会让你的 Pixel Bud 只有在你说话时候才会响应,而不是对周围每个大声说“Ok Google”的人都有反应。触控则是用来提高 VAD 的准确度。

语言识别(LID):此系统会用机器学习,在几秒内识别所说的语言是哪一种。这很重要,因为 Pixel Buds 之后所听到的一切语音都会因为语言的不同而意义不同。而仅仅用发音来识别语言并不可靠,比如乌克兰语和俄罗斯语,以及乌尔都语和印地语的发音几乎一模一样。所以,谷歌必须全新发明一种声学模型来识别语言。

自动语音识别(ASR):ASR 会使用该声学模型把记录的语音转换成一个个音素,然后具体的语言模型会把这些音素数据转换为文字。通过口语语法、上下文、概率以及发音词典,ASR 系统可以自主补上句子中的空缺并且修改误认的音素。最终,ASR 将会推断出一段基本正确的文字。

自然语言处理(NLP):NLP 会使用机器翻译,把这段文字从一种语言翻译到另一种语言。虽然听起来简单,但这不仅仅是把每一个词翻译成对应的词,而是需要理解语音背后的意思,然后把这个意思用另外一种语言表达出来。而这段被翻译出来的文字在细微之处也需要符合其语言的习惯。

语音合成(TTS 系统):TTS 和 ASR 可以被视为同一个过程的逆操作。这个系统需要从一段文字中生成一段听起来十分自然的语音。以前的老 TTS 系统会用增添合成,也就是把许多个由人所说的音素按照正确的顺序排列好,合成出成品。而现代系统则会使用复杂的统计声学模型来产生听起来十分自然的声音。

当我们把这 5 个不同的技术放在一起的时候,实现实时翻译也就不难了。但是它们是如何具体的工作呢?让我们用一个中英翻译的例子来加以解释。

当 Pixel Buds 收到翻译的指令后,它会首先语音录下来,用 VAD 来判断这段话从哪开始、在哪结束。背景的噪音在语音被耳机记录的时候就会先被过滤一遍,然后在被传到手机上的时候再被过滤一遍。手机中的 APP 会对这段语音进行压缩,避免用太多的数据流量,然后在通过无线网或 4G 把它上传到谷歌的语音服务器。

谷歌的云端服务器会对这段语音进行解压,然后使用 LID 技术来判断所说的是汉语还是英语。

假设这段语音是汉语,那么汉语的 ASR 系统就会接手,将它转化为文字。之后,NLP 系统会把汉字翻译成英文文字,然后再发送给英语 TTS 软件,合成为英语语音。这段被压缩的语音会沿原路返回到手机和耳机中,并播放出来。

虽然这个过程听起来很复杂,但是在现实中仅需几秒钟就能完成。不过这几秒可以说是很关键的几秒,因为耳机和手机中的处理器并没有足够的能力来进行本地翻译,也没有足够的空间去存储各种语言和声学模型。就算谷歌开发出一款威力出奇的耳机或手机,这种程度的计算的能耗也会在几秒内将电池用空。

最重要的是,市面上包括谷歌、科大讯飞以及 IBM 在内的所有实时翻译产品都在无时不刻的进行着更新,努力的在提高性能和用户体验。而对自己的云端服务器进行更新很显然要比对无数个用户的耳机进行更新更容易。

看来要想短时间内研发出完美的实时翻译技术还是挺有难度的,实时翻译技术的研发传播之路任重而道远啊!

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢