陷入“人机耦合”的AI同传:向人类偷师、与人类共事

最近科技圈里火了一个词叫“人机耦合”,主要原因当然是因为此前科大讯飞人工同传“假扮”AI同传,而科大讯飞将这种人工写出译文、机器发音的方式称为人机耦合,而用户们则用这

最近科技圈里火了一个词叫“人机耦合”,主要原因当然是因为此前科大讯飞人工同传“假扮”AI同传,而科大讯飞将这种人工写出译文、机器发音的方式称为人机耦合,而用户们则用这个词表示对科大讯飞的调侃。

这也再度加大了AI同传在机器翻译领域中的关注度相,除了大众印象中的造假,对于行业内来说,AI同传任务处理上实时性、专业度的要求都极高,容错率也相对更低,在机器翻译领域算是一个难度很大的任务,甚至有人称之为机器翻译的“圣杯”。解决好AI同传问题,也就标志着这家企业在机器翻译技术已经达到一定高度,解决其他问也也不在话下。

是圣杯,自然少不了挑战者。除了孜孜不倦的独角兽,微软、百度、谷歌等海内外的AI大厂也都在不断攻克这项难题。但今天我们想来谈谈的是,AI同传真正的“人机耦合”到底应该是什么样?

是什么为AI同传送上圣杯

AI同传之所以难度能够达到“圣杯级别”,还是来自于语言本身的复杂程度和不同语言之间的巨大差异。

给前者举个例子,对于机器翻译,尤其是语音转码文字的部分来说一个很大的难点就是同音不同字,有其有的词同音不同字并且意义差距很大。比如南方or男方。

后者则主要体现在语序的差异上,中文上说“她送给我的花很美”,英文上却说“The flowers she gave me are beautiful”, 在不听完整个句子之前,是很难给出准确翻译结果的,因为在在中文中作为主语我“花”出现在“她送给我”这一定语之后,可英文中主语“The flowers”却出现在句子的开头。

所以目前大多数AI同传,要么是等待一个完整的句子说完后,再进行翻译,要么是根据当前识别结果进行翻译,然后随着识别字数的增加,不断修正结果。

不管哪种方式,基本上都带有一个句子的延迟时间。尤其是遇到同音不同字的问题时,很多同传系统只要认定了第一次识别的语音,很难再根据语境调整语音和文字之间对照。这就有可能导致整个句子在翻译时出现严重的误差。

可我们应用同传,不就是为了和整场对话同步获得信息吗?想象一下,在重要商务场合中你和合作伙伴谈笑风生,然而合作伙伴说“前门楼子”AI同传却告诉你“胯骨轴子”……

总之由于应用场景相对苛刻,AI同传的技术迟迟都没能达到应用条件。

万能的人类老师,是如何做同声传译的?

那么人类又是如何解决这些问题的呢?

首先,人类译员在进行同传翻译时往往会先做大量的准备工作,了解应用领域的专业术语,本质上是对自己的词汇库进行一个“收敛”,又对该专业领域的用词进行学,减少同音近义、一词多义时发生翻译错误的可能。

建立在准备的基础上,译员在进行翻译时会有一定的预测性,例如“The flowers she gave me are beautiful”这句话的翻译中,看到“The flowers”这个单词,译员就可以结合上下文和语境去判断花一定是别人赠送来的,所以可以同步翻译出“她送给我的花”。这样一来就可以赶在句子说完前就进行翻译,尽可能的保证即时性。

可即便如此,人工同声传译也并不是完美的。由于信息量巨大,译员只能在保证速度的前提下牺牲一部分质量。据了解,同传译员的译出率仅有60-70%左右,即讲话人讲了100个句子,仅有60-70个句子的信息被完整传递给听众。同时由于需要高度精神集中,译员往往需要每15-20分钟就需要换班休息。

向人类偷师,哪些机器翻译技术正在人机耦合?

而这些人类在工作时体现的智慧和优势,往往会被人工智能学习和利用。我们可以发现,很多机器翻译技术已经开始学会利用“背景知识”和“预测”这两个关键逻辑了。

从背景知识的层面来讲,人类之所以能够分辨同音近音字,是因为对于语境和背景知识有着充足的了解,把不符合当前词汇库的同音词“剔除”了。

所以现在有一些机器翻译技术开始应用上了这样的解决方案:提升容错率,忽略语音-文字转码阶段的错误,进而去提升文字翻译阶段的正确率。

例如百度同传的“语音容错”的对抗训练翻译模型,重点就在于有意在训练数据集中加入针对性的噪声数据,这样即使模型接受到错误的语音识别结果时,也能给出正确的译文。什么叫“针对性”的噪声数据呢?就是把成对、成组出现的噪声词一起收录,比如前文提到的南方和男方,再将源语言句子进行替换,把“南方天气很潮湿”替换为“男方天气很潮湿”,而两个句子的结果都设定为“The weather is very humid in the south”,一起用作训练从而提升模型的容错能力。

阅读:

精彩评论:

推荐文章RECOMMEND

订阅 "华为电商" 频道, 观看更多华为电商精彩文章