AI同传效果媲美人类,百度翻译推全球首个上下文感知机器同传模型,王海峰吴华领衔

鱼羊 发自 凹非寺

量子位 报道 | 公众号 QbitAI

AI同传领域又有新进展,这次突破来自百度。

百度机器翻译团队创新性地提出了全球首个感知上下文的机器同传模型,并基于此发布了最新的语音到语音的机器同传系统:DuTongChuan(度同传)

AI同传效果媲美人类,百度翻译推全球首个上下文感知机器同传模型

该系统基于百度飞桨PaddlePaddle平台开发,可以实时地翻译演讲内容并以语音播报的形式传递给观众。

在最新提交的论文(见传送门)结果中:

汉译英准确率85.71%,英译汉准确率86.36%

并且PK 3位经验丰富的人类同传译员,最终结果极具竞争力,在评估所用的BLEU和人工评价双重评价中,度同传均达到与人类专员媲美的水平。

论文中还介绍,该系统已成功应用于百度2019开发者大会,将演讲内容实时地翻译给现场观众收听。现场反馈,延时大多不到3秒。

与传统的字幕投屏同传相比,算得上是真正的沉浸式体验,如同人工同传一般。

百度方面介绍,度同传系统,能够实现语音到语音的机器同传,其中核心技术所在,是全球首个上下文感知机器同传模型

具体原理如何,我们结合论文解析一二。

三大秘籍

一个人类同声传译人员,在进行翻译的时候会把听到的内容划分成一个一个语义块,对一段话进行理解翻译,既不是逐字翻译,也不是逐句翻译,这样既能保证语义不变,又能保证实时性。

百度翻译团队由此得到灵感,教给度同传同声传译秘籍第一招:

语义信息单元(Information Unit,IU)

传统的机器同传存在一个比较尴尬的问题是,它的翻译并不流畅。

举个例子:

AI同传效果媲美人类,百度翻译推全球首个上下文感知机器同传模型

对于“所以它会在画布上面,自己创建一个虚拟的这个网格”这个句子,整句NMT(神经机器翻译)模型能够生成准确的翻译。问题是,这样的模型需要等到一个完整句子结束,才能开始翻译。

这显然不符合同声传译的要求,时延太高了。

子句NMT模型倒是降低了延迟,因为它在读取源文本中的逗号后就会开始翻译,但是第二个子句翻译的内容“创建你自己的虚拟网格(creat a virtual grid of your own)”不符合原意。

一个太慢,一个翻译不通顺,这时候,语义信息单元IU就派上用场了。

模型会不断从自动语音识别(ASR)模型中读取实时语音流,并确定其信息单元边界,将语音流切分成一个一个翻译单元。

这个切分的过程靠的是基于动态上下文的信息单元边界检测器

它是这样工作的:

AI同传效果媲美人类,百度翻译推全球首个上下文感知机器同传模型

当锚点在“姬”这个字上的时候,如果当前边界决策的概率小于某个阈值,那么就必须考虑更多的上下文(添加额外的上下文“这个”),得到更可靠的决策。这之后,“那个叫什么什么呃妖姬”这几个字就被标记为一个信息单元。

也就是说,模型会学习确定当前锚点的潜在类别,一旦分类确定,它前面的序列就被标记为一个信息单元。

这个模型的一个显著特点是被允许参考更多的上下文,所以它的预测也会更加可靠。

只有IU还不够。

秘籍二:创新解码算法

为了提升翻译的流畅度和一致性,百度还提出了两种创新解码算法:部分解码(Partial Decoding)和上下文感知解码(Context-aware Decoding)。

部分解码

在上下文感知翻译模型中,需要翻译的信息单元通常都是句子的一部分,并非完整的一个句子。而传统的NMT模型通常在仅包含完整句子的双语语料库中进行训练,如果用传统训练方式的NMT模型解码信息单元,容易产生过度翻译和漏译等问题。

除了这个问题之外,还要考虑到人类同声传译员通常都是会进行预判的,有些话讲话的人还没说出口,同声传译员就已经翻译出来了。

为了解决上述问题,度同传设计了一个部分解码模型,用于翻译一个句子的第一个信息单元。

AI同传效果媲美人类,百度翻译推全球首个上下文感知机器同传模型

在训练阶过程中,在预测第一个信息单元翻译内容时,通过掩盖句子中其他信息单元的内容,可以让模型同时学习预测目标译文和部分原文信息,达到提前预测的功能。

上下文感知解码

对于句子中其他的信息单元,则采用上下文感知解码模型进行翻译。

此模型的特点是:

• 在训练过程中,强迫该模型学习如何在给定部分翻译内容的情况下继续翻译。

• 在解码过程中,丢弃一部分此前生成的翻译,以便进行更流畅的翻译。

AI同传效果媲美人类,百度翻译推全球首个上下文感知机器同传模型

就像这样,在训练期间,不屏蔽源输入,但屏蔽与第一个信息单元对齐的翻译内容。这种策略能迫使模型学会补全剩余的翻译内容,而不是聚焦于生成完整句子的翻译。

此外,在解码阶段,上下文感知模型会丢弃已生成部分翻译的最后k个符号,而后完成其余的翻译,以生成更为流畅的翻译结果。其中的原理是,前序信息单元尾部的翻译很大程度上会影响到后续信息单元的翻译内容。

AI同传效果媲美人类,百度翻译推全球首个上下文感知机器同传模型

k=1

如此一来,度同传就能够结合上下文信息,生成全局流畅的译文,还克服了传统模型以句子为翻译单位,译文不连贯、时延长等缺点。

AI同传效果媲美人类,百度翻译推全球首个上下文感知机器同传模型

这就完事了?并不。为了推动语音翻译的研究,百度翻译团队还开源了一个宝库。

秘籍三:BSTC

BSTC是全球首个中文-英文演讲场景语音翻译数据集,总共包含超过50小时的演讲语音和对应的转录文本、时间轴、翻译文本等数据资源。涉及IT、经济、文化、生物、艺术等多个演讲主题。

AI同传效果媲美人类,百度翻译推全球首个上下文感知机器同传模型

该数据集现已开源,下载链接可在文末自取。

媲美人类,机器与人类各有所长

为了验证度同传的本领,百度翻译团队邀请了3位具有3-7年工作经验的同声传译员S,A,B。

研究团队模拟了一个真实的同传场景,让机器同传和同声传译员们对BSTC中的同一个演讲进行同声传译。

AI同传效果媲美人类,百度翻译推全球首个上下文感知机器同传模型

无论是传统的BLEU自动评价指标(一种用于评估从一种自然语言机器翻译到另一种自然语言的文本质量的算法),还是人工评价方法,机器同传都表现出了极具竞争力的翻译水平。

BLEU和人工评价均基于转写后的译文文本,BLEU指标基于n-gram严格匹配计算得分,而人工评价更注重译文的完整性和流畅度,类似于用笔译的标准评价口译。

AI同传效果媲美人类,百度翻译推全球首个上下文感知机器同传模型

BAD:译文不准确;OK:译文不影响理解,允许有少许错误;GOOD:译文准确

可以看到,在可接受度(Acceptability)上,机器同传与表现最好的人类选手表现相当(73.91% VS 73.04%)。

而在漏译率上,机器同传则远远甩开了人类竞争对手(20% VS 47%)。

当然了,在漏译率明显高于机器的情况下,人类同传译员仍保持了高可接受度,说明人类在实时性要求高、脑力工作强度大的情况下,能够灵活变通,突出重要信息的传递。而机器胜在不知疲倦,漏译率低。

值得注意的是,刚公开论文的度同传,实际已在2019百度AI开发者大会完成实战检验。

从人工测评结果来看,度同传的中英同传可接受度达到了85.71%,英中同传可接受度则达到了86.36%。根据现场使用体验,合成语音的平均延迟在3秒以内。

总结来说:语音到语音,高质量,低时延。

不过眼见方为实,如果想要亲自体验一下百度翻译AI同传,现在百度翻译也给出了开放平台申请渠道。

此外,度同传作为一项服务已经集成到了百度的AI平台上,相信不久之后还能在更多产品、更多落地场景中应用。更多C端用户,也能直接体验。

传送门

体验申请链接:

https://fanyi-api.baidu.com/api/trans/product/simultaneous

BSTC数据集:

http://ai.baidu.com/broad/subordinate?dataset=bstc

论文链接:

https://arxiv.org/abs/1907.12984

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

版权所有,未经授权不得以任何形式转载及使用,违者必究。