AI同传再进化:看懂PPT会思考,专业术语翻译准确率大幅提升40%
晓查 发自 凹非寺
量子位 出品 | 公众号 QbitAI
2019年即将过去,搜狗在语音技术的落地应用上不断突破,在12月的最后几天,搜狗又秀出了今年的最后一件“神器”——搜狗同传3.0。
搜狗同传3.0可以像人类一样,从语音和图像中获取信息,不仅会听,还能同时看图、查资料,从而提高了同声传译的准确性,在AI同传落地应用中属首创。
尤其是面对专有名词、专业术语较多的场景,相比传统只依赖语音的技术,搜狗同传3.0针对PPT内容将翻译的正确率提升了40.3%。
而且这项技术不需要复杂的硬件升级,只需一台带有摄像头和麦克风的笔记本电脑即可实现。这让未来不同语言之间的无障碍电话会议成为可能。
前不久,在北京的某一场科技大会上,搜狗同传3.0强大的能力得到了验证。它快速准确地翻译了王小川的演讲内容,并将知识图谱同步显示在屏幕上。
即使演讲内容中有大量的互联网、科技行业属术语,也没有难倒它。
早在2016年的世界互联网大会上,搜狗同传就完成了第一次亮相。经过了3年的迭代升级,搜狗同传3.0,集成了哪些最新的技术突破呢?
近日,在搜狗同传的一场交流会上,搜狗AI交互技术部总经理陈伟告诉我们,之前的AI同传都只是听,而搜狗同传3.0是目前业内首个推出的多模态同传技术,在同行中处于领先地位。
多模态同传,即AI获取信息的渠道不再是语音,还包含图像等其他内容。这种多模态的交互方式是搜狗一直坚信的趋势,也是与人最自然的一种交流方式。
实现这一切的是搜狗的语境引擎,是它为演讲者构建了个性化的认知语境。
语境引擎基于搜狗知识图谱和百科的知识推理能力,将OCR获取的PPT内容自动生成核心知识。
然后通过搜狗的知识图谱——“搜狗知立方”进行实时推理拓展,获取背景知识,同时基于搜狗百科的中英术语库得到中英双语对照,优化同传识别和翻译的效果。
语境引擎能够让AI同传跟随演讲者一起“思考”,是搜狗在该领域的一大技术创新。
让AI同传会看会思考
大会同传,是搜狗为多模态语音识别找到的第一个商业落地化场景。
业内通常只是把语音识别+翻译技术硬套在这个场景中,未做任何优化。
搜狗注意到,同传的应用场景,大多是一些专业的商业、学术会议场合。以往的AI同传一般只适用于通识场景,遇到专业的术语则无能为力,而术语往往又是理解语义的关键所在。
其实,AI也可以从人类的交互方式中汲取经验,这就是搜狗同传3.0的设计思路。搜狗把其中用到的技术叫做“语境引擎”。
而大会同传的一个特点是,观众获取信息的途径不仅有语音,还有图片和文字等语境信息。这种多模态的交互方式正是搜狗过去所擅长的。
看,是搜狗也是业界第一次赋予AI同传视觉能力。基于搜狗的OCR技术,搜狗同传3.0在听取演讲者语音的同时,还能将屏幕上的PPT图像转化为文字。
想,是搜狗将PPT中的文字内容进行理解,提取知识,再在核心知识上做推理,进而扩展出整个演讲的领域知识,对同传内容进行个性化的加强。
搜狗的输入法为语音识别积累了技术,搜狗的搜索引擎、百科词条又为搜狗积累了大量的知识信息,让搜狗能够打造自己的知识图谱“知立方”,最终在大会同传这一特殊场景下得到落地。
在图像识别、知识图谱的加持下,搜狗同传3.0相比传统技术,针对PTT内容语音识别正确率提升了21.7%;在而在翻译的正确率上,搜狗同传3.0更是提升了40.3%。
搜狗同传的进化之路
搜狗同传发展到3.0不是一蹴而就,是在不断的技术探索、落地实践中完成了产品的升级。
从1.0到2.0,搜狗同传已经陆陆续续支持上千场的同传的会议,有数千人使用了搜狗同传,大量的实际应用场景为搜狗积累了宝贵的经验和数据。
陈伟表示,在2.0时代,搜狗就已经考虑到了针对同传演讲内容的个性化定制,比如提起获取演讲者的PPT内容来建模。
但是由于种种原因,提前获得完整演讲资料很困难,每场演讲做个性化定制也不利于提升AI同传的泛化能力。
搜狗本身在搜索引擎上的积累,为AI同传的升级带来了新的思路。3.0版就是利用OCR技术提取的文字和搜狗百科中的中英词汇进行对比,从而优化了同传的识别和翻译效果。
搜狗同传3.0的进化不仅仅是正确率的提升,更重要的是标志着搜狗同传技术已经从单纯的语音,变成“语音+视觉+大脑”的全方位多模态感知系统。业内除了搜狗外,还没有一家公司能做到这一点。
在纵向的对比中,搜狗同传翻译能力相比前代提升明显。
据搜狗同传的产品总监张晶晶的介绍,针对某一个论坛的数据评测可以看到,2.0版在同传中的得分是3.41分,3.0版的得分是3.82分,而人类得分是4.08分,搜狗通过“语境引擎”一举将人类和机器的差距缩小了60%以上。
多模态交互的下一步
搜狗认为,多模态技术是未来人机交互的发展方向。从搜狗同传的技术升级之路中,我们也可以看出搜狗下一步的计划。
陈伟说,搜狗同传3.0展示了搜狗在AI方面的核心竞争力和技术驱动创新上的成果。
软件方面,2018年的IWSLT国际口语机器翻译评测大赛上,搜狗击败讯飞、阿里、APPTEK、AFRL及KIT等国内外多个对手,获得第一就是能力很好的证明。
近期,搜狗在OCR识别权威比赛ICDAR2019挑战中,刷新了任意形状文字识别(ArT)中检测、识别、端到端三项任务的新记录,充分体现了搜狗在文字识别领域的领先优势。
硬件方面,搜狗并没有贸然进入白热化的智能音箱市场,而是另辟蹊径开辟了智能录音笔这个新的AI硬件战场,并且成为其中最大的玩家。为将来推出多模态硬件产品积累了经验。
同时,作为一家以搜索引擎技术起家公司,搜狗在知识图谱上具有得天独厚的优势。
以上这些技术和商业上的经验,都可以反哺搜狗的多模态交互。
在过去的一年里,搜狗已经完善了多模态的输出(虚拟主播),今天搜狗开始向多模态输入(同传3.0、语境引擎)的落地迈出了第一步。未来完整的多模态交互生态会是什么样?或许2020年搜狗会给我们答案。
- 脑机接口走向现实,11张PPT看懂中国脑机接口产业现状|量子位智库2021-08-10
- 张朝阳开课手推E=mc²,李永乐现场狂做笔记2022-03-11
- 阿里数学竞赛可以报名了!奖金增加到400万元,题目面向大众公开征集2022-03-14
- 英伟达遭黑客最后通牒:今天必须开源GPU驱动,否则公布1TB机密数据2022-03-05