微信翻译在WMT 2022斩获3项第一,相关能力已落地应用于业务场景
三年八冠
近日,WMT 2022国际机器翻译大赛的榜单停止提交结果并发布排名。其中,微信翻译团队在对话翻译和生物医学领域翻译的激烈竞争中脱颖而出,斩获三项冠军,分别是对话翻译比赛的英德和德英翻译冠军,以及生物医学领域翻译比赛中的中英翻译冠军。
挑战新赛道,微信翻译以雄厚技术底蕴夺取3项第一
WMT(Workshop on Machine Translation)由国际计算语言学协会 (ACL) 举办,是全球学术界公认的国际顶级机器翻译比赛之一。自2006年创办至今,WMT已经成功举办17届,每年吸引着来自全球的企业、科研机构和高校所组成的顶尖团队来参与角逐,包括微软、Facebook、DeepMind、百度、阿里巴巴、华为、字节跳动、日本情报通信研究机构(NICT)、清华大学、上海交通大学等。
在往届的WMT 2020和WMT 2021,微信翻译团队先后挑战了新闻赛道的中英翻译、英中翻译、日英翻译、英日翻译和英德翻译任务,并相继夺冠。今年,微信翻译团队探索双人(多人)对话场景和垂直领域场景的翻译技术,参加了新赛道,即对话翻译和生物医学领域翻译,并获得了三项冠军。其中,在对话翻译赛道(联合校企合作团队–北京交通大学)中获得了英德翻译和德英翻译冠军,在生物医学领域翻译赛道中获得中英翻译冠军。
据介绍,WMT 2022的对话翻译赛道融合了自然语言对话和机器翻译两大任务,旨在让不同母语的两人或多人进行无障碍地对话沟通,最终模型需要考虑两个人的对话内容、风格,保障信息交流更加顺畅和准确。华为、腾讯、知名AI翻译平台Unbabel、印度电子商务公司(IITP-Flipkart)、海外研究机构Naver Labs、爱丁堡大学在内的等众多顶尖团队角逐于该赛道。
而生物医学领域翻译赛道则旨在评估翻译系统在生物医学领域文件的翻译效果。这种垂直跨领域翻译相较于微信翻译此前涉及的歌词翻译、字幕翻译等日常场景更为复杂,训练数据少、术语翻译多等难点更需要专业领域的数据进行训练。该赛道也吸引了包括华为、腾讯、NVIDIA、巴塞罗那超级计算中心、剑桥大学等来自全球的企业、科研机构和高校所组成的顶尖团队参与此赛道的研究。
在本次WMT 2022的对话翻译和生物医学领域翻译任务的竞赛中,面对诸多强劲对手,微信翻译团队采用了性能与多样性俱佳的Mix-AAN Transformers架构,并在训练数据增强、训练优化、模型集成方面也探索并验证了多项技术,最终实现优异的翻译效果,夺得桂冠。
具体而言,在数据增强方面,微信翻译团队通过前向翻译、迭代回译、知识蒸馏来生产高质量的伪数据,并在源端加入不同粒度的人工噪声以及采用动态Top-p采样来提高伪数据的多样性。同时,在训练优化中加入目标端抗噪训练、Speaker-aware 模型训练、基于Prompt的对话历史建模、基于梯度调度的多任务训练等多种训练方式提升翻译效率和精度。模型集成方面,微信翻译团队基于WMT 2020和WMT 2021的竞赛经验,利用Self-BLEU去衡量模型间的多样性,有效地改进了集成搜索算法的效率,并针对任务特定的评估指标进行了适配。
技术反哺业务,相应技术已部署服务于千万用户
一直以来,微信翻译团队秉承着“业务问题驱动技术探索->紧跟前沿热血竞技->技术积淀反哺业务”的迭代优化思路,基于业界前沿的神经网络机器翻译技术打造了微信翻译引擎并进行了持续迭代,引入了前沿的机器翻译算法,不断创新模型架构和算法,提升翻译能力。发展至今,微信翻译已成为日均翻译近约百亿字符的高质量多语言机器翻译引擎,支持30+语种间的双向翻译,翻译效果达到业界一流水准。
目前,微信翻译已覆盖文本、图像、网页、语音、文档等主流翻译场景,成功适配到丰富多样的业务,服务于微信聊天、朋友圈、微信图片(包括扫一扫)、微信网页、输入框边写边译、企业微信、企微邮箱、QQ邮箱、企业邮箱、腾讯文档、微信读书、QQ音乐、WeTV、阅文集团、腾讯小微等20多个业务场景。近期,图片翻译和截图翻译能力也在Mac版和Windows版微信上线,服务于千万用户。
未来,微信翻译团队也将坚持从实际业务场景出发,持续深耕翻译技术,借由腾讯的产品生态帮助用户实现跨语言信息的高效转换、创造价值,为千万用户提供更为优质的智能服务。
- 开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law2024-12-17
- AI音乐战火升级!三路国产大军全面对决Suno2024-12-11
- o1满血版最鲜测!这¥1500花得值吗?2024-12-06
- 谷歌邀马斯克联手做AI游戏!DeepMind版Sora是个3D游戏引擎 profile-avatar2024-12-05