谷歌AI不识字也能翻译：直接把音频翻成音频，不用先转文本

栗子 2019-04-17 00:17:08 来源：量子位

语音识别什么的，才不用呢

翻栗子发自凹非寺

量子位出品 | 公众号 QbitAI

在我们的世界里，谷歌翻译是这样的：

△ 一直被调戏的翻译娘

在谷歌的世界里，谷歌翻译是这样的：

△ 西语→英语：你不问，就不会知道了

请注意，视频里的文字只是为了便于观赏，才存在的。

而AI在翻译语音的时候，不把西语的音频转成文本，也不生成任何英语的文本，直接产出了英文音频。和标答一字不差。

这是谷歌团队的最新成果，想法大胆而有效。

仿佛在双语环境里出生的小朋友，还没识字，就能把爸爸说的话翻译给妈妈。

怎么会不用看文本？

这个翻译模型，名字叫做S2ST (全称Speech-to-Speech Translation) 。

不看文本只靠听，背后的原理是把一种语音的声谱图 (Spectrogram) ，映射到另一种语音的声谱图上。

那么，声谱图什么样？

下图就是 (西语) “你好么，嘿，我是威廉，你怎么样啊？”的声谱图。

△ 横轴是时间，纵轴是Mel频率

然后是目标，英文的声谱图。

AI只要从大量的成对数据里，学懂英文和西语的声谱映射关系，就算不识别人类说的是什么字，依然能当上翻译员。

当然，一个完整的翻译模型，并没有上面说的这么简单，它由三个部分组成：

一是基于注意力的序列到序列 (seq2seq) 神经网络。就是下图的蓝色部分，它负责生成目标声谱图，这只是第一步，还不是音频；

二是一个声码器(Vocoder) 。下图的红色部分，它会把声谱图转换成时域波形 (Time-Domain Waveforms) ，这已经是带有时间顺序的正经声波了；

三是个可选的附加功能，原本说话人的编码器。绿色部分，经过它的加工，翻译出的英文，和原本的西语，听上去就像同一个人发出来的。

当然，蓝色部分还是主角。

里面的编码器 (左) ，是8层双向LSTM堆起来的；而解码器 (Spectrogram Decoder) ，团队说要选4-6层LSTM的，深一点效果比较好。

成功了

模型是用人类自发的对话 (比如打电话的语音) 端到端训练出来的，一起来看看成果吧。

第一题，短语。“克兰菲尔德大学的新员工”，翻译和标答一字不差。

原文：nuevos empleados de Cranfield University

标答：New hires at Cranfield University

第二题，句子。“看看这个国家上下，你看到了什么”，依然和标答一致。

原文：Por lo tanto, mirar alrededor del país y lo que ves.

标答：So, look around the country and what do you see?

对手表现怎样？借助转换文本来翻译的AI，缺了个“do”字：

第三题，带从句的句子。“我的表 (堂) 兄弟姐妹们小的时候，我照顾过他们也教过他们，有过一些这样的经历。”

原文：Tengo cierta experiencia en cuidar y enseñar a mis primos cuando eran jóvenes.

标答：I’ve got some experience in looking after and teaching my cousins when they were young.

照顾 (Taking Care of) 有缺失，其他部分对比标答是完整的。

再看对手，“照顾 (Care) ”和“教 (Teach) ”都用了动词原形，语法不是很严格：

肉眼看过之后，再让S2ST和先转换文本再翻译的AI对比一下BLEU分。

在“Conversational”大数据集上，S2ST的BLEU分比对手差了6分：42.7比48.7。

的确还有一些差距，但毕竟对手依靠了文本，算是开卷考了。

这样说来，直接跳过文本的想法，虽然听起来有些飘，但结果证明是可行的。

所以，谷歌团队说，大有可为啊。

论文传送门：

https://arxiv.org/pdf/1904.06037.pdf

更多样本传送门：

https://google-research.github.io/lingvo-lab/translatotron/

机器学习机器翻译谷歌

栗子

马云正式卸任后，阿里巴巴开盘跌0.87%2019-09-10
亚马逊在华拓展云计算团队，挑战阿里巴巴和腾讯2019-10-16
AI独角兽云知声，已完成一期科创板IPO辅导2019-10-17
IDC：今年上半年中国公有云服务市场规模达54.2亿美元2019-11-07

谷歌AI不识字也能翻译：直接把音频翻成音频，不用先转文本

怎么会不用看文本？

成功了

相关阅读

NVIDIA何琨：AI视频处理加速引擎TensorRT及Deepstream介绍

谷歌量子计算突破登Nature封面，200秒顶超算10000年，川普之女：美国实现量子霸权

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

他是清华姚班高材生，选择从谷歌辞职回山西教书，张昆玮说「不想像成功学那样生活」

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

机器学习内卷化：博士数量激增，本硕毕业生有点慌 | reddit热议

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此