神“脑补”！只要一段话，就知道你的说话手势 | UC伯克利

乾明 2019-06-25 08:43:26 来源：量子位

以后打电话，一边在电话里说着爱对方，一边却搞着小动作，会暴露的。

乾明发自凹非寺

量子位报道 | 公众号 QbitAI

防不胜防！现在， AI只需要听你的声音，就能知道你说话手势了。

这项“脑补力”Max的新研究，来自UC伯克利大学等机构，被今年的学术顶级会议CVPR 2019收录。

在他们的研究中，只需要输入一段语音，就预测出了说话人的手势，基本没有什么违和感。

不信？看看美国知名脱口秀Last Week Night主持人Oliver就知道了，他的手势已经被AI研究透了。说话的时候，肩膀什么角度，手指如何挥动，预测得一清二楚。

而且，不仅仅是坐着的脱口秀主持人，他们的研究也覆盖了其他各种场景：

站着的脱口秀主持人，说话的手势比较豪放：

比如老师上课时，使用这样的手势：

看到这项研究之后，就有网友评论称，不知道它能不能预测川普的魔性手势？

也有人表示，还好这只是项研究，如果能够应用到现实中，那还了得？

以后打电话，一边在电话里说着爱对方，一边却搞着小动作，会暴露的。

怎么实现的？

手势，是人们在说话过程中自发发出的行为，用于补充语音信息，来帮助更好地传递说话人的想法。

通常情况下，说话的时候，手势与话语都是有关联的。但想要从话语中获取手势信息，还需要学习音频和手势之间的映射关系。在实践中，还有不少麻烦：

首先，手势和话语是异步的，手势可以出现在相应话语前、后或者期间。
其次，这是一项多模态的任务，说话人在不同的场合，说同样的话，手势可能不一致。
而且，每个人说话时的手势也是非常特别的，不同的说话者倾向于采用不同的说话手势。

为了解决这些问题，研究人员提出了一种时间跨模态翻译的方法，采用端到端的方式将语音转换成手势，并使用了范围非常大的时间背景来进行预测，以此克服异步性问题。

他们建立了一个由10名说话人组成的144个小时的大型个人视频数据集。为了体现出模型的适用范围，说话人的背景不尽相同：有电视节目主持人、大学教师和电视上的福音传道者。

他们讨论的话题也跨越了很多话题，从死亡哲学、化学到摇滚音乐历史、时事评论以及阅读圣经、古兰经等等。

现在，这一数据集已经对外开放。

具体是如何从话语中预测出手势的呢？请看下图：

给定一段语音，通过翻译模型（G）预测说话人与话语匹配的手势动作（手和胳膊的运动）。

然后采用回归函数（L1）从数据中提出训练信号，并通过度抗性鉴别器来确保预测的只是在时间上与话语是一致的，并符合说话人的风格。

然后用一种现有的视频合成方法来生成说话人说出这些话时的样子。

整个卷积网络，由一个音频编码器和一个1D UNet翻译架构组成。音频编码器采用2D对数-梅尔频谱图作为输入，并通过一系列卷积对其进行下采样，从而产生与视频采样率相同的1D信号(15 Hz)。

UNet翻译架构随后通过L1回归损失学会将该信号映射到手势向量的时间堆栈。

之所以使用UNet架构进行翻译，是因为它的瓶颈为网络提供了过去和未来的时间上下文，允许高频时间信息流过，从而能够预测快速的手势运动。

虽然L1回归是从数据中提取训练信号的唯一方法，但它存在回归均值的已知问题，这种回归均值会产生过度平滑的运动。为了解决这个问题，添加了一个以预测的姿态序列的差异为条件对抗性鉴别器。

研究团队

这一研究的作者，大部分来自UC伯克利。

一作为Shiry Ginosar，UC伯克利计算机系的博士生。之前是人机交互领域的研究员，曾经在CMU计算机系做访问学者。

共同一作为Amir Bar，是一名生活在伯克利的机器学习工程师。目前，在Zebra Medical Vision工作，致力于提高医疗保健领域的效率。

他们在论文中说，这一研究是朝着对话手势的计算分析迈出的一步，之后也可以用于驱动虚拟任务的行为。

最后，送上传送门：

论文地址：

http://people.eecs.berkeley.edu/~shiry/speech2gesture/

源代码即将公开：

https://github.com/amirbar/speech2gesture

机器学习计算机视觉

乾明

神“脑补”！只要一段话，就知道你的说话手势 | UC伯克利

相关阅读

「Smile」一下，轻松用Java玩转机器学习

上天探索脉冲星，下海保护白海豚，腾讯这个AI团队，今年真的有点忙

李沐在斯坦福开新课了！面向机器学习实战，课程全部免费，9月1日可报名

被骂了三年，谷歌Dropout专利还是生效了，卡脖子预警

学霸笔记！吴恩达新书《机器学习训练秘籍》六大要点总结

告别数据集资源匮乏，谷歌与斯坦福用弱监督学习给训练集打标签

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此