视频台词现在不用背也不用配，连对口型都免了

子豪 2021-06-14 15:57:04 来源：量子位

图像质量比其他方法更高

月石一发自凹非寺
量子位报道 | 公众号 QbitAI

现在，给视频人物“喂”一段音频，他就能自己对口型了，就像这样：

视频播放器

Media error: Format(s) not supported or source(s) not found

Download File: http://www.qbitai.com/wp-content/uploads/2021/06/11111.mp4?_=1

00:00

00:00

00:00

使用上/下箭头键来增高或降低音量。

原声其实是出自这里：

视频播放器

Media error: Format(s) not supported or source(s) not found

Download File: http://www.qbitai.com/wp-content/uploads/2021/06/22222.mp4?_=2

00:00

00:00

00:00

使用上/下箭头键来增高或降低音量。

这是一种利用音频生成视频人物口型的新方法，出自慕尼黑工业大学Wojciech Zielonka的硕士论文。

用这种新方法对口型，只需2-3分钟就能够训练目标角色，生成的视频保留了目标角色的说话风格；

并且不受语音来源、人脸模型和表情的限制。

新方法与Neural Voice Puppetry、Wav2Lip、Wav2Lip GAN的生成效果，对比起来是这样的：

在保持较低唇部误差的同时，生成图像质量高于其他方法。

原理简介

具体来说，作者提出了一个新的框架，它由音频特征提取、投影网络、变形网络、颜色网络、组成网络几个部分组成。

首先，将输入音频转换为MFCC（梅尔频率倒谱系数），并进行特征提取。

利用投影网络进行近似转换，将提取的特征嵌入到不同的低维空间。

为了顺利生成视频，研究人员还引入了一维卷积网络和一个衰减模块，以保持时间上的连贯性。

在变形网络中，作者使用了三维可变形人脸模型（3DMM），这是一种基于一组人脸形状和纹理的统计模型，将人脸表示为固定的点数。

将3DMM的网格输入变形网络，该网络能通过音频信号产生优化的3D形状。

再将其栅格化传递给色彩网络，每个三维点经过位置编码，并与音频嵌入相关联，最终通过色彩网络输出图像。

最后，用2D膨胀卷积网络建立的组成网络，将渲染的人脸被无缝地嵌入到背景中。

可以看到从3D形状到最终合成输出的效果：

这项研究采用了最小绝对值偏差（L1）和感知损失（VGG）这两个损失函数的组合。

先利用L1损失网络找到粗略图像，然后在训练过程中，通过VGG损失进行完善并学习细节。

性能如何？

研究人员使用数据集对模型进行了测试，数据集中共有6个人物。

其中，模型用于Krista和Obama时效果更好，生成图像与ground truth最为接近。

而Ayush的误差较高，作者表示，这可能是受到训练视频质量的影响。

作者还对色彩网络的性能进行了评估，结果显示，即使3D形状在随机帧之间没有很大变化，色彩网络也能作出正确的预测。

论文中还给出了与其他方法的定量对比情况，整个数据集的图像质量误差如下：

在图像质量的3个指标中，新方法都优于其他方法。

不过新方法也不是一直可靠，比如在合成时，也可能会产生位移误差，出现双下巴等。

此外，它还存在一定的局限性。

由于3DMM并没有明确地对牙齿建模，目前的方法是将两个嘴唇封闭起来。因此，顶点的数量并没有改变，特征基数仍然成立。

拥有详细的牙齿几何形状，可以更好地捕捉说话时的面部运动，当然这在很大程度上取决于人们的说话风格。

此外，一个更大的局限是，在场景或演员变化时，就需要重新训练模型，并且只支持英语音频。

网友热议

作者把效果视频发在了Reddit上，引起了网友们的热议。

不少网友发现，视频人物的唇部动作，似乎效果不佳。

除了“美国”之外，他的口型看起来对不上。

更多的网友对于这项技术的应用，提出了质疑。

这与在奥巴马静音的视频上播放音频有何不同？

就像这位网友所说，类似这样的人脸生成技术，很多都被用于造假，因此一直存在着伦理争议。

网友们也为此感到担忧：

有时我会想到这些技术是如何被滥用的，这让我对未来感到有点难过。

我们需要虚假视频检测器，不知道这场战斗还要走多远。

拥有权利的同时，也被赋予了重大的责任！

如果这类应用盛行起来，人们也许不会相信视频了。

不过也有网友提到：

好在，就目前来说，检测比生成要要容易得多，效果也更好。

对于这项研究，作者表示，

它具有商业前景。比如，在未来，演员可以出售自己的（视频）化身。

仅需语音操纵，就能够制作电影或游戏，还可以使用根据文本生成的语音。

你希望这样的技术用在电影和游戏里吗？

参考链接：
[1]https://www.dropbox.com/s/o0hk73j1dmelcny/ThesisTUM.pdf?dl=0
[2]https://zielon.github.io/face-neural-rendering/
[3]https://www.reddit.com/r/MachineLearning/comments/ntiv0z/r_audiodriven_neural_rendering_of_portrait_videos/

版权所有，未经授权不得以任何形式转载及使用，违者必究。

图像生成计算机视觉配音

相关阅读

首个镜子分割网络问世，大连理工、鹏城实验室、香港城大出品 | ICCV 2019

乾明2019-09-17

计算机视觉

入围CVPR最佳论文，这项AI基础研究让我们对虎牙刮目相看

AI正在变革视频行业，玩法越来越丰富。

晓查2019-07-02

计算机视觉

AI分割一切！智源提出通用分割模型SegGPT，「一通百通」的那种

SegmentAnything Model

鱼羊2023-04-09

实例分割计算机视觉

高通CVPR神研究：视频处理计算量降低78%，教卷积层自己“挑像素”，卡成PPT的视频纵享丝滑

身边的“隐形”AI黑科技

萧箫2021-06-15

人工智能视频处理计算机视觉

这届CVPR，已经改成了100%线上会议，连POSTER都不用了

郭一璞2020-05-12

AI顶会 CVPR CVPR2020 计算机视觉

照片上的人出来了！云从3D人体重建登顶三项榜单，一张照片就能生成3D形象

你的Mate 20 Pro是不是买早了？

郭一璞2019-03-20

3D人体重建云从计算机视觉

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把