视频台词现在不用背也不用配,连对口型都免了

图像质量比其他方法更高

月石一 发自 凹非寺
量子位 报道 | 公众号 QbitAI

现在,给视频人物“喂”一段音频,他就能自己对口型了,就像这样:

 

原声其实是出自这里:

 

这是一种利用音频生成视频人物口型的新方法,出自慕尼黑工业大学Wojciech Zielonka的硕士论文。

用这种新方法对口型,只需2-3分钟就能够训练目标角色,生成的视频保留了目标角色的说话风格

并且不受语音来源、人脸模型和表情的限制

新方法与Neural Voice Puppetry、Wav2Lip、Wav2Lip GAN的生成效果,对比起来是这样的:

在保持较低唇部误差的同时,生成图像质量高于其他方法。

原理简介

具体来说,作者提出了一个新的框架,它由音频特征提取、投影网络、变形网络、颜色网络、组成网络几个部分组成。

首先,将输入音频转换为MFCC(梅尔频率倒谱系数),并进行特征提取

利用投影网络进行近似转换,将提取的特征嵌入到不同的低维空间。

为了顺利生成视频,研究人员还引入了一维卷积网络和一个衰减模块,以保持时间上的连贯性。

在变形网络中,作者使用了三维可变形人脸模型(3DMM),这是一种基于一组人脸形状和纹理的统计模型,将人脸表示为固定的点数。

将3DMM的网格输入变形网络,该网络能通过音频信号产生优化的3D形状。

再将其栅格化传递给色彩网络,每个三维点经过位置编码,并与音频嵌入相关联,最终通过色彩网络输出图像。

最后,用2D膨胀卷积网络建立的组成网络,将渲染的人脸被无缝地嵌入到背景中。

可以看到从3D形状到最终合成输出的效果:

这项研究采用了最小绝对值偏差(L1)和感知损失(VGG)这两个损失函数的组合。

先利用L1损失网络找到粗略图像,然后在训练过程中,通过VGG损失进行完善并学习细节。

性能如何?

研究人员使用数据集对模型进行了测试,数据集中共有6个人物。

其中,模型用于Krista和Obama时效果更好,生成图像与ground truth最为接近。

而Ayush的误差较高,作者表示,这可能是受到训练视频质量的影响

 

作者还对色彩网络的性能进行了评估,结果显示,即使3D形状在随机帧之间没有很大变化,色彩网络也能作出正确的预测。

论文中还给出了与其他方法的定量对比情况,整个数据集的图像质量误差如下:

在图像质量的3个指标中,新方法都优于其他方法

不过新方法也不是一直可靠,比如在合成时,也可能会产生位移误差,出现双下巴等。

此外,它还存在一定的局限性

由于3DMM并没有明确地对牙齿建模,目前的方法是将两个嘴唇封闭起来。因此,顶点的数量并没有改变,特征基数仍然成立。

拥有详细的牙齿几何形状,可以更好地捕捉说话时的面部运动,当然这在很大程度上取决于人们的说话风格。

此外,一个更大的局限是,在场景或演员变化时,就需要重新训练模型,并且只支持英语音频。

网友热议

作者把效果视频发在了Reddit上,引起了网友们的热议。图片

不少网友发现,视频人物的唇部动作,似乎效果不佳

除了“美国”之外,他的口型看起来对不上。

更多的网友对于这项技术的应用,提出了质疑。

这与在奥巴马静音的视频上播放音频有何不同?

就像这位网友所说,类似这样的人脸生成技术,很多都被用于造假,因此一直存在着伦理争议

网友们也为此感到担忧:

有时我会想到这些技术是如何被滥用的,这让我对未来感到有点难过。

我们需要虚假视频检测器,不知道这场战斗还要走多远。

拥有权利的同时,也被赋予了重大的责任!

如果这类应用盛行起来,人们也许不会相信视频了。

不过也有网友提到:

好在,就目前来说,检测比生成要要容易得多,效果也更好。

对于这项研究,作者表示,

它具有商业前景。比如,在未来,演员可以出售自己的(视频)化身。

仅需语音操纵,就能够制作电影或游戏,还可以使用根据文本生成的语音。

你希望这样的技术用在电影和游戏里吗?

参考链接:
[1]https://www.dropbox.com/s/o0hk73j1dmelcny/ThesisTUM.pdf?dl=0
[2]https://zielon.github.io/face-neural-rendering/
[3]https://www.reddit.com/r/MachineLearning/comments/ntiv0z/r_audiodriven_neural_rendering_of_portrait_videos/

版权所有,未经授权不得以任何形式转载及使用,违者必究。