字节AI版小李子一开口：黄风岭，八百里

叨乐 2024-09-13 22:48:54 来源：量子位

数字人不再一眼假

叨乐发自凹非寺

量子位 | 公众号 QbitAI

字节和浙大联合研发的项目Loopy火了！

只需一帧图像，一段音频，就能生成一段非常自然的视频！

研究团队还放出了Loopy和同类应用的对比视频：

网友下场齐夸夸：

Loopy背后的技术有点牛哦！感觉互动媒体有新未来了！

前途无量奥！

真这么牛？咱们一起来看一下！

Loopy的生成效果

研究团队放出了一些DEMO视频，内容脑洞跨度有点大！

比如让小李子唱《黑神话》灵吉菩萨的陕北说书（高音时还会皱眉）：

视频播放器

Media error: Format(s) not supported or source(s) not found

Download File: http://www.qbitai.com/wp-content/uploads/2024/09/SaveTwitter.Net_IPwY8YYi_PWWRurF_512p.mp4?_=1

00:00

使用上/下箭头键来增高或降低音量。

让兵马俑满口英伦腔：

视频播放器

Media error: Format(s) not supported or source(s) not found

Download File: http://www.qbitai.com/wp-content/uploads/2024/09/SaveTwitter.Net_5odLTTe1YciiYssw_512p.mp4?_=2

00:00

使用上/下箭头键来增高或降低音量。

蒙娜丽莎张口说话：

视频播放器

Media error: Format(s) not supported or source(s) not found

Download File: http://www.qbitai.com/wp-content/uploads/2024/09/SaveTwitter.Net_kZBBVFr-mrb8DhsG_512p.mp4?_=3

00:00

使用上/下箭头键来增高或降低音量。

梅梅自带Bgm说古装台词（甚至还有挑眉的小动作）：

视频播放器

Media error: Format(s) not supported or source(s) not found

Download File: http://www.qbitai.com/wp-content/uploads/2024/09/SaveTwitter.Net_1X-M4dSUhgnkX4AF_512p-1.mp4?_=4

00:00

使用上/下箭头键来增高或降低音量。

狼叔的侧颜照也难不倒它：

视频播放器

Media error: Format(s) not supported or source(s) not found

Download File: http://www.qbitai.com/wp-content/uploads/2024/09/%E4%BE%A7%E8%84%B8%E7%94%B7%E6%98%9F.mp4?_=5

00:00

使用上/下箭头键来增高或降低音量。

叹息声的细节也能处理得很好：

视频播放器

Media error: Format(s) not supported or source(s) not found

Download File: http://www.qbitai.com/wp-content/uploads/2024/09/%E5%8F%B9%E6%81%AF%E5%A3%B0%E9%9F%B3.mp4?_=6

00:00

使用上/下箭头键来增高或降低音量。

真人肖像的效果也很自然（甚至说话时眼睛还会顺势看向其他方向）：

视频播放器

Media error: Format(s) not supported or source(s) not found

Download File: http://www.qbitai.com/wp-content/uploads/2024/09/%E7%9C%9F%E4%BA%BA%E5%A4%A7%E5%A7%A8.mp4?_=7

00:00

使用上/下箭头键来增高或降低音量。

Loopy如何“告别割裂感”？

看完这些毫无违和感DEMO视频，咱们来研究一下Loopy是如何生成这类视频的：

总的来说，Loopy是一个端到端的音频驱动视频生成模型。

它的框架可以由四部分构成，分别是：

ReferenceNet：一个额外的网络模块，它复制了原始SD U-Net的结构，以参考图像的潜在表示作为输入，来提取参考图像的特征。

DenoisingNet：一个去噪的U-Net，负责从噪声输入生成最终的视频帧。

在DenoisingNet的空间注意力层中，ReferenceNet提取的参考图像特征会与DenoisingNet的特征在token维度上进行拼接。

这样做是为了让DenoisingNet能够选择性地吸收ReferenceNet中与当前特征相关的图像信息，从而在生成过程中保持图像的视觉一致性。

简单来说，通过结合这两个网络的特征，DenoisingNet能够更好地利用参考图像的细节，提升生成结果的质量和连贯性。

Apperance：Loopy的外观模块，主要接收参考图像和运动帧图像，然后将它们压缩成特殊的数字编码(潜在向量)。

运动帧的潜在向量经过“时间序列模块”处理，与参考图像的潜在向量拼在一起。这样就融合了参考信息和动作信息。

然后将拼接后的潜在向量输入ReferenceNet模块中，生成一张特征图，标注着重要的视觉信息，方便供后续去噪模块使用。

Audio：Loopy的音频模块。模型先是使用Wav2Vec网络提取音频特征，并将每层的特征连接起来，形成多尺度音频特征。

然后对于每一帧视频，将前两帧和后两帧的音频特征连接，形成一个包含5帧音频特征的序列，作为当前帧的音频信息。

最后在每个残差块中，使用“交叉注意力”机制，将音频特征与视觉特征结合，计算出一个关注的音频特征，并将其与视觉特征相加，生成新的特征。

值得一提的是，模型中也涉及到了一个Audio2Latent模块，这个模块可以将音频信息映射到共享的运动潜在空间，进一步帮助模型理解音频与视频中人物动作之间的关系。

研究团队的实验结果如下：

One more thing

值得一提的是，在Loopy之前，字节和浙大就已经联合研发出了一款类似的项目CyberHost。

但与Loopy不同的是，CyberHost是一个端到端音频驱动的人类动画模型。

AI 字节

叨乐

在线可玩！智谱开源图生视频模型，网友直呼Amazing！2024-09-19
小心！AI能「看懂」你的唇语，悄悄话不再安全！2024-09-12
机器人也会系鞋带了！斯坦福团队赋予机器人新技能丨已开源2024-09-11
通用端到端OCR模型开源，拒绝多模态大模型降维打击2024-09-10

字节AI版小李子一开口：黄风岭，八百里

Loopy的生成效果

Loopy如何“告别割裂感”？

One more thing

相关阅读

达摩院2021年十大科技趋势出炉：量子计算、脑机接口、第三代半导体应用……

初二男生为外婆发明认人神器，帮认亲人，20分钟召唤回家，并报出家庭地址

阿里宣布：今年浙大双11包裹，全部由机器人送货上门

全球最大AI巨量模型，参数2457亿炼丹16天专注中文，打造者绝对让你意外

周杰伦把新歌做成数字藏品/ 战损版CyberTruck现身街头/ 法国用AI揪出2万个未纳税的泳池...今日更多新鲜事在此

算法炒房三月亏20多亿！房地产巨头大翻车：房价水太深，AI根本把握不住

热门文章

又一开源AI神器！将机器学习论文自动转为可运行代码库

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

Qwen3真香！通义App满血接入，一手实测在此

当购物用上大模型！阿里妈妈首发世界知识大模型，破解推荐难题