千万别让富坚义博看到这个

明敏 2022-07-22 14:27:51 来源：量子位

一句话生成动漫

明敏萧箫发自凹非寺

量子位 | 公众号 QbitAI

先来看一段高清版的《清明上河图》：

你能看出这幅画与原作的差异吗？

其实，这是AI续画的一段《清明上河图》，一眼望去，这画面还真是有些真假难辨了。

笔墨色彩几乎完全复刻了原作。

无论是房屋树木，还是市集中熙熙攘攘的人群，AI的笔法都抓到了原作的风格神韵，拼在一起乍一看还真认不出来。

千万别让富坚义博看到这个

△左是原作，右是AI复刻

画质还是38912×2048像素的那种，能直接把画面拉大3、4倍看细节。

喏，店铺里的小人在干啥看得一清二楚，体态和衣着也各不相同。

这就是由全华人团队打造的AI——女娲·无限版 （NUWA INFINITY）。

只要给它喂一些图片、或是输入一段文字，它就能进行更细致的拓展，最终生成一幅完整的高清图像、甚至是一段流畅视频。

这是它学习了《清明上河图》之后，画出的完整版“大作”。

论文前脚刚上传到arXiv，推特上就已经引发各路网友狂呼amazing！

还有油管博主光速更新视频讲解。标题直接用上了“超越DALL·E 2”、“4K”的字眼。

除了续画《清明上河图》之外，微软的经典蓝天白云壁纸，经它之手都能变成无限加长版。

还能根据文本提示，在图像上加不同元素：要光有光，要雪有雪。（这还真是女娲技能了）

相较于当下热门的DALL·E、Imagen和Parti，女娲无限版支持生成任意大小的高分辨率图像，同时还支持生成长视频。

（没错，继AI续写小说热潮之后，现在AI终于也能续画了）

研究人员表示，他们希望这一模型能够帮助创作者们提高生产力。

所以，女娲无限版还有什么大招？

我们一起来看~

风格完美模仿，图像视频生成全搞定

总体来看，这个AI女娲无限版是个全能选手，可以挑战5种高清视觉任务。

分别是：

让图像动起来（Image Animation）
根据文本生成视频（Text-to-Video）
根据文本生成图像（Text-to-Image）
图像补全（Image Outpainting）
图像生成（Image Generation）

先来看让图像动起来的效果。

一张静态的沙滩照片经AI之手后，图中的海浪都能自然地拍打海岸，层层叠叠仿佛是真实的景色一般。

一句话生成视频就更让人惊喜了。

这不，给它一个小猪佩奇原版的视频，然后再输入一句话，这位“女娲”就能自己做动画片了。

这效果完全看不出是AI做的啊，分辨率也达到了1280×1024。甚至都能拿去蒙骗小孩子？

（嗯，别让富坚义博看到这个AI……）

能根据文本搞定视频，当然图像也不在话下。

给AI一张风景照，再输入不同的文本表示，它就能根据需要在照片中加各种元素了。

比如滚滚海浪、群山环绕、星空、云彩等，都可搞定。

接下来则是文本图像生成了。这个任务可以说是DALL·E2、Imagen和Parti的“拿手好戏”，也是这段时间几大模型battle的核心。

不过从生成效果来看，NUWA-Infinity也同样“可以一战”。

千万别让富坚义博看到这个

△“微软已加入战场”

输入“田野上有房子、天空中有云彩”，女娲无限版立刻呈现出了一张景色优美的照片。

分辨率高达4069×1024，仿佛是拿单反真实拍下的一样。

最后，就是NUWA-Infinity的核心能力——“续画”了。

在补充图像上，这只AI已经挑战了不少世界名画，并且都可以做到几乎以假乱真。

梵高笔下的星空，它能补充浩瀚深邃的画面。

笔触连接的地方十分丝滑，整体画面的协调感也很高。

莫奈的名作也能信手拈来。

值得一提的是，原画中人物的影子沿着右下方拉去，AI在补充画面的时候，还非常聪明地在左边补充了太阳。

阳光洒在海面上，波光粼粼的细节都画出来了。

除了世界名画以外，风景照片同样也能补全啦。

这效果，仿佛它就在拍照现场，直接把原本的画面搬了上来。

那么，NUWA-Infinity究竟是怎么拥有“续画”的能力呢？

基于自回归的“无限视觉合成”

与DALL·E和Imagen最大的不同在于，NUWA-Infinity在图像生成上没有采用扩散模型。

这是因为，扩散模型虽然在图像生成上效果不错，但它没有办法改变输出图像的大小，包括训练和推理图像的宽高是被预先定义好的。

因此，为了让模型学会“续画”，论文提出了一种基于自回归的自回归生成模型（autoregressive over autoregressive generation），训练时将图像被分成很多个小块，然后再对每个小块（patch）分别进行训练。

不过，如果只对这些patch单独训练，容易导致合成图像时出现“不和谐”的结果，例如把头发p到脸上等等。

因此，与一些基于GAN的模型直接对每个patch进行独立训练不同，NUWA-Infinity在进行训练时，有意识地去加强各个patch之间的“依赖性”。

除了对每个patch进行独立训练以外，NUWA-Infinity在推理图像时，还会要求各patch与周围的patch产生“联系”，让生成的图像更具有连续效果。

当然，推理出图像或视频的步骤，在NUWA-Infinity做不同任务时也不一样。

由于文本是一维数据，图像是二维（宽+长）数据，视频则是三维数据（宽+长+时间），因此NUWA-Infinity在做不同任务时，推理的顺序也不同。

例如，在“补全图像”的过程中，图像推理是一圈一圈向外生成的；而在文本生成图像、或是视频文本生成时，这些推理的顺序又有不一样的变化：

不过，NUWA-Infinity也还有一些局限性，例如与DALL·E2和Imagen不同的是，它是在特定数据集（清明上河图、小猪佩奇等）上训练的。

因此，一方面NUWA-Infinity在更一般的数据集上是否也能表现出这么好的效果，还有待佐证；

另一方面，在文本生成图像上，目前作者并没有将它这一能力与DALL·E2和Imagen等模型进行对比，因此在这一任务上并不能说它是最优秀的，只能说生成图像大小上减少了一些限制。

作者：代码在尽力肝了

论文的一作吴晨飞（Chenfei Wu），博士毕业于北京邮电大学，现工作于微软亚研院。

在北邮读博期间，他在NeurIPS和ACM Multimedia等顶会上发表过不少与视觉问答（VQA）相关的论文。

△图源北邮计算机学院

共同一作梁健，来自北京大学。

值得一提的是，去年被ECCV 2022收录的NUWA论文，也是这两位作者合作产出的。

此外，来自微软Azure AI团队的Xiaowei Hu、Zhe Gan、Jianfeng Wang、Lijuan Wang、Zicheng Liu，以及北大副教授方跃坚也参与了此次研究，通讯作者则是微软亚研院的高级研究员&研究经理段楠。

对于这项研究本身，有网友调侃：才注册完DALL·E2测试版就看到这个，快跟不上节奏了……

还有网友大胆想象“有生之年”系列：以这个速度，世纪结束前我们是不是能玩上“可实时生成”的定制VR游戏了？

但对于研究的效果，也有读者怀疑是在“吹牛”，因为这次的“无限版”NUWA还并没有开源。对此作者之一Zhe Gan回应表示：

我们也很想放出代码，正在努力ing。

此外也有读者对于AI“续画”的能力提出了疑问：

对于AI来说，到底是“续”一幅画难，还是从0生成一个图像更难？

你觉得呢？

论文地址：
https://arxiv.org/abs/2207.09814

项目地址：
https://nuwa-infinity.microsoft.com/#/

参考链接：
[1]https://twitter.com/_akhaliq/status/1549954767585173505
[2]https://twitter.com/zhegan4/status/1549970325705658369
[3]https://scs.bupt.edu.cn/info/1027/1798.htm
[4]https://www.youtube.com/watch?v=_KvGSf1y0MU

AI画画图像生成文本转视频

明敏

千万别让富坚义博看到这个

风格完美模仿，图像视频生成全搞定

基于自回归的“无限视觉合成”

作者：代码在尽力肝了

△图源北邮计算机学院

相关阅读

原画师惊呆：这个爆火AI真把梦境画成现实了！下载APP人人可用

博士意外发现秘密：DALL-E 2自创语言，人看不懂但能生成特定图像，可能会被用来搞事！

Stable Diffusion团队开撕！“背后公司”刚成独角兽，最新版本遭原作者抢发：这是我们的

AI画画模型成本被打下来了！预训练成本直降85%，微调只需单张RTX 2070，这个国产开源项目又上新了

AIGC落地门槛被打下来了：硬件预算一口气降至1/46，低成本上手Stable Diffusion2.0，一行代码自动并行

字节最新文本生成图像AI，训练集里居然没有一张带文字描述的图片？！

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把