三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化，AnimeGAN已开源

鱼羊 2020-03-27 17:02:41 来源：量子位

鱼羊发自凹非寺
量子位报道 | 公众号 QbitAI

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

看到这样的街角，是不是想问这是哪一部日本动画电影里的场景？

宫崎骏、新海诚的电影常常从现实场景中获取灵感，这张“日本动漫”截图同样有对应的真实空间。

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

但这一次，打破次元壁的却不是人类画师，而是一只名叫AnimeGAN的GAN。

繁华街道，车水马龙，几秒即可在二次元场景中复现：

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

即便是西方街景，在AnimeGAN的画笔下，也能毫无违和转化成日漫画风：

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

看完AnimeGAN的作品展示，我产生了一个大胆的想法。

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

看，我的二次元和三次元老婆完美统一了！

风格迁移+生成对抗网络（GAN）

这项来自武汉大学和湖北工业大学的研究，采用的是神经风格迁移 + 生成对抗网络（GAN）的组合。

除了解决生成图像动画风格纹理不明显、丢失原始图像内容这样的问题，AnimeGAN最大的特点是快。

比如上面的石原里美，在V100上跑了1.64s就完成了次元的跃迁。

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

那么，这个轻量级的GAN有什么样的特别之处呢？

AnimeGAN架构

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

作者介绍，AnimeGAN是基于CartoonGAN的改进，并提出了一个更加轻量级的生成器架构。

AnimeGAN的生成器可以视作一个对称的编码器-解码器网络，由标准卷积、深度可分离卷积、反向残差块、上采样和下采样模块组成。

为了有效减少生成器的参数数量，AnimeGAN的网络中使用了8个连续且相同的IRB（inverted residual blocks）。

在生成器中，具有1×1卷积核的最后一个卷积层不使用归一化层，跟随其后的是tanh非线性激活函数。

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

上图中，K为内核大小，C为特征图数量，S为每个卷积层的跨度，H是特征图的高度，W是特征图的宽度，Resize值用于设置特征图大小的插值方法，⊕表示逐元素加法。

损失函数

论文还提出了三个新的损失函数，以提升风格化的动漫视觉效果。

△不同权重的定性比较

灰度风格损失：

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

灰度对抗损失：

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

生成器网络的颜色重建损失（基于图像像元的损失）：

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

实验结果

与CartoonGAN相比，可以明显看出AnimeGAN参数更少，模型更小，计算量更少，推理速度更快，是一个相对轻量级的GAN。

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

细节甚至还更胜一筹。

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

与此前的SOTA方法相比，可以看出，CartoonGAN生成的动漫图像中通常会存在颜色伪影区域（图中红框），ComixGAN生成的动漫图像中通常会存在过度风格化的区域(失去了原始照片的内容，目标纹理难以辨识），而AnimeGAN很好地解决了这些问题。

定性分析，AnimeGAN取得了比SOTA方法更高质量的视觉动漫效果。

目前，AnimeGAN已经开源，数据集和预训练模型均可下载。如果你也想把自己记录的风景用宫崎骏/新海诚/今敏的风格呈现，不妨一试~

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

One More Thing

或许你已经猜出来了，AnimeGAN的作者们本身也是二次元文化爱好者，出于兴趣开始了这样一个研究项目，真·「我的兴趣就是我的工作」。

论文作者，是湖北工业大学刘罡副教授，陈颉博士和他们的学生Xin Chen。

此前，刘教授和Xin Chen还研究了一个动漫线稿自动上色模型，GitHub用户@pradeeplam根据他们的论文进行了复现，效果也很不错。

三次元风景照秒变宫崎骏动画，还能把石原里美吉卜力化 | 开源

传送门

GitHub地址（含论文）：https://github.com/TachibanaYoshino/AnimeGAN

作者知乎专栏：https://zhuanlan.zhihu.com/p/76574388

上色项目：https://github.com/pradeeplam/Anime-Sketch-Coloring-with-Swish-Gated-Residual-UNet

— 完 —

版权所有，未经授权不得以任何形式转载及使用，违者必究。

GAN 风格迁移

相关阅读

英伟达超快StyleGAN回归，比Stable Diffusion快30多倍，网友：GAN好像只剩下快了

“让GAN再次伟大？”

萧箫2023-01-30

GAN stylegan 图像生成

用GAN也可以P图，效果还不输PS | 英伟达出品

给自己多P点头发

丰色2021-11-12

GAN 图像处理英伟达

用GAN创造新蛋白只需几周，大幅缩短制药周期 | Nature子刊

你以为GAN只能用来生成虚假的人脸吗？

贾浩楠2021-05-04

GAN 生物医药

谁说只有VGG才能做风格迁移，ResNet也可以！答案就在对抗攻击中

图像分类准确率高可能不是“好事”

晓查2019-06-29

ResNet 风格迁移

GAN版马里奥创作家来了：一个样本即可训练，生成关卡要素丰富 | 开源

仅需要一个示例，就可以进行训练。

鱼羊2020-08-09

GAN

仅需2张图，AI便可生成完整运动过程

还带眨眼的那种

十三2021-05-03

AI 人工智能风格迁移

热门文章

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

智能车速度刷新：仅10个月，首个纯端侧大模型上车量产！

一手实测！文心X1/4.5 Turbo推理和多模态双双变强，还把模型成本降了6成？！

百度阮瑜：大模型应用落地正从简单高容错向复杂低容错场景延伸｜中国AIGC产业峰会

电视装了智能体，只凭台词就能找到剧集了