AI新海诚就是在下，不信来玩

鱼羊 2020-08-11 13:10:11 来源：量子位

动画工作者福音

鱼羊发自凹非寺
量子位报道 | 公众号 QbitAI

这样的东京街景，是不是有点日系纪实动漫那种feel了？

现在，不需要人类画师一帧帧描画，把你拍下的视频喂给AI，就能让现实世界分分钟掉进二次元世界。

布景：

美食：

甚至复仇者联盟，也能瞬间打破电影宇宙和漫画宇宙的界限。

这项研究名为White-box-Cartoonization，来自字节跳动、东京大学和Style2Paints研究所。

论文已收录于CVPR 2020。

白盒卡通表示

如此AI「魔法」的关键，还是生成对抗网络（GAN）。

并且，研究人员提出了三个白盒表示方法，分别用来表示平滑表面、结构和纹理。

表面表示：表示动漫图像的光滑表面。

使用导向滤波器对图像进行处理，在保持图像边缘的同时平滑图像，去除图像的纹理和细节信息。

结构表示：获取全局结构信息和稀疏色块。

首先使用felzenszwalb算法将图像分割成不同的区域。

由于超像素算法只考虑像素的相似性而忽略语义信息，研究人员进一步引入选择性搜索来合并分割区域，提取稀疏分割图。

另外，标准的超像素算法会使全局对比度降低，导致图像变暗。

为此，研究人员提出了一种自适应着色算法，以增强图像对比度，减少朦胧效果。

然后，用预训练的VGG16网络提取生成器生成的图像和抽取的结构表示的高级特征，限制空间结构。

纹理表示：反映卡通图像中的高频纹理、轮廓和细节。

研究人员提出了一种从色彩图像中提取单通道纹理表示的随机颜色偏移算法，以保留高频纹理，减少色彩和亮度的影响。

整个GAN框架带有一个生成器G，以及两个判别器Ds和Dt。其中Ds旨在区分模型输出的表面表示和真正的动漫图像。Dt用于区分模型输出的纹理表示和真正的动漫图像。

具体而言，生成器网络是一个类似U-Net的全卷积网络。

研究人员使用 stride=2 的卷积层进行下采样，以双线性插值层作为上采样，以避免棋盘式伪影。

该网络只由3种层组成：卷积层、Leaky ReLU（LReLU）和双线性调整层。这使得该网络能轻松嵌入到手机等边缘设备中。

判别器网络则基于PatchGAN进行了调整，其最后一层为卷积层。

输出特征图中的每个像素对应输入图像中的一个图像块（patch），用于判断图像块属于真正的动漫图像还是生成图像。

训练数据集方面，风景图像采集自新海诚、宫崎骏和细田守的动漫作品，人像图像则来自京都动画和PA Works。影片都被剪辑成帧并随机剪裁，大小为256×256。

实验结果

所以，这种图像卡通化方法的效果究竟如何。

在定量实验中，研究人员发现，AI提取的表示成功愚弄了训练好的分类器。

与原始图像相比，分类器在三个提取的卡通表示中准确率都比较低。

另外，计算出的FID指标也显示，卡通表征有助于缩小真实世界照片和卡通图像之间的差距。

再来看一组直观的对比。

△(f)-(g)为CartoonGAN

与之前的方法相比，白盒框架能生成更为清晰的边界轮廓，并有助于保持色彩的和谐。

比如，图中(f)-(g)所展示的CartoonGAN的某些风格就存在色彩失真的问题，而白盒框架色彩更为自然。

另外，白盒框架也有效地减少了伪影，效果超越CartoonGAN。

网友：惊艳

如此效果，让不少网友大呼「惊艳」，在reddit上达到了500+的热度。

有网友表示，有了这样的黑科技，未来，或许只需要一个创意，就能打造一部好作品。市场的准入门槛将因此而降低。

也有网友认为，颜艺、卖萌这类现实中不存在的画面，还是要靠动漫制作人员的创作。不过，这样的AI将来无疑能减轻动漫制作人员的工作量。

现在，研究人员还放出了在线Demo，如果你感兴趣，可以亲自上手试试~

最后，左边出自人类的画笔，右边是AI的大作，你pick哪一个？

传送门

GitHub地址：https://github.com/SystemErrorWang/White-box-Cartoonization

在线Demo：https://cartoonize-lkqov62dia-de.a.run.app/cartoonize

— 完 —

GAN 日本动漫风格迁移

鱼羊

AI新海诚就是在下，不信来玩

白盒卡通表示

实验结果

网友：惊艳

传送门

相关阅读

爷青回！GAN生成的超级马里奥关卡，可以永不通关的那种

一周发明GAN！时间检验奖得主分享背后故事：每件发明都不是最后的发明

GAN版马里奥创作家来了：一个样本即可训练，生成关卡要素丰富 | 开源

仅需2张图，AI便可生成完整运动过程

一键完成室内设计：哈佛学霸造出ArchiGAN，房间规划家具摆放全都有，Demo可玩

最新3D GAN可生成三维几何数据了！模型速度提升7倍 | 英伟达&斯坦福

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把

中国AI投资五小龙：南林北曹，东剑西米，中王淮；清一色985理工科背景