这个AI“大师级”简笔画水平，惊艳到了网友：竟然不用GAN

十三 2020-12-19 13:21:38 来源：量子位

demo在线可玩

金磊发自凹非寺
量子位报道 | 公众号 QbitAI

AI画的简笔画能到什么水平？

给一张美国演员Rami Malek的照片，效果是这样的。

是不是和原图很逼近了？

再来看下输入《老友记》合影的效果。

虽然人物众多，但出来的简笔画效果，依旧还是能分清剧中的人物。

如果毛发特别浓密的人物照，AI还能hold得住吗？

小姐姐“爆炸头”的边缘毛发，也算得上是完美还原了。

再近距离一些的呢？来看“霉霉”（Taylor Swift）照片的效果。

可以说是相当的细节了，把发丝的层次感、光感，以及衣物的褶皱，都发挥的“淋漓尽致”。

……

这些就是出自一个叫ArtLine的AI的作品。

而且它在Reddit非常火爆，已经达到了1100+的热度。

如此惟妙惟肖的效果，你是不是认为又是GAN的功劳？

错！

ArtLine完全没有用到GAN：

也正因如此，ArtLine的效果真真儿的惊艳到了网友。

那么，它是如何做到的呢？

ArtLine背后的三大“法宝”

ArtLine的作者十分爽快地分享了其背后的三大技术：

Self-Attention
Progressive Resizing
Generator Loss

接下来，一起逐一看下各个技术背后的细节内容。

Self-Attention部分引用的技术，出自两年前GAN之父lan Goodfellow等人提出的研究。

等等，刚才不是还说“没用到GAN”吗？

作者对此的解释是：

并没有起到太大作用。

这项研究主要是在GAN生成中加入了注意力机制，同时将SNgan的思想引入到生成器当中。

所要解决的是传统GAN自身存在的一些问题，例如：

使用小的卷积核很难发现图像中的依赖关系
使用大的卷积核就会丧失卷积网络参数与计算的效率

研究中核心的自注意力机制如下图所示。

其中，f(x)，g(x)和h(x)都是普通的1×1卷积，差别只在于输出通道大小不同。

而后，将f(x)的输出转置，并和g(x)的输出相乘，再经过softmax归一化，得到一个Attention Map。

得到Attention Map之后，和h(x)逐像素点相乘，得到自适应的注意力feature maps。

从结果上来看，引入自注意力机制的效果，确实在FID和IS两个性能指标下，得到了较好的效果。

ArtLine涉及到的第二个技术灵感，来自英伟达在2018年的一项研究。

这项研究主要提出了一种新的训练对抗神经网络的方法。

核心思想是逐步训练生成器和判别器：从低分辨率开始，随着训练进程推进，逐步增加新的层来提炼细节。

这种方法不仅加快了训练速度并且更加稳定，可以产生高质量的图像。

ArtLine所涉及到的最后一个技术，是来自斯坦福大学李飞飞团队在2016年提出的研究。

这项研究主要解决了实现的风格转换，比较费时的问题。

风格转换部分主要用了上面的网络模型，这个模型可以分为两部分：左侧是图像转换网络，而右侧是损耗网络。

其超分辨率重建也是采用上面的网络模型，只是具体内部的图像转换网络部分稍有区别。

这个网络与之前的研究相比，效果达到了相当的水平，但速度却提升了百倍之多，达到3个数量级。

关于作者

ArtLine的项目作者叫做Vijish Madhavan。

他在GitHub中坦言自己并非程序员出身，也道出了ArtLine目前存在的一些缺陷，例如处理像素低于500px的图像时，效果并不理想等。

现在，ArtLine可以在线玩了！

感兴趣的读者，可以戳下方链接体验一下。

Colab链接：

https://colab.research.google.com/github/vijishmadhavan/Light-Up/blob/master/ArtLine(Try_it_on_Colab).ipynb.ipynb)
https://colab.research.google.com/github/vijishmadhavan/Light-Up/blob/master/ArtLine.ipynb

GitHub项目地址：

https://github.com/vijishmadhavan/ArtLine

AI 简笔画自注意力机制

十三

这个AI“大师级”简笔画水平，惊艳到了网友：竟然不用GAN

ArtLine背后的三大“法宝”

关于作者

相关阅读

Nature发AIGC禁令！投稿中视觉内容使用AI的概不接收

Prompt自相矛盾，大模型能发现吗？上海交通大学最新研究解密

把AI放进《我的世界》服务器：GPT-4o杀牛宰羊，Claude3.5把家拆了｜开源

三星又来黑iPhone/ 骗的就是90后/ 马斯克让斯坦福摊上事儿了… 今日更多新鲜事在此

原蚂蚁金服AI专家张家兴出任360金融首席科学家

全球最大AI巨量模型，参数2457亿炼丹16天专注中文，打造者绝对让你意外

热门文章

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

数学家们仍在追赶天才拉马努金

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

蔚来李斌：一年减少了数十亿英伟达芯片采购