如果让AI根据文字画「抽象画」,那得成什么样?|DeepMind新算法
根据文字生成图片,AI早就会了。
而如今,和以往的“写实派”不同,AI要开始进军“抽象派”艺术了!
话不多说,下面是AI画的一些输入文字为“丛林中的老虎”的作品:
AI的“艺术细胞”你get到了吗?这离真正的抽象派大师画作还有多远?
而这次AI生成的图像,之所以与此前我们见到的GAN模型的风格大不一样,是DeepMind使用了一种新算法。
该算法最终允许用户输入一串文本,AI就能对这个字符串做出创造性的反应,输出一个解释该字符串的艺术作品。
再比如输入“云”,生成如下作品:
输入“一张脸”,“尖叫”,“一只猫”,“一个笑脸”,“着火的房子”,“一个人走路”,“丛林中的老虎”,“洞穴壁画”:
……
如此不同凡响的新技能,有什么技术创新吗?
神经视觉语法系统与双重编码器
总的来说,DeepMind的这个算法与使用GAN生成图像有3种不同:
首先,此算法的图像是“进化”(evolve)而来,而不是使用反向传播直接生成。
使用进化搜索 (evolutionary-search),可以生成一个与众不同的“美学输出”,也允许人为进行更多输出控制。
其次,该算法不直接进化图像,而是进化一种生成图像的视觉语法。这才能生成有趣的结构化图像。
最后,该算法使用了一个预训练的多模态“评判器” (critic),它接受了网上大量图片和说明文字(captions)的训练。这个算法“理解”文字的视觉意义的能力很重要。
下面就来详细说一下用于演化出图像的神经视觉语法系统和用来评估图像合适度的图像文本双重编码器“评判器”。
神经语法系统采用了分层结构,可大大扩展核心神经发生器的功能。
它将用户输入的字符串输入到顶级的LSTM中,LSTM(长短期记忆网络)可为每个笔划(stroke)指定一个中间输入字符串(intermediate input string )。
这个中间输入字符串的作用与原始输入字符串非常相似。然后这个中间字符串又被输入到底层的的LSTM以输出最终图像的笔划描述。如下图所示。
具体细节如,中间向量的第二个位置决定了编码的笔划是不透明的还是透明的。
第三个位置决定是使用顶层指定的位置还是中间层指定的位置来确定笔划的原点。
第四个位置确定笔划中要产生的行数。
……
为了发挥评判的作用,需要一种评分机制,给图像与句子的相似程度评分。
为此,他们选择了Frome的双编码器方法,该方法最近在大量网络数据集上获得了巨大成功。
该双编码器模型由两个分别对文本和图像进行操作的编码器组成。该团队在ALIGN(A Large ImaGe and Noisy-text)数据集上训练它。
视觉编码器基于NF-Net-F0模型,以224×224分辨率的RGB图像作为输入;文本编码器是一个80M参数因果转换器(causal Transformer)。
该文本编码器保留了单词的顺序以及大小写之间的区别,会将“Jungle in the Tiger”和“a tiger in the jungle”生成不一样的图像。
此外,得益于进化搜索,可使用修剪程序来确定有助于图像得分(合适度)的关键标记。在整个进化过程中,也可以删除多余的标记,“调教”出尽量满意的图像。下图为“一颗苹果树”的标记修剪。
可继续改进:初始画布不必空白
那这样一种技术有什么实际用处呢?
团队介绍到,它可以用于辅助艺术创作、发明新的标记制作方法或者将其生成过程作用于3D模型等。
而且画布的背景初始条件不必空白,没准可以从照片或现有图像开始,在每次迭代中用不同的文本来调节,最终让图像一点点演变成层次更丰富的作品!
当然,他们的算法也有一些需要改进的地方,所生成的图像有时让人感到惊喜,而有时却看起来平平无奇甚至混乱,由于过拟合产生了越来越抽象的作品。
而在允许背景颜色进化得更丰富时,也会造成图像其他方面多样性的降低。
目前这个算法还存在一些“偏见”,比如要求生成“自画像”时,最终大多数肖像都是白人男性。
参考链接:
[1]https://www.arxiv-vanity.com/papers/2105.00162/
[2]https://twitter.com/DeepMind/status/1391732014806614027
- 北大开源最强aiXcoder-7B代码大模型!聚焦真实开发场景,专为企业私有部署设计2024-04-09
- 刚刚,图灵奖揭晓!史上首位数学和计算机最高奖“双料王”出现了2024-04-10
- 8.3K Stars!《多模态大语言模型综述》重大升级2024-04-10
- 谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用2024-04-10