何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升
再次上演大道至简~
杨净 艳艳 发自 凹非寺
量子位 | 公众号 QbitAI
何恺明团队又上新了。
这次,他们的成果围绕当下最火的AIGC背后的CLIP展开。
——只在该模型的极简结构上,施加了一个简单的mask,就让新模型的速度快了3.7倍。
同时,性能还可以做到不降反升。
团队表示,希望他们的工作能帮助未来视觉语言模型实现规模化。
这波,让大家直呼:不愧是何恺明,还是熟悉的味道啊~
是的,还是“大道至简”的feel。
就连论文也一如既往,短短12页,一行公式也没有。
一起来拜读吧。
引入类似MAE的mask
本文提出了一个用来训练CLIP的快速、简单且有效的方法FLIP。
Fast Language-Image Pre-training(快速文本-图像预训练方法),也是很直接了。
简单来说,就是基于原有的CLIP架构,对输入图像的那一侧, 随机掩蔽图像区块,之后只对可见区块编码。
△原有CLIP架构
更直白来讲,对CLIP架构引入类似于MAE的思路,于是FLIP架构也就变成了这样。
这样一来,既可以减少计算量,提高训练效率,相同的时间可以进行更多图像-文本样本学习;每次迭代还能可对比更多样本,但保持相似的内存占用率。
具体来说,本文采用的是ViT作为图像编码器。
图像首先被划分为一个不重叠的网格,并随机地遮蔽掉大部分的区块。本文采用的遮蔽比例为50%、75%。随后ViT只对可区块编码,时间复杂度相应降低为原来的二分之一(50%),或者四分之一(75%)。
同样的方式还可以用到文本遮蔽上。不过研究者认为由于文本编码器比较小,带来的加速效果并不能带来整体的增益。
不过跟MAE不同的是,此次FLIP并没有对被遮蔽的图像内容重建,也没有解码器。
△MAE架构
因为他们发现,放弃解码器和重建可以产生更好的速度。虽然编码器在被遮蔽的图像上进行了预训练,但它可以直接应用在完整图像上。
相同性能,速度为3.7x
总的来看,采用了mask机制的FLIP相比CLIP,在准确性和训练时间上取得了平衡,即性能在训练时间大幅减少的情况下,不降反升。
——尤其是在mask程度高达50%和75%的情况下。
其中,当mask=75%时,FLIP达到和基线模型CLIP相同的性能时,训练速度是它的3.7x。
这也就意味着,CLIP花费大约2500 TPU-days训练完成时,FLIP可以大约节省1800 TPU-days。
这一结果在ImageNet-1K验证集上的Zero-shot transfer任务中得出,每个不同mask比例的模型都在LAION-400M上进行了6.4、12.8或32个epoch的训练,包含了4亿个图像-文本对。
接着,采用64k batch,50% mask比和unmasked微调的FLIP,在ImageNet-1K分类数据集上的三个主要指标上也获得了比CLIP更好的性能。
注:是比他们复现出来的CLIP更好,和原始CLIP还差一点,当然,两者数据集不一样。
而在基于各类数据集的大量下游任务中(包括零样本分类、文字/图片检索等),FLIP同样表现出了优势,且基本全线碾压了CLIP(见绿色高亮,几乎点满)。
最后,对于FLIP模型的scale up也是一大看点,结果可圈可点。
可以看到,当增加FLIP的模型大小和数据规模时,FLIP继续涨点,尤其增加模型大小时最为明显(最左)。不过单纯增加训练时长基本没用(最右)。
从下表我们还能看出,模型大小和数据规模一起增加,效果又上了一个新高度。证明大模型+大数据就是好使。
何恺明担任通讯作者
FLIP一共5位作者。
3位共同一作,都是FAIR研究工程师。其中:
Li Yanghao,本硕毕业于北京大学计算机科学专业,已发表多篇顶会;
Fan Haoqi,毕业于CMU机器人学院;
Hu Ronghang,本科毕业于清华,2020年博士毕业于UC伯克利。
通讯作者有两位:
何恺明和他的同事Christoph Feichtenhofer,拥有同等指导贡献。
One More Thing
值得一提的是,有细心的网友统计了近三年CVPR引用量最高的论文(截至2022年11月),分别是Moco(2020)、SimSiam(2021)、MAE(2022)。
而这三篇文章唯一的共同作者就是何恺明,其中两篇还是一作,且都是与自监督学习相关。据谷歌学术统计,目前他们的引用量分别为5224、1374、834。
恺明大神还是一如既往地稳定发挥呀~
对于他们团队的最新力作,你怎么看?
比如,为什么对图像patch进行了随机mask,反而让模型性能不降反升呢?
论文链接:
https://arxiv.org/abs/2212.00794
参考链接:
[1]https://mp.weixin.qq.com/s/SYrNQ64lby8Bi6sQKX7rCA
[2]https://kaiminghe.github.io/
[3]https://www.zhihu.com/question/570153050/answer/2784717398
- 谷歌版Sora升级4K高清!一句话控制镜头运动,跑分叫板可灵海螺2024-12-17
- 谷歌版o1突发即屠榜!思考速度比所有模型快5倍,能解摩斯代码,数学物理秒秒钟解决2024-12-20
- 大模型是新的数据库!蚂蚁开源负责人王旭:应用开发新范式,新一代LAMP正在形成 | MEET 20252024-12-18
- 「AI定义汽车」新拐点已至!小米孟二利:我们有三个工作需要做好2024-12-13