训练CV模型新思路来了：用NLP大火的Prompt替代微调，性能全面提升

丰色 2022-03-25 16:23:47 来源：量子位

24个图像识别任务胜出20个

Prompt tuning，作为NLP领域中的一个“新宠”，甚至曾被学者誉为NLP预训练新范式。

那么，它能否借鉴到CV领域并产生同样的成绩呢？

现在，来自康奈尔大学和Meta AI等机构，通过Prompt来调整基于Transformer的视觉模型，结果发现：

完全可以！

比起全面微调，Prompt性能提升显著。无论模型的规模和训练数据怎么变，24种情况中有20种都完全胜出。

与此同时，它还能大幅降低每项任务所需的存储成本。

只使用不到1%的模型参数

大家一贯使用的全面微调（full fine-tuning），需要为每个下游任务存储和部署单独的主干参数副本，成本太高，尤其是现在基于Transformer的模型越来越大，已经超过CNN架构。

所谓Prompt，最初指的是在输入文本中预编语言指令，以便预培训的语言模型后续可以直接理解各种下游任务。

它曾让GPT-3即使在少样本或零样本的情况下表现出很强的泛化能力。

最近一些成果则表明，Prompt与完全微调的性能相当，参数存储量还减少了1000倍。

NLP中的高超性能让不少人开始在CV领域中探索Prompt的魔力，不过都只局限于跨模态任务中文本编码器的输入。

在本文中，作者将他们所提出的Visual Prompt Tuning方法，简称为VPT。这是首次有人将Prompt应用到视觉模型主干（backbone），并做出成果。

具体来说，比起全面微调，VPT受最新大型NLP模型调整方法的启发，只在输入空间中引入少量可特定某任务训练的参数（不到模型参数的1%），同时在训练下游任务期间冻结（freeze）预训练模型的主干。

在实操中，这些附加参数只用预先加入到每个Transformer层的输入序列中，并在微调期间与线性head一起学习。

他们一共探索出两种变体：

VPT-Deep变体为Transformer编码器每层的输入预先设置一组可学习的参数；

VPT-Shallow变体则仅将提示参数插入第一层的输入。

两者在下游任务的训练过程中，只有特定于任务的提示和线性头的参数会更新，而整个Transformer编码器被冻结。

接下来，是骡子是马？拉出来溜溜～

20/24的优胜率

实验涉及两种在ImageNet-21k上预训练好的主干，一个来自Vision Transformer，一个来自Swin Transformer。

进行对比的微调方法有三大种，7小种，包括：

（1）完全微调：更新所有主干和分类头（classification head）参数

（2）以分类头为重点的微调，包括Linear、Partial-k和Mlp-k三种；

（3）以及在微调过程中更新一个主干子集参数或向主干添加新的可训练参数的方法，分为Sidetune、Bias和Adapter三种。

实验的数据集有两组，一共涉及24个跨不同领域的下游识别任务，包括：

（1）由5个基准细粒度视觉分类任务组成的FGVC；

（2）由19个不同视觉分类集合组成的VTAB-1k，细分为使用标准相机拍摄的自然图像任务（Natural）、用专用设备（如卫星图像）捕获的图像任务（Specialized）以及需要几何理解的任务（Structured），比如物体计数。

测得每项任务上的平均准确度后，得出的主要结果如下：

VPT-Deep在24个任务中有20个的表现都优于全面微调，同时使用的总模型参数显著减少（1.18× vs. 24.02×）；

要知道，在NLP领域中Prompt再厉害，性能也不会超过全面微调。这说明Prompt很适用于视觉Transformer模型。

和其他微调方法相比（b、c组），VPT-Deep的性能则全部胜出。

此外，选择不同主干参数规模和模型规模的ViT（ViT-B、ViT-L和ViT-H）进行测试还发现，VPT方法不会受影响，依然基本保持性能领先。

而在Swin Transformer中，全面微调法的平均准确度虽然更高，但也付出了巨大的参数代价。

其他微调方法则全部不敌VPT。

作者介绍

一作贾梦霖，康奈尔大学信息科学（Information Science）博士生，主要研究方向为视觉和文本信息的细粒度识别，截至目前共发表过4篇顶会。

共同一作为唐路明，也是康奈尔大学的一位计算机博士在读学生，本科毕业于清华大学数学与物理专业。

他的主要研究方向为机器学习和计算机视觉的交叉领域。

论文地址：

https://arxiv.org/abs/2203.12119

CV NLP 模型预训练

丰色

训练CV模型新思路来了：用NLP大火的Prompt替代微调，性能全面提升

只使用不到1%的模型参数

20/24的优胜率

作者介绍

相关阅读

谷歌让NLP模型也能debug，只要给一张「草稿纸」就行

ACL'23颁奖井喷！史无前例75篇论文上榜，华人面孔占据半壁江山

微软发布史上最大AI模型：170亿参数横扫各种语言建模基准，将用于Office套件

英语和汉语谁更高效？17大主流语言测试结果：没有优劣之分，带宽都是每秒39bit

这款NLP神器火了！关键词提取、结果可视化，从小白进阶大神

竹间智能发布一站式企业级情感人工智能平台——Bot Factory™DIY

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级