何恺明团队新作：只用普通ViT，不做分层设计也能搞定目标检测

鱼羊 2022-04-01 13:37:44 来源：量子位

更加简单粗暴

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

微软的Swin Transformer去年横空出世，一举突破了Transformer做视觉任务复杂度过高的问题。

这种把Transformer“卷积网络”化的做法，也成为当前ViT研究领域的热门方向。

但现在，何恺明团队的最新论文提出了不同的观点：

在目标检测任务上，像Swin Transformer那样的复杂操作可能是没有必要的。

只用普通ViT做骨干网络，一样能在目标检测任务上拿下高分。

不对ViT引入分层设计

ViT可以说是打开了Transformer跨界处理视觉任务的新大门。

但原始ViT的问题在于，它是一个非层次化的架构。也就是说，ViT只有一个单一尺度的特征图。

于是在目标检测这样的任务中，ViT就面临着两个问题：

其一，如何在下游任务中用预训练好的骨干网络来处理好各种大小不同的物体？

其二，全局注意力机制的复杂度与输入图像尺寸的平方呈正比，在面对高分辨率图像时，处理效率低下。

以Swin Transformer为代表，给出的解决方案是向CNN学习，将分层设计重新引入骨干网络：

基于分层特征图，利用特征金字塔网络（FPN）或U-Net等技术进行密集预测
将自注意力计算限制在不重叠的局部窗口中，同时允许跨窗口连接，从而带来更高的效率

而何恺明团队的这篇新论文，则试图寻找一个新的突破方向。

其核心，是放弃FPN设计。

具体而言，研究人员通过对ViT的最后一层特征图进行卷积或反卷积，得到了多尺度特征图，从而重建出一个简单的FPN。

相比于标准特征金字塔通过bottom-up、top-down和lateral connection做特征融合的方法，可以说得上是简单粗暴。

另外，在对高分辨率图像进行特征提取时，研究人员也采用了窗口注意力机制，但没有选择像Swin Transformer那样做shift。

在进行信息交互时，他们将block均分为四个部分，探索了两种策略：全局传播和卷积传播。

从表格中可以看出，采用4个卷积块（conv block）的效果是最好的。

这种新方法被命名为ViTDet。

论文还提到，结合MAE方法进行预训练，效果更好。

从实验结果来看，以ViT作为骨干网络的方法，在模型较大时，展现出了比Swin、MVITv2等采用分层策略的方法更优的性能。

研究人员表示：

使用普通ViT作为骨干网络，基于MAE方法进行预训练，由此得到的ViTDet能与之前所有基于分层骨干网络的先进方法竞争。

关于作者

Yanghao Li，本硕毕业于北京大学，现在在Facebook AI研究院担任研究工程师。

Hanzi Mao，本硕毕业于华中科技大学，2020年在德州农工大学拿到博士学位，现为Facebook AI研究院高级研究科学家。

另外，除了何恺明，Ross Girshick大神也坐镇了这篇论文。

论文地址：
https://arxiv.org/abs/2203.16527

ViT 何恺明团队目标检测

鱼羊

何恺明团队新作：只用普通ViT，不做分层设计也能搞定目标检测

不对ViT引入分层设计

关于作者

相关阅读

YOLO之父退出CV界表达抗议，拒绝AI算法用于军事和隐私窥探

肚子上挂张画就能“隐身”：AI完全看不到我，更看不出我是人类了 | 开源

识别迷雾中的物体，谷歌提出最新目标检测算法Context R-CNN

模型难复现不一定是作者的错，研究发现模型架构要背锅丨CVPR 2022

1.3MB的超轻YOLO算法！全平台通用，准确率接近YOLOv3，速度快上45%丨开源

李飞飞团队将ViT用在机器人身上，规划推理最高提速512倍，还cue了何恺明的MAE

热门文章

Sora/可灵/海螺/混元大PK！多场景对比，谁是最强视频生成模型？

AI音乐战火升级！三路国产大军全面对决Suno

OpenAI员工意外泄露下一代ChatGPT！网友：故意的还是不小心的？

谷歌“狙击”OpenAI，发布新一代大模型！主打Agent+多模态

诺奖青睐AI的这一年，这些人工智能公司&人物&产品值得关注