谷歌大脑最新操作玩“复古”：不用卷积注意力，图像分类接近SOTA

萧箫 2021-05-06 15:53:19 来源：量子位

没错，就是纯MLP架构

谷歌大脑的视觉Transformer团队（ViT），搞了个复古操作。

他们不用卷积神经网络（CNN）、也不用Transformer，仅凭最早的AI视觉任务采用的多层感知机（MLP）结构，就实现了接近SOTA的性能，更是在ImageNet图像分类任务上取得了87.94%的准确率。

谷歌大脑最新操作玩“复古”：不用卷积注意力，图像分类接近SOTA

这个架构名为MLP-Mixer，采用两种不同类型的MLP层，可以看做是一个特殊的CNN，使用 1×1卷积进行通道混合（按位操作），同时全感受野和参数共享的的单通道深度卷积进行字符混合（跨位操作）。

在JFT-300M数据集上预训练、微调到224分辨率的Mixer-H/14版本取得了86.32%的准确率，比SOTA模型ViT-H/14仅低0.3%，但运行速度是其2.2倍。

论文地址：
https://arxiv.org/abs/2105.01601

项目地址：
https://github.com/google-research/vision_transformer/tree/linen

版权所有，未经授权不得以任何形式转载及使用，违者必究。

MLP 图像分类谷歌大脑

相关阅读

清华&旷视让全连接层“内卷”，卷出MLP性能新高度

用卷积强化全连接层，可实现多处性能涨点

丰色2021-06-29

MLP 旷视清华大学

谷歌大脑开源「数据增强」新招数：ImageNet准确率达85%，大神Quoc Le出品

十三2019-11-20

Quac Le 数据增强谷歌大脑

谷歌大脑发现神经网络“牛顿法”：网络足够宽，就简化成线性模型

晓查2019-02-21

神经网络谷歌大脑

只需2层线性层，就能超越自注意力机制，清华计图团队又有新突破

Self-Attention：我不要面子的吗？

萧箫2021-05-07

MLP 清华自注意力机制

谷歌发布最新零样本学习看图说话模型，多类型任务直接上手

训练集甚至都不需要高精度标签了

梦晨2021-10-24

弱监督学习谷歌大脑

谷歌实习生新算法提速惊人！BERT训练从三天三夜，缩短到一个小时

极致利用1024个TPU

郭一璞安妮2019-04-03

BERT NLP 谷歌大脑

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此