商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

萧箫 2022-03-23 18:38:14 来源：量子位

基于2大理念改进

萧箫转载自商汤AI
量子位 | 公众号 QbitAI

Transformer很受欢迎，但它架构上的不少问题依旧令人头疼。

典例之一就是其中的Softmax Attention模块，虽然能捕捉长距离依赖关系，但由于Softmax算子关于序列长度的二次空间和时间复杂性，导致难以扩展。

虽然也有用核方法、稀疏注意力机制等来近似Softmax算子，以降低时间空间复杂度，但近似操作本身存在的误差使得其效果很难超越Softmax Attention。

为此，商汤多模态研究组想到，与其近似Softmax，为何不重新设计一种方式“平替”Softmax？

他们提出了一种叫做cosFormer的新方法，论文目前已经登上ICLR 2022。

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

一方面，cosFormer在时间空间复杂度关于序列长度为线性复杂度的同时，其性能接近或者超越Softmax Attention；

另一方面，它也在LRA benchmark上取得了SOTA，其中y轴表示性能，x轴表示速度，圆圈大小表示内存。

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

一起来看看。

此前的Softmax有什么问题？

Softmax Attention

Softmax Attention的计算方式是这样的：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

线性Attention

通过分析我们发现，性能瓶颈的主要原因是exp操作，如果相似度函数可以表示为

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

那么

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

根据矩阵运算的结合律：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

上式可以变换为：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

经过计算后可以得到该方法的时间复杂度为，即关于序列长度是一次的。

Softmax Attention和线性Attention的计算方式可以用下图概括：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

所以接下来的会介绍的选择，以及核心的reweighting操作。

Softmax的两大性质

我们经过分析以及实验，归纳出Softmax Attention中比较重要的性质，这两个性质可以指导我们的模型设计：

注意力矩阵的非负性
局部注意力的放大（非极大值抑制）

对于第一点，我们有如下实验进行验证（模型结构为RoBERTa）：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

这里Loss表示验证集损失（越低越好），其余指标均为准确率（越高越好），可以看到，当保证了注意力矩阵的非负性之后，可以达到较好的效果。基于该实验，我们选择为ReLU函数。

对于第二点，我们的方式是在注意力矩阵中引入先验locality信息，观察Softmax注意力矩阵，如下图所示，我们发现其注意力矩阵的权重在对角线附近很集中：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

所以我们的方法需要在加了reweighting操作后也更加集中在对角线附近。注意并非所有的有类似权重的函数均适用，这个reweighting的函数需要跟前面的QK一样可以拆分成两个矩阵的乘法的形式。

至此，就可以引入我们的cosFormer了。

cosFormer如何超越Softmax？

我们的方法基于线性Attention，首先给出符号定义：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

根据之前的分析，我们选择了：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

可得：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

为了进行reweighting操作，并且同时保证线性Attention的计算方式依然成立，我们选择了cos函数：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

展开可得：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

为了便于展示，我们把它记作：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

最终得到：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

上式和线性Attention的计算方式一致，经过分析不难得出时间复杂度依然是O(N)。

具体性能究竟有多好？

我们在单向模型，双向模型以及LRA benchmark上测试了我们的方法，均取得了非常不错的效果。

单向语言模型，指标表示困惑度（越低越好）：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

双向语言模型，指标表示准确率（越高越好）：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

LRA benchmark：

性能实验，指标表示准确率（越高越好）：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

内存速度实验，指标表示速度（越高越好，如果内存溢出，则标记为叉）：

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

目前代码已开源，感兴趣的小伙伴们可以戳下方地址了解了~

论文地址：
https://arxiv.org/abs/2202.08791

部分开源代码：
https://github.com/OpenNLPLab/cosFormer

版权所有，未经授权不得以任何形式转载及使用，违者必究。

ICLR 人工智能商汤

相关阅读

日活两亿的快手，如何用AI理解视频、做好分发

通过短视频实现的记录，让人与人以及人与世界连接起来。

智能车参考2019-06-01

人工智能快手

爱分析AI与大模型高峰论坛即将举办，1月9日与众多大咖畅聊科技未来

爱分析将于2024年1月9日在北京以“智能涌现价值焕新”为主题举办2024爱分析·AI与大模型高峰论坛。

量子位2024-01-05

人工智能大模型爱分析

前海深港人工智能算力中心正式启动，商汤大装置助力AI产业发展

商汤科技董事长兼 CEO 徐立表示：人工智能在2023年实现了跨越式发展，进入以大模型为基础的AI 2.0时代，先进智能算力作为当前最具活力的新型生产力，已经成为重要的战略资源。

量子位2024-01-08

商汤大装置

鹅厂最新数字人，体温36.5℃

AI无障爱，国际残疾人日里有温度的黑科技

萧箫2021-12-03

人工智能国际残疾人日手语翻译

2040张图片训练出的ViT，准确率96.7%，连迁移性能都令人惊讶 | 南京大学

诀窍是转为参数化实例判别

萧箫2022-02-02

ViT 人工智能南京大学

纯国产万卡集群炼出万亿参数大模型，被这家央企率先做到了！

央企里首个开源的语义大模型

十三2024-10-01

万卡集群中国电信人工智能大模型

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

倒计时1天！万物皆可AI，but怎么用好？速戳报名中国AIGC产业峰会