谷歌新模型突破BERT局限：NLP版「芝麻街」新成员Big Bird长这样

萧箫 2020-07-31 12:45:33 来源：量子位

在摘要和问答任务中表现良好

萧箫发自凹非寺
量子位报道 | 公众号 QbitAI

最新消息，谷歌推出了NLP系列「芝麻街」的新成员Big Bird。

这个在外界眼中看起来有点可爱的动漫小鸟，摇身一变，解决了BERT模型中的全注意力机制带来的序列长度二次依赖限制，可以兼顾更长的上下文。

△ 「芝麻街」中的Big Bird

众所周知，谷歌开发的BERT，曾经被称为「地表最强」NLP模型。

而BERT，则与美国知名动画片「芝麻街」（Sesame Street）里的虚拟人物同名。

此前，谷歌的「芝麻街」系列已经有5个成员（论文链接见传送门），现在Big Bird的到来，意味着谷歌在NLP的研究上更进一步。

△ 少了一位ELMo

来看看Big Bird实现了什么。

突破全注意力机制的局限

在NLP模块表现最好的几种深度学习模型，例如BERT，都是基于Transformer作为特征抽取器的模型，但这种模型有它的局限性，核心之一就是全注意力机制。

这种机制会带来序列长度二次依赖限制，主要表现在存储方面。

为了解决这个问题，团队提出了一种名为Big Bird的稀疏注意力机制。

作为更长序列上的Transformers，Big Bird采用稀疏注意力机制，将二次依赖降至线性。

下面这张图片，展示了Big Bird所用的注意力机制模块构建。

其中，白色的部分代表着注意力的空缺。

图（a）表示r=2的随机注意力机制，图（b）表示w=3的局部注意力机制，图（c）表示g=2的全局注意力机制，图（d）则是前三者融合起来的Big Bird模型。

之所以提出这样的模型，是因为团队希望能在将二次依赖降至线性的同时，Big Bird的模型还能最大程度上接近并保持BERT模型的各项指标。

从下图来看，无论是单一采用随机注意力机制、局部注意力机制，还是二者结合的方式，都没有将三者进行结合的效果好。

也就是说，随机+局部+全局的注意力机制融合，最大程度上接近了BERT-base的各项指标。

不仅如此，这种稀疏注意力机制的一部分，还包括了采用O(1)的全局词例（global token），例如CLS。

这部分使得长程注意力开销从O(N√N)降至O(N)。

NLP问答和摘要任务中超越了SOTA

模型采用Books、CC-News、Stories和Wikipedia几种数据集对四类模型进行了训练，根据留出法评估，BigBird-ETC的损失达到了最低。

从结果来看，Big Bird在问答任务中展示出的精度非常不错。

下图是Big Bird与RoBERTa和Longformer对比所展现出来的精度效果，可以看见，在各项数据及上，BigBird的两个模型都展现出了更高的精度。

而在对模型进行微调后，可以看见，BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA。

与此同时，Big Bird在NLP的摘要任务中表现也比较亮眼。

摘要，顾名思义是从一段长文字中提炼出这段话的核心思想和意义。下面是从三个长文章数据集Arxiv、PubMed和BigPatent中测试的效果。

从图中来看，与其他非常先进的NLP模型相比，BigBird极大地提高了摘要任务的各项精度，性能表现非常优异。

不仅如此，Big Bird被证明是图灵完备的，这也就意味着，一切可以计算的问题，Big Bird都能计算，理论上，它能够用来解决任何算法。

此外，Big Bird在基因组数据处理方面也极具潜力。

但虽然如此，也有网友认为，这样的模型与Longformer在概念上并无本质区别，不能算是一个大突破。

你怎么看？

作者介绍

论文的两位共同一作是Manzil Zaheer和Guru Guruganesh，均来自谷歌。

△ Manzil Zaheer

Manzil Zaheer，CMU机器学习博士，3篇论文曾经发表于NIPs上，除此之外，在ACL和EMNLP等顶会上也发表过相应文章。

△ Guru Guruganesh

Guru Guruganesh，CMU机器学习博士，主要在近似算法、拉姆齐定理、半正定规划等方向有所研究。

传送门

「芝麻街」系列论文列表：

ELMo:https://arxiv.org/abs/1802.05365

BERT:https://arxiv.org/abs/1810.04805

ERNIE:https://arxiv.org/abs/1904.09223

Grover:https://arxiv.org/abs/1905.12616

KERMIT:https://arxiv.org/abs/1906.01604

Big Bird:https://arxiv.org/abs/2007.14062

NLP 自然语言处理

萧箫

谷歌新模型突破BERT局限：NLP版「芝麻街」新成员Big Bird长这样

△ 「芝麻街」中的Big Bird

△ 少了一位ELMo

突破全注意力机制的局限

NLP问答和摘要任务中超越了SOTA

作者介绍

△ Manzil Zaheer

△ Guru Guruganesh

相关阅读

教自动编码器学会「自我纠正」，DeepMind提出语言模型“SUNDAE”

一口气发布1008种机器翻译模型，GitHub最火NLP项目大更新

集合啦，NLP数据增强技术！超全资源汇总

报名 | 如何突破Decoder性能瓶颈？英伟达专家揭秘FasterTransformer2.0的原理与应用 --NLP公开课

ACL 2019最佳论文出炉：华人团队包揽最佳长短论文一作，中科院、华为等榜上有名

NLP中文面试学习资料：面向算法面试，理论代码俱全，登上GitHub趋势榜

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比