NLP领域“学霸”太多，一年前标准已过时，新跑分标准SuperGLUE出炉

晓查 2019-08-15 12:47:41 来源：量子位

LeCun推荐

晓查发自凹非寺

量子位报道 | 公众号 QbitA

DeepMind、纽约大学、华盛顿大学或许怎么也没有想到，去年4月才推出的NLP测试基准GLUE，这么快就要过时了。

从今年1月到现在，GLUE榜单的头名已经被微软、谷歌、Facebook刷新了3次。

这一系列新模型带来了巨大性能提升，并且都超过了GLUE测试中人类的平均水平，它们的测试分数也已经达到了上限，分差都不超过一分。

这说明GLUE给NLP研究者提供的进步空间已经十分有限了，现在急需一个新的标准拉开这些“学霸”的分差。

于是，原本参与制定GLUE的三家公司和学校联合Facebook提出了新的测试标准SuperGLUE。SuperGLUE使用谷歌的BERT作为性能测试基准。

我们从最初的GLUE基准测试中吸取的经验教训，并推出了SuperGLUE，这是一个采用了GLUE的新基准测试，具有一系列更加困难的语言理解任务、改进的资源和一个新的公共排行榜。

这四家机构希望，通过SuperGLUE这项新标准，引入半监督和自我监督学习的新方法，对更大规模的数据进行训练，促进NLP领域的创新。

分数对比

在过去GLUE基准测试中，BERT模型与人类的分差不超过10%，最新的RoBERTa略微超过人类。

Facebook在最新的SuperGLUE测试了RoBERTa，它与其中多项任务的人类基线之间仍然存在巨大差距，这说明了当前最先进的自然语言理解系统的一些局限性。

更新内容

Facebook在博客中说，他们选择了各种格式的任务，这些任务侧重于机器学习的许多核心领域的创新，包括样本迁移、多任务和自监督学习。

SuperGLUE总共包含10项任务，用于测试系统因果推理、识别因果关系、阅读短文后回答是非问题等等方面的能力。SuperGLUE还包含Winogender，一种性别偏见检测工具。

这些问题用当前最先进的算法还不能很好地解决，却很容易被人类理解。

尤其是“选择合理的替代方案”（COPA）这一项因果推理任务。它要求系统能根据给出的句子，在两个选项中找出可能的原因或结果。比如：

那个男人的脚趾断了。这是什么原因造出的？

备选答案1：他的袜子上有一个洞。

备选答案2：他把锤子掉在脚上了。

人类可以在COPA上获得了100％的准确率，而BERT只有74％，这表明了AI目前存在巨大的进步空间。

为了进一步挑战AI系统，SuperGLUE还首次引入了长篇问题回答数据集和基准测试，这需要AI能提供长而复杂的答案，这是此前没有遇到过的挑战，有助于发现了当今最先进的NLU系统的一些局限性。

目前的问答系统专注于琐事类型（trivia-type）的问题，例如“水母是否有大脑”。新的任务将更进一步要求系统对开放式问题的深入解答进行详细的阐述，需要系统能够回答“水母如何在没有大脑的情况下运作？”

现有算法与人类的水平还相差很远，这一新挑战将推动AI合成来自不同来源的信息，并提供开放式问题的复杂回复。

除了新的测试基准外，纽约大学还同时发布了相关的PyTorch语言理解工具包Jaint。

传送门

Facebook博客：

https://ai.facebook.com/blog/new-advances-in-natural-language-processing-to-better-connect-people/

SuperGLUE地址：

https://super.gluebenchmark.com/

PyTorch工具包：

https://jiant.info/index.html