AI在这张“问卷”上首次超越人类，SuperGLUE被微软谷歌两家“攻破”

晓查 2021-01-07 13:21:04 来源：量子位

微软谷歌占据测试榜前二

晓查发自凹非寺
量子位报道 | 公众号 QbitAI

自然语言理解(NLU)迎来新的里程碑。

在最新的NLU测试基准SuperGLUE中，人类首次被AI超越了。

SuperGLUE相比“前辈”GLUE大大提升了问题的难度，提出一年多以来，人类一直处于第一位。

现如今，人类一下子被两家AI超越。

一个是来自微软的DeBERTa，一个是来自谷歌的T5+Meena。

超越人类的两大NLU模型

对NLP领域的人来说，微软DeBERTa模型并不陌生，早在去年8月微软就开源了该模型的代码，并提供预训练模型下载。

最近，最近微软训练了更大规模的模型，该版本由15亿参数的48个Transformer层组成。增大规模带来的性能提升，使单个DeBERTa模型SuperGLUE上的得分（90.3）首次超过了人类（89.8），居于榜单首位。

DeBERTa（注意力分离的解码增强BERT）是一种基于Transformer的神经语言模型，使用自监督学习对大量原始文本语料库进行预训练。

和其他预训练语言模型(PLM)一样，DeBERTa旨在学习通用语言表示形式，适应各种下游NLU任务。DeBERTa使用三种新技术——分离的注意力机制、增强的掩码解码器和一种用于微调的虚拟对抗训练方法。改进了以前的最新PLM（如BERT、RoBERTa、UniLM）。

这项研究是由微软研究团队的4位华人学者完成。

另一超越人类的AI是由CMU博士生王子瑞提交的T5+Meena。这两项技术均来自谷歌。

其中，Meena是一个26亿参数端到端训练的神经对话模型，它具有一个演进Transformer编码器块和13个演进Transformer解码器块。

编码器负责处理对话上下文，帮助Meena理解对话中已经说过的内容。然后，解码器使用该信息来制定实际响应。

T5是谷歌去年提出的“文本到文本迁移Transformer”，也就是用迁移学习让不同的NLP任务可以使用相同的模型、损失函数和超参数，一个框架在机器翻译、文档摘要、问答和情感分析上都能使用。

T5最大的模型具有110亿个参数，早在推出之时就取得了SuperGLUE上的最高水平，至今仍仅次于榜单前二模型和人类。

关于SuperGLUE

SuperGLUE是由Facebook、纽约大学、华盛顿大学和DeepMind四家机构于2019年8月提出的新NLU测试基准，以取代过去的GLUE。

由于之前微软、谷歌和Facebook的模型连续刷新GLUE基准测试得分，已有不少AI模型超越了人类的表现。因此GLUE已不能顺应NLU技术的发展，SuperGLUE应运而生。

我们从最初的GLUE基准测试中吸取的经验教训，并推出了SuperGLUE，这是一个采用了GLUE的新基准测试，具有一系列更加困难的语言理解任务、改进的资源和一个新的公共排行榜。

四家机构在SuperGLUE的官方文档中如是说。

SuperGLUE总共包含10项任务，用于测试系统因果推理、识别因果关系、阅读短文后回答是非问题等等方面的能力。SuperGLUE还包含Winogender，一种性别偏见检测工具。

这些问题用当前最先进的算法还不能很好地解决，却很容易被人类理解。

尤其是“选择合理的替代方案”（COPA）这一项因果推理任务。它要求系统能根据给出的句子，在两个选项中找出可能的原因或结果。比如：

那个男人的脚趾断了。这是什么原因造出的？
备选答案1：他的袜子上有一个洞。
备选答案2：他把锤子掉在脚上了。

人类可以在COPA上获得了100％的准确率，而BERT只有74％，这表明了NLU还存在巨大的进步空间。

现在SuperGLUE上超越了人类表现，微软的研究人员认为：“这是通向通用AI的重要里程碑”。

微软DeBERTa源代码与预训练模型：
https://github.com/microsoft/DeBERTa

谷歌T5和Meena：
https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html
https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

参考资料
https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/
https://www.microsoft.com/en-us/research/blog/microsoft-deberta-surpasses-human-performance-on-the-superglue-benchmark/

NLP 微软自然语言理解谷歌

晓查

AI在这张“问卷”上首次超越人类，SuperGLUE被微软谷歌两家“攻破”

超越人类的两大NLU模型

关于SuperGLUE

相关阅读

谷歌推AR应用“观妙中国”：传扬文化艺术，小米vivo应用商店下载

谷歌CEO皮猜致歉，被解雇的AI伦理研究员：根本没有认错

谷歌反性骚扰大罢工组织者Meredith Whittaker离职，曾声称被谷歌报复

64家科技巨头和芯片大厂，组建最强“半导体联盟”，施压美国提供芯片补贴

我是清华新任教授张亚勤，现在只想做成这一件事 | 量子位专访

OpenAI的GPT-3花费了1200万美元，现在放出商用API，人人皆可拿来自动生成文本、编写代码

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

倒计时1天！万物皆可AI，but怎么用好？速戳报名中国AIGC产业峰会