为了刁难AI，科学家们制造了这1200个问题，超强AI被“打回原形”

鱼羊 2019-08-09 13:32:36 来源：量子位

想要通过图灵测试，AI还有很长的路要走

鱼羊发自凹非寺

量子位报道 | 公众号 QbitAI

自从 IBM 的 Watson 在 “Jeopardy！” 智力问答竞赛中战胜人类冠军，人工智能真正理解人类语言这件事似乎变得触手可及。

但只要和Siri多聊几次天，你就会明白计算机还有会表现出“人工智障”的一面。

想要更好地理解人类语言，计算机系统必须接受更高难度的训练挑战。

于是，马里兰大学的研究团队通过人机协作开发出了一个包含1200多个问题的数据集，来与计算机对抗。

Trick me if you can

马里兰大学副教授Jordan Boyd-Graber的团队提出了一个新的概念，human-in-loop对抗生成。

虽然 Watson 的战绩曾经惊倒众人，让人觉得AI几乎可以理解语言的含义，但过去三四年来，研究者们已经意识到计算机问答系统其实非常脆弱。

在智力问答中，许多问题稍作改动，人类高手仍能轻松作答，而AI则会被彻底愚弄。

举个例子，对于“哪一位作曲家的海顿主题变奏曲是受到了卡尔·费迪南德·波尔的启发？”这个问题，博学的AI能够轻松给出正确答案：约翰内斯·勃拉姆斯。

但是如果不提卡尔·费迪南德·波尔，而只是描述他的职业——维也纳金色大厅的档案管理员，那么AI就会傻眼。

所以，研究人员们都在努力创造更高难度的问题，即对抗样本，来迫使AI用人类的方式思考问题。

通常的做法是人类自己写问题，或者是让计算机自己生成问题。但问题非常明显：人在写问题的时候，并不确定问题里的哪些要素会混淆计算机。而AI生成器生成的问题，则容易陷入公式化，有时还会产生空白的，错误的，没有意义的问题。

那么，能不能让机器来帮助人类写出足以混淆计算机模型的问题呢？

团队于是搞出了一个交互式用户界面。

在这个界面中，人在输入问题的同时，计算机会把它的猜测按顺序显示在屏幕上，而那些计算机用来参考以生成回答的单词也会被高亮标注出来。

还用刚才那个例子来说明，AI在得出约翰内斯·勃拉姆斯这个答案的同时，会把卡尔·费迪南德·波尔在屏幕上标记出来，说明它是根据这个名字推断出了答案。

如此一来，输入问题的人只要在不改变问题原义的基础上，把卡尔·费迪南德·波尔这个词替换掉，就能生成一个成功的对抗性问题。

也就是说，人机协作就是human-in-loop对抗生成的核心。

Jordan Boyd-Graber教授是这样介绍他们的工作的：

大多数的问答计算机系统都没有解释他们是怎样做出回答的，而我们的工作能帮我们看清计算机实际理解的内容。

团队将这个框架应用在了一个叫Quizbowl的问答任务中，与Jeopardy不同的是，Quizbowl的问答模式是这样的：问题被同时读给两个竞争团队，谁先猜到答案就打断问题并回答。

益智问答爱好者和计算机携手，创造了1213个对抗性问题。

他们将这些问题整合成了开源数据集Qanta Adversarial ，这个数据集涉及到了不同主题的6541个句子。

这样的数据集将揭示计算机语言系统是否真的能像人类那样阅读理解。

实验测试

为了测试新的QA系统的效果，研究团队用上了三个模型：IR模型，循环神经网络（RNN）以及深度平均网络（DAN）。

第一轮攻击

第一轮对抗性问题是针对IR模型生成的。RNN和DAN同样接受了测试。

问题难度升级之后，三种模型都备受打击，DAN的准确率就从54.1%下降到了32.4%。

第二轮攻击

第二轮攻击中，作者又攻击了一个RNN模型。参与第二轮测试的所有模型都在更大的数据集上进行了训练。

从这个结果来看，针对IR系统的问题降低了所有模型的性能。不过，IR模型对于针对RNN的问题是鲁棒的。

人机竞赛

最后的重头戏，是人机大战。

现场，有两只人类队伍来与计算机PK。人类这边，是国家级Quizbowl玩家；而计算机这边，是最先进的Quizbowl系统Studio Ousis模型。

在2017年的NIPS共享任务当中，Studio Ousis曾经以475：200的比分战胜了人类高手。

第一场比赛，使用了IR对抗性问题。形势完全逆转，人类以 300：30的比分获胜了。

第二场比赛规模进一步扩大，有七支人类团队参与其中，而比赛中的400多个问题是针对RNN模型生成的对抗性问题。

这次，人类队伍这边有高中Quizbowl选手，也有Jeopardy！冠军队伍。

然而，连最弱的人类团队也击败了最强级别的AI。

1200问直击弱点，AI果然还有很长的路要走啊。

传送门

QANTA项目：

https://sites.google.com/view/qanta/projects/adversarial

论文地址：

https://arxiv.org/abs/1809.02701

GitHub地址：

https://github.com/Eric-Wallace/trickme-interface/

— 完 —

对抗攻击

鱼羊

为了刁难AI，科学家们制造了这1200个问题，超强AI被“打回原形”

Trick me if you can

实验测试

传送门

相关阅读

“忽悠”智能机器人，竟然改改物品纹理就成功了！北航新研究：时空融合对抗攻击算法

微软旷视人脸识别100%失灵！北京十一学校校友新研究「隐身衣」，帮你保护照片隐私数据

肚子上挂张画就能“隐身”：AI完全看不到我，更看不出我是人类了 | 开源

热门文章

数学家们仍在追赶天才拉马努金

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

蔚来李斌：一年减少了数十亿英伟达芯片采购

不到2年，AI PPT赛道第一！像素绽放CEO赵充：今年是AI应用创业最佳时期 | 中国AIGC产业峰会