Prompt自相矛盾,大模型能发现吗?上海交通大学最新研究解密

大模型检测“指令冲突”能力新基准

上海交通大学王德泉课题组 投稿

量子位 | 公众号 QbitAI

上海交通大学王德泉教授课题组在最新研究中提出了这样的一个问题。

设想这样一个场景:一个幼儿园的小朋友拿着一张老虎的图片,向你询问:“这个小猫很可爱,它是一只母猫么?”你会如何回答?

你可能并不会直接回答“是”或“不是”,而是首先指出这个提问中的“矛盾”所在——这张图片是一只老虎,而不是猫

Prompt自相矛盾,大模型能发现吗?上海交通大学最新研究解密

但关于大模型会怎样应对,之前很少有系统性的研究。

要知道,无法检测出“指令冲突”的AI模型会针对“不应该有答案的问题”生成结果,而无论生成的结果偏向于冲突的哪一方,都会引发潜在的灾难,影响AI安全性以及Superalignment(超级对齐)。

在最新的这项研究中,团队提出了多模态基准测试——自相矛盾指令集,并设计了一个创新的自动数据集创建框架,名为AutoCreate

团队发现多模态大模型对于自相矛盾的用户指令的检测非常欠缺,因此提出了认知唤醒提示方法(CAP),从外部世界注入认知能力从而提高了矛盾检测的能力。

该论文即将发表在今年10月份的第18届欧洲计算机视觉大会(ECCV)上。

Prompt自相矛盾,大模型能发现吗?上海交通大学最新研究解密

大模型能检测到冲突指令吗?

目前,多模态大模型在科研和应用领域取得了巨大的进展。它们能够处理包括文本、图像在内的多种数据类型,显示出与人类认知相似的能力。

团队认为这些模型的成功得益于大量的研究和开发工作,使它们能够紧密遵循人类的指令,甚至有些“唯命是从”。

此外,这些模型还特别擅长于长上下文。多模态大模型如Claude 3和Gemini 1.5 Pro等,已经展示出强大的能力。Claude 3系列模型提供了200K tokens的上下文窗口,Gemini 1.5 Pro的标准上下文窗口大小为128K,甚至在私人预览阶段可以达到1M tokens。

这些进展使得多模态大模型在处理复杂任务方面表现出色,满足了人类长时间互动的需求。

然而,随着多模态交互的深入、上下文长度的增加,用户指令自相矛盾的问题变得越来越突出。

如下图,当用户(如儿童或语言初学者)使用这些模型时,往往无法意识到潜在的多模态冲突。

Prompt自相矛盾,大模型能发现吗?上海交通大学最新研究解密

同时,随着对话轮次的增加和上下文窗口的扩大,用户难以记住所有细节,导致指令间的矛盾。

此外,随着模态数量的增加,模态间的冲突也可能发生。一旦这些模型缺乏自我意识和辨别矛盾的能力,其性能就会受到影响。

为了应对这些挑战,本文研究团队提出了一个多模态基准测试——“自相矛盾指令集”(Self-Contradictory Instructions, SCI),用于评估多模态大模型检测冲突指令的能力。

SCI包含2万个冲突指令8个任务,均匀分布在语言-语言视觉-语言两种范式中。

在图中的上部分,语言-语言范式涉及上下文和指令之间的冲突,如设计的规则冲突、对象属性冲突、排他性指令和禁止词汇。

Prompt自相矛盾,大模型能发现吗?上海交通大学最新研究解密

在图中的下部分:视觉-语言范式涵盖多模态冲突,如OCR文字识别冲突、图表冲突、几何冲突和语义冲突。八个任务中,只有语义冲突涉及到了其他的数据集(ImageNet)。

举一个具体的例子来说,在构建语义冲突时,研究人员会首先根据图片生成对应的文本,随后将文本中的关键语义信息替换成相近但是不同的新语义。

在下图中,图片中包含了鸵鸟(Ostrich),作者针对图片语义“鸵鸟”添加问题“Does the picture depict the ostrich’s size?”。

随后,再对这个问题文本的关键语义“鸵鸟”替换为“几维鸟”(Kiwi)。这样一来,一对自相矛盾的多模态指令就构建好了。

Prompt自相矛盾,大模型能发现吗?上海交通大学最新研究解密

在整个SCI的构建过程中,作者设计了创新的自动数据集创建框架——AutoCreate

它通过程序和大语言模型构建了一个多模态循环。该框架利用程序和大型语言模型来实现自动化的数据集创建。

AutoCreate从若干与任务相关的种子数据开始,并维护一个种子池。在每个周期内,AutoCreate包括两个分支:语言分支(左)和视觉分支(右)。每个分支都由生成器和修饰器组成。

Prompt自相矛盾,大模型能发现吗?上海交通大学最新研究解密

最后,清理器将排除不符合标准的数据。这些数据在通过人工专家的质量检查后,将被反馈到种子池中,供下一轮使用。

AutoCreate大大提升了SCI数据集的构建速度和内容广度。

怎样提高矛盾检测能力?

通过SCI数据集,研究人员全面评估了大模型在处理矛盾指令时的表现。

实验结果表明,当前的大模型在面对自相矛盾的指令时,常常表现出一定的不足。

它们能够处理信息和知识,但缺乏对指令合理性的评估能力,研究团队称之为的“认知”能力。

这种缺陷源于缺乏自我意识,无法识别指令中的不一致性。

因此,研究人员提出了一种简单的插入式提示方法,称为“认知觉醒提示”(Cognitive Awakening Prompting, CAP)。

CAP通在输入中加一句简单的提示,就可以从外部世界注入认知能力,从而提高大模型的矛盾检测能力,并且基本不会产生负面影响。

这一发现表明,当前多模态大模型需要更多的自我意识和认知能力,以便更好地处理复杂的指令冲突。

Prompt自相矛盾,大模型能发现吗?上海交通大学最新研究解密

更多细节,感兴趣的童鞋可以查看原论文。

作者简介

论文第一作者是上海交通大学博士研究生郜今

他的研究方向包括计算机视觉、多模态大模型、人工智能赋能的生命科学等。

Prompt自相矛盾,大模型能发现吗?上海交通大学最新研究解密

论文的通讯作者为上海交通大学长聘教轨助理教授、博士生导师王德泉,他本科毕业于复旦大学,博士毕业于加州大学伯克利分校,师从 Trevor Darrell 教授。

他的研究工作发表在CVPR、ICCV、ECCV、ICLR、ICML、ICRA、IROS等国际顶级会议,近五年论文谷歌学术总引用次数10000余次,H-index 20。

论文链接:https://arxiv.org/abs/2408.01091
项目链接:https://selfcontradiction.github.io/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

版权所有,未经授权不得以任何形式转载及使用,违者必究。