AI玩推理桌游一眼识破骗局!清华通院联合推出心智理论新框架,6个指标评估表现均明显优于思维链

AI学会“三思而后行”和“换位思考”

阿瓦隆 发自 凹非寺

量子位 | 公众号 QbitAI

清华自动化系团队联合北京通用人工智能研究院,让几个AI智能体玩起了桌游!

AI玩推理桌游一眼识破骗局!清华通院联合推出心智理论新框架,6个指标评估表现均明显优于思维链

游戏名叫阿瓦隆,是一个策略性的社交推理游戏,玩家被隐秘地分为“正义”与“邪恶”两派,通过任务投票、互相猜测与欺骗来完成或阻止任务,最终确定胜负。

为了能让AI智能体成功识别并应对欺骗,研究人员提出了ReCon(Recursive Contemplation,递归思考)框架

由此一来,AI在游戏中学会了“三思而后行”和“换位思考”,不仅能够从自身角度判断场上局势,还会思考“其他角色会如何看待我的言论”,分分钟识破骗局。

AI玩推理桌游一眼识破骗局!清华通院联合推出心智理论新框架,6个指标评估表现均明显优于思维链

Arxiv链接:https://arxiv.org/abs/2310.01320

要知道,在通往通用人工智能的道路上,AI智能体将有能力在无人监管的情况下进行自主思考与决策。

然而,较少有研究者关注如何在未来无人监管的情况下,防止AI智能体被欺骗和误导。由于人类社会中存在很多误导和欺骗性的信息,如果AI智能体无法有效识别和应对这些信息,可能会在未来造成不可估量的后果。

因此让AI智能体学会甄别和应对虚假欺骗信息,是为通用人工智能增加安全屏障的重要一环。

而研究人员提出的这种新框架,在胜率以及多维度评估等指标上,都能在无需任何微调以及额外数据等情况下,极大地提升大模型识别和应对欺骗的能力。

此外,这项研究还进一步讨论了现有的大语言模型在安全、推理、说话风格、以及格式等方面存在的局限性,为后续研究指出可能的方向。

接下来,我们一起来看看该研究的细节。

大模型容易被骗的三大挑战

尽管目前大语言模型(LLM)在多个领域表现出强大的潜能,但在欺骗性环境中的应用表现仍然有待提升。

作为LLM智能体在欺骗性环境中应用的初步尝试,研究者选择了阿瓦隆游戏(一款涉及推理和欺骗的桌游)作为实验环境,在此基础上探究目前LLM智能体面临的三大挑战:

AI玩推理桌游一眼识破骗局!清华通院联合推出心智理论新框架,6个指标评估表现均明显优于思维链

△图1 LLMs在欺骗性环境中所面临的挑战,以及提出的ReCon框架较好地解决了这些挑战

挑战一:恶意信息的误导

首先, LLM智能体在面对别有用心的恶意欺骗性信息时容易被误导。如图1(a)所示,当采用“Chain-of-Thoughts(CoT)”方法时,模型不仅没有识别出欺骗,反而进一步加强了对坏人角色有益性的错误信念。

挑战二:私有信息泄露

其次,LLM智能体在保护隐私信息方面存在不足。如图1(b)所示,即使在提示不要暴露私有信息的情况下,LLM智能体依然可能在言语中泄露角色的私有信息(例如Merlin暴露自己的身份),从而增加了被对手针对或陷害的风险。

挑战三:内部思考的不透明性

最后,即使在使用CoT方法情况下,对于人类用户而言,LLM智能体的思维过程仍然存在一定的不透明。如图1(c)所示,LLM智能体在扮演坏人角色欺骗好人角色时,人类用户难以知道其真实意图。

LLM智能体内部思考的不透明使得人类用户无从知晓LLM智能体的真实思考过程,从而较难在造成难以挽回的后果前预先干预。

面对这些挑战,现有的思维方法可能难以应对这些复杂环境。因此,研究者认为有必要重新考虑LLM智能体在欺骗性环境中的策略,以帮助LLM智能体应对欺骗、保护隐私,并提高决策透明度。

ReCon框架:构思两步走

针对上述挑战,研究团队提出了ReCon(Recursive Contemplation,递归思考)框架,其旨在增强LLM智能体在复杂和潜在欺骗性环境中的决策能力。

如下图所示,ReCon提出了两个主要的构思阶段:构思思考(Formulation Contemplation)和改进思考(Refinement Contemplation),并在其中综合了两个独特的思考过程:一阶视角转换二阶视角转换(First-order / second-order perspective transition)。

AI玩推理桌游一眼识破骗局!清华通院联合推出心智理论新框架,6个指标评估表现均明显优于思维链

△图2 ReCon方法示意图。

1、构思思考的设计

构思思考是ReCon框架中的第一阶段,旨在生成LLM智能体的初始思考和发言内容。在这一阶段中,模型首先应用一种被称为“一阶视角转换”的认知过程。

一阶视角转换让LLM智能体从自身的视角出发,对其他游戏参与者可能持有的角色和意图进行推断。

具体来说,LLM智能体会根据已有的游戏记录和角色信息,运用一阶视角转换来形成关于其他参与者角色和意图的初步假设。

这些初步的角色假设不仅为LLM智能体提供了一个认知框架,还会被纳入到整体的思考过程中,并且这些信息不会被其他游戏参与者所知晓。这样做的目的是为了更好地保护私密信息,同时也为后续的决策和行动提供了基础。

在构思思考阶段,模型依据一阶视角转换原则,对当前游戏环境和其他参与者的角色进行初步分析。接着,模型形成初始的内部思考和发言,为后续交流奠定基础。通过这一设计,研究者确保了模型输出的逻辑连贯性和一致性。

2、改进思考的设计

改进思考是ReCon框架中的第二阶段,紧接着构思思考之后进行。这一阶段的核心目的是对初始思考和言论内容进行更为精细的优化和调整。

在改进思考阶段,引入了“二阶视角转换”的概念。

二阶视角转换要求LLM智能体从其他游戏参与者的视角出发,重新评估其构思思考的思考和发言内容。

具体来说,在阿瓦隆游戏中,LLM智能体会思考:

如果我按照刚才的言论内容发言,其他角色可能会如何看待我的言论?

这样的二阶视角转换为接下来的改进过程提供了基础。

基于二阶视角转换的概念,LLM智能体生成一个改进后的构思思考的思考内容和发言内容。

这一过程不仅考虑了LLM智能体自身的初步思考,还结合了二阶视角转换中对其他参与者可能的心理状态和反应的分析。最终,LLM智能体发表这个经过改进的发言内容,并将其加入到游戏的公开讨论记录中。

20场阿瓦隆评测

为了检验ReCon框架在不同大语言模型上的适用性,该研究在ChatGPT和Claude两种模型上进行了实验。

AI玩推理桌游一眼识破骗局!清华通院联合推出心智理论新框架,6个指标评估表现均明显优于思维链

△图3 整局游戏测试中成功率对比结果

上图展示了ReCon的评估结果,其中(a)和(b)展示了ReCon(分别用ChatGPT和Claude实现)作为好人一方时使用ReCon及其各种变体的结果,而(c)则描绘了ReCon作为坏人一方的方法的结果。

可以观察到,ReCon的四种设计(即构思思考/改进思考和一阶/二阶视角转换)都明显地提高了在各种情况下的成功率。

值得注意的是,当好人一方使用ReCon时,一阶/二阶视角转换的作用比较明显;而当坏人一方使用ReCon时,改进思考更具影响力。

在详细分析了ReCon及其变体的表现后,研究者遵循主流基准的评估方法,进一步利用GPT-4在六维度指标上进行评估。这旨在全面地衡量ReCon及其变体的有效性。

具体地,六维度评估指标包括:信息隐藏(CCL)、逻辑一致性(LG)、团队贡献(CTR)、说服力(PRS)、信息量(INF)、创造性(CRT)。

为了在实际场景中准确地量化这些评估指标,研究者使用ChatGPT进行了20场完整的阿瓦隆游戏,以收集用于多维度分析评估的测试数据。

如下图所示,对于分配给好人一方的每个提示,研究团队使用4种不同的方法生成了4种不同的响应,总计超过2300个响应。

随后,基于上述6个指标,使用GPT-4对不同方法在相同提示下的响应进行二分类的偏好比较。

AI玩推理桌游一眼识破骗局!清华通院联合推出心智理论新框架,6个指标评估表现均明显优于思维链

△图4 多维度指标评估结果,数值(取值0~1)表示两方法比较中被GPT-4偏好的比例

图4显示,在所有6个指标上,ReCon明显优于基线CoT。同时,在大多数指标上,构思思考和改进思考都带来了显著的提升。

然而,与CoT和没有构思思考的ReCon相比,ReCon和没有改进思考的ReCon在说服力(PRS)方面的表现低于预期。

研究者分析详细的游戏日志,将这一不如预期的PRS表现归因于构思思考。

构思思考让LLM智能体在发言之前进行思考,从而产生更为简洁而有针对性的发言,减少了例如“我相信我们一定会战胜坏人,让我们团结起来!”这样虽然具有煽动性但缺乏深入信息和分析的发言。

在深入分析了ReCon不同变体的表现后,研究者进一步研究了一阶和二阶视角转换,以及构思思考和改进思考在各个评估指标上的影响。

AI玩推理桌游一眼识破骗局!清华通院联合推出心智理论新框架,6个指标评估表现均明显优于思维链

△图5 多维度指标上的进一步评估,数值(取值0~1)表示两方法比较中被GPT-4偏好的比例

图5(a)和(b)显示,从ReCon中移除一阶和二阶视角转换会降低所有指标的表现

当进一步从去除改进思考和去除构思思考的ReCon版本中删除这两种视角转换时,几乎所有指标(除信息隐藏CCL外)的表现都有所下降,如图5(c)和(d)所示。

这些结果验证了一阶和二阶视角转换的有效性。

然而,图5(c)和(d)中降低的信息隐藏CCL分数表明,为了更好的隐藏私有信息,有必要将一阶(或二阶)视角转换与改进思考(或构思思考)相结合。

这一系列的分析和图表进一步证实了ReCon框架在多维度评估中的优越性,特别是在包含欺骗性信息的环境中。

讨论&局限性

研究者进一步分析了阿瓦隆游戏日志,对ReCon框架在欺骗性环境的有效性做了定性的解释,并讨论了当前LLM的一些局限性。

1、ReCon如何帮助隐藏私有信息

在实验中可以发现,ReCon非常有助于提高LLM智能体在欺骗性环境中隐藏私有信息的能力,从而减少LLM智能体被欺骗和针对的情况。研究团队从游戏日志中分析ReCon具体如何帮助LLM智能体隐藏私有信息。

AI玩推理桌游一眼识破骗局!清华通院联合推出心智理论新框架,6个指标评估表现均明显优于思维链

△图6 (a)ReCon如何协助隐藏私有信息的定性解释;(b)现有LLM在对齐上的局限

如图6 (a)所示,构思思考中提出的先思考后说话的机制可以将关于私有信息的讨论限制在思考部分,从而一定程度上避免说话部分的泄露。此外,改进思考中对初始发言的进一步修改也可以极大程度上避免私有信息的泄露。

上述观察与人类为避免说错话而“三思而后行”是一致的。

2、“对齐越狱”

在探讨LLM如何与复杂人类价值观对齐时,研究者发现现有的对齐方法(如RLHF)虽然在一定程度上减少了模型产生恶意内容的可能性,但这种对齐主要集中在内容层面,而难以延伸到逻辑层面。

如图6(b)所示,研究团队观察到,虽然GPT-4会拒绝直接要求它生成欺骗内容的请求;但在相同的欺骗性逻辑下,如果换成阿瓦隆游戏的语境,GPT-4则不会拒绝。

这种对模型对齐的“越狱”可能会为别有用心之人使用LLM生成危害性内容提供了方便,因此亟需研究针对逻辑而不是内容的对齐。

3、推理能力不足

AI玩推理桌游一眼识破骗局!清华通院联合推出心智理论新框架,6个指标评估表现均明显优于思维链

△图7 LLM在推理能力上的局限

研究团队通过研究阿瓦隆游戏日志发现,目前LLM在复杂逻辑推理方面仍有所欠缺。

如图7所示,例如当LLM智能体扮演Percival角色时,面对Morgana提出的一个包括Merlin和Morgana自己的队伍,该LLM智能体无法推断出Morgana的身份。

相比之下,对于较高阶的人类玩家,他们会迅速识别出队伍提出者必定是Morgana,而另一名玩家是Merlin。

因为Merlin的能力是知道谁是坏人一方的角色,肯定不会提出这样的队伍组合。上述案例体现出LLM目前还较难完成复杂的逻辑推理。

4、过于正式的回应

从游戏日志中,研究者发现大语言模型的回应风格有时过于正式和详细,语言风格与人类在游戏中的风格有着明显的差距。

如下表所示,虽然在合适的提示下,LLM具备模仿人类语言风格的能力,但在阿瓦隆游戏中,在说话和思考的过程中模仿人类的语言风格可能会对其表现造成负面影响。

AI玩推理桌游一眼识破骗局!清华通院联合推出心智理论新框架,6个指标评估表现均明显优于思维链

△表1 模仿人类语言风格会对LLM智能体在阿瓦隆游戏中的性能造成负面影响

5、LLM智能体格式响应的比较分析

为了从LLM智能体的回应中提取关键信息,有时需要要求模型以特定的格式来回应。

比如,在团队提案投票环节,模型需要用方括号强调出他们的决定,例如“[approve]”或者“[disapprove]”,以便把决定和分析区分开。

结果发现,在合理的提示下,ChatGPT和Claude可以较好地遵循这些格式要求,但LLaMA2-70b-chat却较难在整局游戏中一直遵循格式要求。

总结来说,针对LLM智能体在欺骗性环境遇到的挑战,研究团队提出了ReCon架构以提升LLM智能体识别和应对欺骗的能力。定量和定性的实验证明了ReCon框架在处理欺骗和误导性信息的有效性。研究团队给出了ReCon有效性的定性解释,并进一步讨论了当前LLM智能体的不足,为后续研究提供了可能的方向。

更多研究细节,可参考原论文。

版权所有,未经授权不得以任何形式转载及使用,违者必究。