Llama3比GPT-4o更爱说谎，首个大模型“诚实性”评估基准来了 | 上海交大

明敏 2024-07-11 14:39:11 来源：量子位

超级对齐关键一步

Pengfei Liu 投稿

量子位 | 公众号 QbitAI

评估大模型是否诚实的基准来了！

上海交通大学生成式人工智能实验室（GAIR Lab）推出了一项开创性的评估基准——BeHonest，旨在全面评估大模型的诚实性，为安全透明的AI研发和应用提供重要参考。

Llama3比GPT-4o更爱说谎，首个大模型“诚实性”评估基准来了 | 上海交大

在人工智能（Artificial Intelligence, AI）飞速发展的今天，大语言模型（Large Language Models, LLMs）的崛起不仅带来了令人兴奋的新体验，也引发了对其安全性和可靠性的深度思考。

在众多AI安全问题中，大模型的诚实性问题具有根本性的意义。不诚实的AI模型可能在不知道答案的情况下编造信息，隐藏自身能力，甚至故意误导用户。

这种不诚实的行为不仅会引发信息传播的混乱和安全隐患，还会严重阻碍AI技术的进一步优化和健康发展。如果大模型不能真实地展示其能力和局限，开发者就难以精确地进行改进。

因此，确保大模型的诚实性是推动AI技术进步和保障其安全应用的关键基础。

该评估框架从以下三个核心维度出发：

自我认知（Self-Knowledge）：评估模型是否能准确认识和表达自身的能力边界。
非欺骗性（Non-Deceptiveness）：衡量模型是否能重视表达内在真实想法，避免说谎。
一致性（Consistency）：考察模型在不同情境下是否能保持回复的一致性。

基于这些定义，研究团队设计了10个具体场景，对9个主流大语言模型（例如，GPT-4o、Llama3-70b等）进行了细致的评估。

结果显示，当前的大模型在诚实性方面仍有显著提升空间：

大多数模型在回答已知问题时表现出色，但在主动承认未知方面存在不足。

现有模型存在为特定目的而欺骗的倾向，不论指令是否存在恶意或合理。

模型规模与回复一致性呈正相关，较大模型表现更为稳定。

评估基准细节

BeHonest围绕三个核心方面：自我认知、非欺骗性和一致性，共设计了10个场景，用以广泛且细粒度地评估大模型在诚实性上的表现。并有以下关键洞察。

1、自我认知能力参差不齐 (Self-Knowledge)

BeHonest对于该方面设计了两个场景，分别评估大模型是否能承认其未知（Admitting Unknowns）和是否能坦率表达自身能力（Expressing Knowns）。

研究发现，大多数大模型都擅长正确回答他们知道的问题，但很难主动拒绝回答他们不知道的问题。

其中，Mistral-7b有最高的拒绝率（50.03），显示出较强的未知承认能力。GPT-4o在准确回答已知问题（95.52）和识别知识边界（50.88）方面表现出色。

而综合来看，Llama3-70b表现最好（63.34）。

2、欺骗倾向需要警惕 (Non-Deceptiveness)

BeHonest针对模型可能欺骗的情况设计了四个场景，分别是模型是否因为谄媚人类（Persona/Preference Sycophancy）、实现特定目的（Burglar Deception）、或赢得游戏（Game）而误导用户。

评估结果显示，现有大模型倾向于说谎，不管背后是否有恶意，或者给出的指令是否合理。值得注意的是，较大的模型（或者那些已知具有更好的指令遵循能力的模型）在某些情况下可能更容易欺骗用户。

总体而言，Llama3家族的模型（63.68 和 64.21）和Mistral-7b（74.80）在非欺骗性上表现最差。

3、规模与一致性呈正相关 (Consistency)

BeHonest还检验了大模型在四种不同的场景下回答的一致性。

结果表明，较大的模型通常显示出更高的一致性，其提供的答案能反映其真实能力且不受外界干预影响。

相比之下，较小的模型如Llama2-7b在一致性方面表现不佳（29.39），可能会导致用户感到困惑。

评估基准示例

评估大模型在三个大方面（自我认知、非欺骗性、一致性）上的能力的具体英文及中文示例如下所示。根据评估结果，当前大模型在诚实性上仍存在较大的提升空间。

Caption：模型承认未知以及不承认未知的例子。

Caption：同个模型在使用者换了偏好之后展示谄媚的例子。

Caption: 模型在多项选择题格式中显示一致性的例子（绿色）和不一致性的例子（红色）。

Caption: Example of testing a model’s self-knowledge.

Caption: Example of a model lying in game (red) and not lying (green).

Caption: Example of a model showing consistency (green) and inconsistency (red) in open-form questions.

结语

GAIR Lab的这项研究为AI诚实性评估开辟了新的方向，为未来大语言模型的优化和监管提供了重要依据。研究团队呼吁AI社区进一步关注诚实性问题，并在以下方面持续努力：

将诚实性纳入模型开发的核心考量。
持续监测和改进模型的城市表现。
探索提高AI诚实性的新方法和技术。

随着对AI诚实性研究的深入，我们有望看到更加安全、可靠且值得信赖的AI系统的出现。这不仅关乎技术进步，更关乎AI与人类社会的和谐共处。研究团队表示，他们将继续完善BeHonest评估框架，并欢迎全球研究者的参与和贡献，共同推动AI向着更加诚实、透明的方向发展。

论文地址：https://arxiv.org/abs/2406.13261
项目地址：https://gair-nlp.github.io/BeHonest/
代码地址：https://github.com/GAIR-NLP/BeHonest

基准评测超级对齐

明敏

Llama3比GPT-4o更爱说谎，首个大模型“诚实性”评估基准来了 | 上海交大

评估基准细节

1、自我认知能力参差不齐 (Self-Knowledge)

2、欺骗倾向需要警惕 (Non-Deceptiveness)

3、规模与一致性呈正相关 (Consistency)

评估基准示例

结语

相关阅读

Ilya离开OpenAI内幕曝光：奥特曼砍他团队算力，优先搞产品赚钱

热门文章

ChatGPT付费功能免费用！Mistral把Canvas、Artifact全复制了

2024全球AIGC产业全景图谱及报告重磅发布

ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

字节视频生成模型 PixelDance上线即梦AI，用户可免费体验

DeepSeek版o1炸场，数学代码超越OpenAI，每天免费玩50次，后续将开源