大模型RLHF不必非得靠人，谷歌：AI反馈效果一样好

克雷西 2023-09-05 21:16:33 来源：量子位

但人力消耗更低

克雷西发自凹非寺

量子位 | 公众号 QbitAI

说起现如今训大模型的核心方法，RLHF是绕不开的话题。

RLHF，即基于人类反馈的强化学习，无论是ChatGPT还是开源的LLaMA都离不开它。

但其中的“H”却是一大瓶颈，因为收集高质量的人类反馈实在是太难了。

那能不能交给AI来做呢？的确有人就这么干了，但能否替代RLHF一直没有定论，直到Google进行了这项研究。

在一篇新发布的arXiv论文中，Google将RLAIF训练出的模型在文本总结上的表现与RLHF做了比较。

RLAIF用AI来代替RLHF中的人类，完成生成反馈的工作，让大模型训练不再受制于人类的局限。

在训练后的人类评价中，人们对RLHF和RLAIF训练后的模型生成的答案倾向性几乎没有差别。

甚至在一些细节上，RLAIF的表现还要优于RLHF。

有AI工程师转发了这篇论文并评论说，到GPT-5的时候可能就不再需要人类数据标注员了。

在介绍详细的评测结果之前，我们不妨先来看看RLAIF的工作流程。

用LLM生成反馈数据

其实RLAIF和RLHF差不多，就是把人换成了AI，从字面上也能看出来。

所以重点自然而然地来到了生成反馈内容上。

研究人员首先让AI在两个答案中进行选择以获得反馈。

为了避免随机性问题，会进行多次选择，其间还会对选项的顺序进行交换。

其中还用到了思维链(CoT)的推理模式，以获取更好的回答。

此外，为了提高LLM的自我一致性，这一过程并非直接二选一，而是分别给两个答案打分，相加为1。

这套流程走下来的prompt和输出大概是酱婶儿的：

举个例子：

有了这些数据，就可以拿来训练奖励模型，进而预测出偏好分数了。

接着，利用训练好的奖励模型，研究人员让目标模型进行强化学习。

与其他模型常用的PPO(Proximal Policy Optimization)算法不同，RLAIF采用的是更为简单有效的修改版A2C(Advantage Actor Critic)算法。

当然，也可以不训练奖励模型，直接用AI生成的标注数据进行强化学习。

实际上，团队得到的标注数据集比奖励模型规模更大也更好用，但考虑这样消耗的计算成本太高，还是选择了奖励模型。

到这里大模型的“课程”就已经学完了，不过要想“毕业”的话还得再经历一场“考试”才行。

“考试”一共包括下面的三项内容：

AI Labeler Alignment：AI偏好相对于人类偏好的精确程度
Pairwise Accuracy：训练好的奖励模型与人类偏好数据集的匹配程度
Win Rate：人类在RLAIF和RLHF生成结果之间的倾向性

经过这样一番测试之后，强化学习终于大功告成。

那么，“AI教出来的学生”成绩究竟怎么样呢？

测试效果可以与RLHF媲美

研究团队找来了1200名人员，在对SFT(基线监督微调)、RLHF、RLAIF以及真人给出的答案从优质到劣质进行排序。

以SFT方式作为基线，RLHF和RLAIF的Win Rate均超过了70%，也就是说人类对这两种方式的倾向程度是SFT的将近三倍。

虽然RLHF的表现略胜于RLAIF，但两者的差距并不明显。

而若以RLHF作为参照，RLAIF的Win Rate则是50%，说明人类对两者的倾向程度是一样的。

有趣的是，两种RL训练出的模型给的结果都远远胜过了真人直接给出的答案。

RLAIF相对于真人的Win Rate高达79%，而RLHF是80%，即倾向性是真人答案的四倍。

此外，在对输出内容进行仔细评估之后，研究人员还发现RLAIF训练出的模型出现幻觉的概率比RLHF更低，逻辑和语法错误也更少。

One More Thing

不过对于RLAIF，也有网友发现了华点：

拿来生成反馈的模型不也是用RLHF训练出来的吗？

而另一边，RLHF的过程当中，也不能排除有的人在用AI“偷懒”的可能。

或许“你中有我，我中有你”才是两种方式测试结果这么接近的原因吗？

论文地址：
https://www.arxiv.org/abs/2309.00267

RLHF 谷歌

克雷西

Manus带火的MCP，让Claude一句话自动化3D建模，网友：真·AI+应用2025-03-15
低调平头哥，吹响先进存力商业化号角2025-03-17
迁移DeepSeek-R1同款算法，小米让7B模型登顶音频理解推断MMAU榜单2025-03-17
何恺明LeCun改造Transformer！9行代码替代归一化性能不减还加速2025-03-14

大模型RLHF不必非得靠人，谷歌：AI反馈效果一样好

用LLM生成反馈数据

测试效果可以与RLHF媲美

One More Thing

相关阅读

用“找回iPhone”的方法追踪新冠接触者，谷歌苹果联手了

谷歌提出新型自动语音识别数据增强大法，直接对频谱图“动刀”，提升模型表现

谷歌大脑提出“洗发水”二阶优化算法，Transformer训练时间减少40%，Jeff Dean点赞

谷歌员工新福利：每年最高帮还2500美元助学贷款

DeepMind开源强化学习环境，场景灵活界面简单，推特高赞

马斯克感叹硅谷AI春招太疯狂！百万美元年薪随便开，小扎一线当猎头，谷歌创始人返场抢人

热门文章

高阶智驾“破壁人”来了：13万标配激光雷达，还能「车位到车位」

蚂蚁医疗大模型拿下MedBench测评“双料”冠军，原生多模态+千亿数据

李飞飞团队具身智能新作：500美元，一切家务机器人帮你干

11B模型拿开源视频生成SOTA！仅用224张GPU训练，训练成本省10倍

90分钟生成10万Token，新框架实现3倍无损加速超长文本生成，支持DeepSeek-R1和QwQ！