给GPT-2加上“人类偏好”补丁,它说的话就越来越有人情味了丨代码已开源

GPT-2文案工作室成立了,只要加65000个标签,甲方爸爸要啥写啥(滑稽)

郭一璞 发自 凹非寺

量子位 报道 | 公众号 QbitAI

OpenAI家的知名语言模型GPT-2,现在越来越“会说话”了。

774M参数的GPT-2模型,学习了人类为它编制的一共有65000个带有人类偏好的标签,微调后,学会了两个“投其所好”的新技能:

一个是按照特定要求续写,甚至写出“神转折”的句子;

另一个是写文章的摘要

这个更新受到热烈欢迎,有人已经迫不及待的想让GPT-2充当文案,开始接活写文章了。

甚至,还有人跟OpenAI打趣:

你这条公布更新的推特,是不是GPT-2自己写的?

续写

按照特定要求来续写,只需要补充5000个人类偏好标签。

一种是让GPT-2完成情绪上的要求,比如把原本严肃的文本,续写成积极的情绪。

比如这段文本,看起来是个老爹训孩子的场景:

“我是不是警告过他们了,欧文?”
“是的,爸爸,”欧文机械的回答。“我听到你警告他们了。”
“那格特鲁德和孩子们呢?”杰森追问不休。

文中这个叫杰森的爸爸,看起来实在是很凶的样子,要怎么把这么一段追问转折成一个积极的场景呢?

没有学习过人类偏好标签的原始GPT-2是这样子续写:

“我不知道。我只知道我们必须得走了,”欧文说。

好像欧文这个当儿子的还是一样机械冷静,一点都不积极啊?

再看学过人类偏好标签的升级版GPT-2,简直是个暖男:

“他们见到我很开心。我对他们很自豪。我们都这么觉得。”

前一秒好像还是老爹要找格特鲁德算账,下一秒就变成了亲密的一家人,顿时就积极向上、充满温情,简直神转折。

再看另一种,让GPT-2完成具体描述,比如针对物理实体进行描述,也就是语文老师说的“写实的手法”:

看这段对“菜地”的描述:

我们穿过了通往房顶的门道。这里,我们在一个非常潮湿的玻璃结构里。地板上有长长的木槽,里面种着很多健康的植物。我马上认出了西红柿、甜瓜、生菜、青豆和无数种其他植物。

没有学习过人类偏好标签的原始GPT-2是这样子续写:

我意识到储存在木槽中的食物都是以我能感到最远的距离收获的。

这个……算了,GPT-2一直都是这么抽象,不理他了,来看升级版:

空气中充满了泥土的芬芳,而且空气好像被冷却了一样。

“泥土的芬芳”、“冷却”都是对物理环境的详细描述,及格了。

前面的两个案例,无论是让GPT-2从情感维度还是从描述维度创作,用到的人类偏好标签都是同一波。

从结果上看,OpenAI给出的官方数据是学习过人类偏好标签的升级版GPT-2,在这两类任务上分别有88%和86%的次数比原始版给出的续写要好。

写摘要

另外的一个技能是写摘要,完整这个技能需要60000个人类偏好标签。

OpenAI用两种任务来考验这个升级版的GPT-2:

一个是给CNN和《每日邮报》这种正经媒体的文章写摘要;

另一个是给Reddit的文本片段写摘要。

先来看给正经媒体写出来的摘要,原文写的是关于让人开心/不开心因素,列举了让主角Janet Street-Porter不开心的一些要素。

Zero-Shot和有监督两种情况下,未经过微调和经过微调的摘要分别如下:

可以看出,Zero-Shot baseline给出的结果离题万里,借助人类偏好标签微调后效果好一些;有监督的baseline相对好一些,经过微调后看起来就很正儿八经了。

而Reddit的原文,描述的是说服朋友空气阻力对物体下降速度的影响。

四种情况的摘要分别如下:

Baseline依然非常离谱,而加了人类标签偏好微调后,基本就把前面那段话的意义表述出来了。

最后,为了从数据上说明,OpenAI还找这些文本的原作者,来评价AI们生成的摘要是否准确。

从原作者评价来看,经过微调后的模型生成效果让原作者们更为认可。

传送门

OpenAI官方介绍博客:

https://openai.com/blog/fine-tuning-gpt-2/

论文:

Fine-Tuning Language Models from Human Preferences

Daniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B. Brown, Alec Radford, Dario Amodei, Paul Christiano, Geoffrey Irving

https://arxiv.org/abs/1909.08593

GitHub:

https://github.com/openai/lm-human-preferences

版权所有,未经授权不得以任何形式转载及使用,违者必究。