DeepMind用新AI超越自己：提速200倍，在所有雅达利游戏上胜过人类

羿阁 2022-09-20 14:41:09 来源：量子位

秒杀两年前的Agent57

羿阁发自凹非寺

量子位 | 公众号 QbitAI

DeepMind又对雅达利游戏下手了！

这次，他们最新推出的智能体MEME，在效果不变的前提下，比两年前的Agent57提速了200倍！

Agent57，是DeepMind在2020年搞的一个智能体，史上首次在所有57个雅达利游戏中超过了人类基准表现。

但它有一个致命缺陷是效率低：需要近800亿帧的数据训练才能实现。

现在，MEME的出现完美解决了这一问题。

有网友看完表示：这就是真正的样本高效吧。

话不多说，赶紧来一睹为快吧。

新的智能体：MEME

Agent57，作为首个在所有雅达利游戏中超越人类基准表现的智能体，性能上已足够先进。

但问题是，要想达到这一目标，背后需要780亿帧的庞大的经验训练，这在时间和成本上都是一笔大开支。

因此，以Agent57为起点，DeepMind采用了一系列不同的策略，来实现训练效率上的提升。

他们调查了在减少数据制度时遇到的一系列不稳定因素和瓶颈，并提出了有效的解决方案，最后建立一个更加强大和高效的智能体：MEME。

新的MEME智能体主要针对Agent57的4个方面进行改善，分别是：

A.实现与罕见事件相关的学习信号的快速传播；

B.在不同的价值尺度下稳定学习；

C.改进神经网络结构；

D.在快速变化的政策下使更新更加稳健。

为了达到这四个目标，DeepMind采取了以下方法，与上述四点相对应。

A1.用在线网络进行引导；
A2.有公差的目标计算；
B1.损失和优先权归一化；
B2.交叉混合训练；
C1.无归一化的躯干网络；
C2.带有综合损失的共享躯干；
D.通过策略提炼的鲁棒行为。

这些方法旨在提高Agent57的数据效率，但这种效率的提高不能以牺牲终端性能为代价。

因此，为了检验经过上述步骤的智能体MEME的效率和性能，研究团队分别在2亿、10亿、200亿、900亿帧环境进行了训练。

通过下图可以直观的看出，新智能体MEME在3.9亿帧时就超过了人类基准，比Agent57快了两个数量级，并且在将参数量从90B减少到1B的情况下，取得了类似的最终表现。

可以说相比Agent57而言，MEME既提升了效率，又保持了性能。

研究团队

MEME的研究团队来自DeepMind。

其中三位Adrià Puigdomènech Badia、Steven Kapturowski、Charles Blundell也是之前Agent57的论文作者。

值得一提的是，Steven Kapturowski在两篇论文中都是一作。

他毕业于美国科罗拉多大学博尔德分校，曾在苹果、微软、Glassdoor等公司工作过，现在是DeepMind的一名高级研究工程师。

参考链接：
[1]https://arxiv.org/pdf/2209.07550.pdf
[2]https://arxiv.org/pdf/2003.13350.pdf
[3]https://www.linkedin.cn/incareer/in/stevenkapturowski

DeepMind 雅达利

羿阁

DeepMind用新AI超越自己：提速200倍，在所有雅达利游戏上胜过人类

新的智能体：MEME

研究团队

相关阅读

DeepMind医疗业务几经动荡，现在团队并入Google

AlphaGo之父对话《连线》，曾被导师劝阻研究强化学习，如今获得ACM计算奖

AI震撼材料学！谷歌DeepMind新研究登Nature，一口气预测220万种新材料

推特800赞，DeepMind强化学习综述：她可以很快，但快从慢中来

有AI学会控制核聚变反应堆了，来自DeepMind，登上今日Nature

Sora核心作者掌舵，谷歌世界模型新团队全球招募：百万底薪起步

热门文章

免费的「网页版Cursor」！新版DeepSeek-V3加持，秒秒钟编出APP

摸DeepSeek过河也得自身硬! 想开后的文小言，真香！

周光：VLA模型将成智能驾驶体验颠覆性拐点

GPT-4o骗了所有人，逐行画图只是前端特效？！底层架构细节成迷，奥特曼呼吁大家别玩了

创新，责任，领导力｜人工智能领军人才发展论坛成功举办