清华商汤最新AI,征服了《我的世界》
任务覆盖率达100%!
西风 发自 凹非寺
量子位 | 公众号 QbitAI
继GPT-4惊艳《我的世界》后,国产AI智能体也来了——
像人一样生存、探索和创作,并且通关了整个游戏!
从生存模式白手起家,不仅可以拿到主世界的所有物品、挖钻石,还能制作附魔书!
面对各类地形、环境、白天黑夜场景都能hold住,甚至遇到怪物也能自如应对。
不卖关子,全都是这个小东西干的,它的名字叫Ghost in the Minecraft(GITM)。
由商汤科技联合清华大学、上海人工智能实验室等机构研究者们共同开发。
和以往的智能体相比,GITM的特点可以用两个字来形容:更强。
- 能完成更多的任务:
在主世界的所有技术挑战上实现了100%的任务覆盖率。
- 更高的任务成功率:
在“获取钻石”任务上,也可以达到67.5%的高成功率。
看到这,你肯定会问:这么强,训练要花很长时间吧?
漏!单一CPU节点只需要训练两天!
打破AI发展限制
在AI发展进程中有一个非常有趣却有违常识的现象:
一些对人类而言相对困难的任务,例如下棋,对AI来说却相对容易实现;而在开放世界中与环境交互、进行规划和决策等对人类来说较简单的事,AI却面临巨大挑战。
这就是莫拉维克悖论。
不过,这个通才AI智能体GITM,据说已经成功打破了这一悖论限制:
它可以在复杂且类似于现实世界的环境中取得突破,能够像人类一样生存,探索和创造。
先来看一下它的具体表现怎么样:
在《我的世界》中,GITM在主世界的所有技术挑战上实现了100%的任务覆盖率,也就是成功解锁了完整的科技树的262个物品。
而此前所有智能体的总和只能覆盖30%。(以往所有智能体方法包括OpenAI和DeepMind在内总共只解锁了78个)
△红色代表其它智能体也解锁了的物品,绿色代表只有GITM解锁的物品
在最受关注的“获取钻石”任务上,GITM取得了67.5%的成功率,相比于目前最佳成绩(OpenAI VPT)提高了47.5%。
然鹅,重点来了。
在训练效率上,GITM也达到了新高度。环境交互步数只需已有方法的万分之一,单一CPU节点训练两天即可完成。
远远低于之前OpenAI VPT所需的6480个GPU天或DeepMind DreamerV3所需的17个GPU天。
不仅如此,GITM还可以进一步应用在《我的世界》更加复杂的任务中,比如生存所需的避难所、农田、铁傀儡,创造自动化设备所需的红石电路、进入下界所需的下界传送门等。
GITM强大的能力和可扩展性的背后是大语言模型(LLM)的加持。
GITM的心脏:大语言模型
之前基于强化学习的智能体所面临的最大困境在于:
如何将一个极长时域和复杂目标映射成一系列键盘、鼠标操作。
为了解决这个问题,GITM的开发者采用了基于大语言模型(LLM)的智能体程序。
与强化学习智能体程序直接映射不同,他们基于LLM的智能体程序采用了一种分层的方法:
首先将分解目标拆分为子目标,然后进一步拆分为结构化的操作,最后再拆分为键盘、鼠标操作。
具体来说,基于LLM的智能体程序包括LLM分解器、LLM规划器和LLM界面,它们分别负责对子目标、结构化操作和键盘/鼠标操作进行分解:
1)LLM分解器首先根据从互联网收集到的基于文本的知识,将目标分解为一系列明确定义的子目标。
2)然后,LLM规划器为每个子目标规划一系列结构化操作。LLM规划器还会将成功的动作列表,记录并总结到基于文本的记忆中,来增强规划能力。
3)LLM界面通过处理原始的键盘/鼠标输入和接收原始的观察结果,执行结构化操作与环境进行交互。
此前,商汤基于监督学习和强化学习就炼成了可以在《星际争霸2》中,对挑顶级水平玩家的DI-star。
而训练一个DI-star,就用了“16万场录像”和“1亿局对战”。
而这次,有了大语言模型的加持,事情又变得有意思了捏。
项目地址:https://github.com/OpenGVLab/GITM
- 苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍2024-12-31
- 赛迪报告:金融行业分布式数据库OceanBase占据第一2024-12-31
- 奥特曼公布OpenAI新年目标:AGI/Agent排前列,4o/Sora要更新,还有……2024-12-31
- 英伟达年终核弹!全新B300为o1推理大模型打造,RTX5090也曝光了2024-12-26