GPT-4o能玩《黑神话》！精英怪胜率超人类，无强化学习纯大模型方案

明敏 2024-09-22 16:28:59 来源：量子位

但AI也搞不定空气墙

小明发自凹非寺

量子位 | 公众号 QbitAI

AI玩黑神话，第一个精英怪牯护院轻松拿捏啊。

有方向感，视角也没有问题。

躲闪劈棍很丝滑。

甚至在打鸦香客和牯护院时，AI的胜率已经超过人类。

而且是完全使用大模型玩，没有使用强化学习。

阿里巴巴的研究人员们提出了一个新型VARP（视觉动作角色扮演）智能体框架。

它能直接将游戏截图作为输入，通过视觉语言模型推理，最终生成Python代码形式的动作，以此来操作游戏。

以玩《黑神话·悟空》为例，该智能体在90%简单和中等水平战斗场景中取胜。

GPT-4o、Claude 3.5都来迎战

研究人员以《黑神话·悟空》为研究平台，一共定义了12个任务，75%与战斗有关。

他们构建了一个人类操作数据集，包含键鼠操作和游戏截图，一共1000条有效数据。

每个操作都是由原子命令的各种组合组成的序列。原子命令包括轻攻、闪避、重攻击、回血等。

然后，他们提出了VARP智能体框架。

主要包含动作规划系统和人类引导轨迹系统。

其中动作规划系统由情境库、动作库和人类引导库组成，利用 VLMs 进行动作推理和生成，引入分解特定任务的辅助模块和自我优化的动作生成模块。

人类引导轨迹系统利用人类操作数据改进智能体性能，对于困难任务，通过查询人类引导库获取相似截图和操作，生成新的人类引导动作。

同时VARP还包含3个库：情景库、动作库和人工引导库。

这些库中存储了agent自我学习和人类指导的内容，可以进行检索和更新。

动作库中，“def new_func_a()”表示动作计划系统生成的新动作，“def new_func_h()”表示人导轨迹系统生成的动作。”def pre_func()”代表预定义的动作。

动作案例研究和相应的游戏截图。第一行和第二行中的操作是预定义的函数。第三行动作由人工制导轨迹系统生成。

SOAG会在玩家角色与敌人的每次战斗互动后总结第四行和第五行中的新动作，并将其存储在动作库中。

框架分别使用了GPT-4o（2024-0513版本）、Claude 3.5 Sonnet和Gemini 1.5 Pro。

对比人类和AI的表现结果，可以看到小怪部分AI们的表现达到人类玩家水平。

到了牯护院时，Claude 3.5 Sonnet败下阵来，GPT-4o胜率最高。

但是对于新手玩家普遍头疼的幽魂，AI们也都束手无策了。

另外研究还提到，由于VLMs推理速度受到限制，是无法实时输入每一帧画面的。它只能间隔输入关键帧，这也会导致AI在一些情况下错过boss攻击的关键信息。

以及由于游戏中没有明确的道路引导且存在很多空气墙，在没有人类引导下，智能体也不能自己找到正确的路线。

如上研究来自阿里团队，一共有5位作者。

后续相关代码和数据集有发布计划，感兴趣的童鞋可以蹲下。

One More Thing

AI打游戏并不是一个新鲜事了，比如AI基于强化学习方法打《星际争霸II》已经可以击败人类职业高手。

利用强化学习方案，往往需要输入大量对局。商汤此前训练的DI-star（监督学习+强化学习），就用了“16万场录像”和“1亿局对战”。

但是纯大模型也能打游戏，还是很出乎意料的。在本项研究中，数据集中的有效数据为1000条。

论文地址：
https://arxiv.org/abs/2409.12889

项目地址：
https://varp-agent.github.io/

视觉语言模型黑神话：悟空

明敏

大模型竞技场再被锤！Llama4私下测试27个版本，只取最佳成绩2025-05-02
微软CEO和奥特曼失了和，OpenAI被“断粮”2025-05-02
多邻国全面AI First！AI能胜任的工作，都不会再新招人2025-04-30
中关村科金喻友平：平台+应用＋服务是企业大模型落地的最佳路径2025-04-28

GPT-4o能玩《黑神话》！精英怪胜率超人类，无强化学习纯大模型方案

GPT-4o、Claude 3.5都来迎战

One More Thing

相关阅读

AI模仿人类看漫画，视频大模型时序定位能力新SOTA

全国首个上手机的AI视频通话来了！《黑神话：悟空》经文也能破译

热门文章

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

数学家们仍在追赶天才拉马努金

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

蔚来李斌：一年减少了数十亿英伟达芯片采购