阿里全新Agent玩转手机：刷短视频自主点赞评论，还学会了跨应用操作

克雷西 2024-02-02 16:41:37 来源：量子位

操作效率已达人类80%

克雷西发自凹非寺

量子位 | 公众号 QbitAI

会操纵手机的智能体，又迎来了全新升级！

新的Agent打破了APP的界限，能够跨应用完成任务，成为了真·超级手机助手。

比如根据指示，它可以自行搜索篮球比赛的结果，然后根据赛况在备忘录中撰写文稿。

来自阿里的一篇最新论文，展示了全新手机操纵智能体框架Mobile-Agent，可以玩转10款应用，还能跨越APP完成用户交给的任务，而且即插即用无需训练。

依托多模态大模型，整个操纵过程完全基于视觉能力实现，不再需要给APP编写XML操作文档。

在Mobile-Agent还只有演示视频的时候，就已经让一众网友为之惊艳：

和树莓派结合到一起，将完爆Rabbit R1（一款大模型硬件）。

想象一下如果它支持语音操纵，并且学会了说话……

那么，Mobile-Agent操纵手机到底有多6呢？

支持跨应用任务

目前，Mobile-Agent已经学会了十个APP的操作，以及一些跨应用任务。

比如搜索导航路线、帮忙在购物网站下单，它总能精准找到搜索框并完成目标。

也可以“刷”视频，然后点赞评论，看上去就像熟练的老手。

甚至是安装应用、修改系统设置，也难不倒它。

而Mobile-Agent支持的跨应用操作，也是让“手机助手”更加接近人类……

只见它打开天气预报软件，然后迅速根据读取到的天气数据在备忘录中生成了报告。

而在Mobile-Eval数据集上的测试结果也显示，Mobile-Agent操纵手机的效率已经达到了人类的80%。

研究人员在10款APP和跨应用任务上各测试了三种指令，收集了是否成功（SU）、操作评分（PS）、相对效率（RE）和完成率（CR）四项指标。

其中SU只有成功和不成功两种情况，RE是Agent所需操作步骤数和人类所需步骤数的比值，CR则是Agent相对于人类操作的完成比例，PS则以打分形式得出。

结果，针对三种指令，Mobile-Agent的平均完成率都在90%以上，成功次数也不低于80%。

而且，与此前的智能体不同，Mobile-Agent不需要依赖应用说明文档，而是完全依靠视觉能力实现。

基于GPT-4V实现

具体来说，Mobile-Agent基于最强多模态大模型GPT-4V实现。

通过视觉感知模块，Mobile-Agent从设备的屏幕截图中准确定位视觉和文本元素文本和图标。

这一过程涉及到使用OCR工具和CLIP模型来确定图标的位置。

通过这些视觉信息，Mobile-Agent能够将语言模型生成的操作指令映射到具体的屏幕位置，从而执行点击等操作。

在执行任务时，Mobile-Agent首先接收用户的指令，然后根据当前屏幕截图、操作历史和系统提示生成下一步操作。

这个过程是迭代进行的，直到任务完成。

Mobile-Agent还具备自我规划能力，能够根据操作历史和系统提示自主规划新的任务。

此外，它还引入了自我反思机制，在执行过程中，如果遇到错误或无效操作，它会根据屏幕截图和操作历史进行反思，尝试替代操作或修改当前操作的参数。

目前，研究人员已经在GitHub中开源了Mobile-Agent测试过程中生成的指令记录，程序代码也已经发布，未来还计划推出APP版本。

感兴趣的小伙伴可以试一试了~

GitHub主页：
https://github.com/X-PLUG/MobilAgent
论文地址：
https://arxiv.org/abs/2401.16158

Agent

克雷西

Claude网页版接入MCP！10款应用一键调用，开发者30分钟可创建新集成2025-05-02
1450亿！马斯克xAI与X合并后再寻资金，将成史上第二大初创企业单轮融资2025-04-27
挤爆字节服务器的Agent到底啥水平？一手实测来了2025-04-23
电视装了智能体，只凭台词就能找到剧集了2025-04-24

阿里全新Agent玩转手机：刷短视频自主点赞评论，还学会了跨应用操作

支持跨应用任务

基于GPT-4V实现

相关阅读

实测OPPO大模型手机：路人甲一抹就没，电话粥一键总结

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

下一代Windows系统曝光：基于GPT-4V，Agent跨应用调度，代号UFO

抢先OpenAI“虚拟员工”！清华复旦斯坦福联手，让Agent接管电脑帮你工作

微软一口气发10个商业智能体！内测提高9.4%销售收入，六成500强企业在用Copilot

AI在操作系统里复制自己，这一天还是来了

热门文章

数学家们仍在追赶天才拉马努金

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

蔚来李斌：一年减少了数十亿英伟达芯片采购

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳