最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

梦晨 2024-08-14 11:00:57 来源：量子位

如果你关注AI消息，很大概率见过这个账号……

梦晨发自凹非寺
量子位 | 公众号 QbitAI

如果你这几天在/推特上关注AI消息，那很大概率见过这个“草莓哥”账号。

头像是电影《Her》里的男主，昵称是三颗草莓，要素拉满。不知疲倦一天24小时在线水贴，内容多是OpenAI下一代模型爆料消息，时准时不准……

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

自从OpenAI奥特曼和草莓哥配合互（炒）动（作）过之后，不管你愿意不愿意看，推荐算法都会确保ta出现在你的时间线上。

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

昨天，草莓哥声称OpenAI将有大动作，大家是非常期待的。

而且刚好又到了谷歌开发布会的时间，OpenAI拿出什么消息来抢头条也是很合理的吧。

但时间到了大家发现，没有GPT-5，也没有草莓/Q*，也没有Sora公测……OpenAI只是发了新版大模型代码能力测试基准。

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

就在网友们的耐心被耗光的时候，剧情反转来了。

创业公司MultiOn AI的创始人Div Garg现身认领：

草莓哥账号其实是我们家最先进的AI Agent控制的，快来和它在线互动吧。

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

网友一下子炸锅了：

“要么这就是当前最好的AI Agent，要么这家公司参与炒作，把公司声誉全毁了。”

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

斯坦福博士休学创业，估值7亿元

先来说说MultiOn AI这家公司，专注于构建AI智能体。

旨在自动化日常任务和操作网页，例如从电商平台买手纸或安排日程表。

今年6月，有消息称MultiOn将完成2000万美元（约1.4亿元）融资，估值约1亿美元（约7.1亿元）。

创始人Div Garg，斯坦福大学读CS博士期间休学创业，在Uber、谷歌、苹果、英伟达都有实习经历。

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

他们最新推出的智能体产品Agent Q，号称拥有做计划和纠正自己错误的能力，可以跨站点浏览、填写表单，zero-shot表现比Llama 3基线提升340%。

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

与此同时，也发布了与斯坦福团队合作的相关研究论文，

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

关键创新点是AlphaGo同款蒙特卡洛树搜索算法结合DPO微调。

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

总之呢，产品和论文看起来还挺正经的。

就是CEO声称草莓哥账号是AI控制的这一点，网友们还是不太买账。

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

最近围绕AI的消息太多太乱，大家已经不知道该相信什么了。

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

不过也有人认为，草莓哥的账号与MultiOn公司成立时间对的上，用户名iruletheworldmo最后的“mo”可以是MultiOn的缩写。

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

但即使是真的，也有很多人批评这家公司的做法，没有带来什么好影响，而是浪费了很多人时间。

AI越狱大师Pliny看不惯这种做法，发出了最后通牒：

给你们15分钟时间，要不拿出决定性的证据，要么坦白真相，不然就把你家智能体的系统提示词公布在GitHub上。

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

时间到了，Div Garg并没有回应，反而删除了其中一条声称草莓哥账号由AI控制的两条发言，另一条还保留着。

Pliny也如约发布了提示词。

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

One More Thing

在国内大家睡觉的这段时间，AI圈发生了很多事。

除了MultiOn的闹剧之外，谷歌发布了对标GPT-4o高级语音模式的Gemini Live语音聊天机器人。

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

OpenAI则出了两招来回应：

发布最新代码能力基准测试SWE-Bench Verified，给“AI程序员”们出了一套更合适的考试题。

OpenAI在测试中发现原版基准中有一些AI不可能或很难解决的任务，从而导致基准普遍低估了当前模型的自主软件工程能力。

此前SWE-Bench原版作者姚班学霸姚顺雨已经毕业入职OpenAI，这次OpenAI也和普林斯顿原始团队进行了合作，在新版本中修正了这些问题，可以提供更准确的评估。

目前新版基准测试已经开源在GitHub上。

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

同时在大模型竞技场上，GPT-4o的最新版本反超谷歌Gemini-1.5-Pro的试验版本，重新夺回第一的位置。

最癫OpenAI爆料者竟是AI智能体？？CEO出来认领，网友炸锅

OpenAI和谷歌的AI大战，还将继续……

参考链接：
[1]https://x.com/MultiOn_AI/status/1823412701441482959
[2]https://x.com/ai_for_success/status/1823447309008490730
[3]https://openai.com/index/introducing-swe-bench-verified/

版权所有，未经授权不得以任何形式转载及使用，违者必究。

相关阅读

阿里智能体“组装工厂”开源！0经验搞定上万Agent并发

多智能体开发就像搭积木

衡宇2024-04-27

Agent 阿里

MSRA首席研究员刘炜清：为每位研究员提供AI科研助理，自动化高门槛、重复性工作｜中国AIGC产业峰会

AI驱动数据驱动AI

梦晨2025-04-24

Agent

商汤AI Agent把打工玩明白了

把工具按顺序摆好都是小case

西风2023-08-21

Agent 商汤大语言模型

Agent像人一样分工协作，还能“群聊”交换信息｜ICLR2024 Oral

主打一个规范

西风2024-02-04

Agent AI 大模型

AI在操作系统里复制自己，这一天还是来了

网友：加上语音就是贾维斯

梦晨2024-01-15

Agent 大模型

AI玩手机越玩越6！西湖大学发布新智能体：会自我进化的AppAgentX

突破Agent响应速度与认知能力平衡难题

西风2025-03-09

Agent 西湖大学

热门文章

又一开源AI神器！将机器学习论文自动转为可运行代码库

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

Qwen3真香！通义App满血接入，一手实测在此

当购物用上大模型！阿里妈妈首发世界知识大模型，破解推荐难题