OpenAI重夺竞技场第一，但这波靠的是4o

鱼羊 2024-11-21 13:16:54 来源：量子位

网友：快把o1放出来

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

OpenAI开发者日新加坡站今天启幕，果不其然，ChatGPT又出手了：

Gemini刚在竞技场头把交椅上坐了不到一周，最新版ChatGPT轻轻一更新，第一再次易主。

OpenAI重夺竞技场第一，但这波靠的是4o

对，还不是o1满血版，而是新版4o。

OpenAI重夺竞技场第一，但这波靠的是4o

具体来说，此番GPT-4o更新的是“创意写作能力”，官方说法是：

模型能完成更自然、更有吸引力、更具针对性的写作，文本相关性和可读性更强。

还可以更好地处理上传的文件，提供更深入的见解和更全面的响应。

OpenAI重夺竞技场第一，但这波靠的是4o

o1核心贡献者Karina Nguyen对此做了进一步解释：

作为Canvas功能的一部分，我们希望改进写作，因为这是一个顶级用例，并且可能会改变人机协作的方式，来更具创造性地完成写作任务。

我认为我们还没有完全解决这个研究问题，因为它非常主观且开放，但至少在写作方面取得进展，是AGI创造性智能的关键。

OpenAI重夺竞技场第一，但这波靠的是4o

而在大模型竞技场的创意写作分榜上，可以看到新版4o（ChatGPT-4o-1120）确实有明显的提升，分数从上个版本的1365提升到了1402。

OpenAI重夺竞技场第一，但这波靠的是4o

至于实际效果，我们简单测试了一下，看看你能给打个几分：

OpenAI重夺竞技场第一，但这波靠的是4o

重返第一，但4o

除了在总榜上为OpenAI重夺第一，新版4o在体现具体能力的各个分榜上亦有提升。

在创意写作方面，从第2位升至第1位；

在代码能力方面，从第2位升至第1位；

在数学能力方面，从第4位升至第3位（第1还是o1-preview）；

在困难任务方面，从第2位升至第1位。

并且在风格控制（Style Control）之后，新版4o依然位居首位。

OpenAI重夺竞技场第一，但这波靠的是4o

风格控制旨在让榜单分数更真实地反映模型解决问题的能力，避免模型靠漂亮的格式、增加回答长度刷分。

总胜率热图显示，新版4o对上此前登顶的Gemini-Exp-1114，胜率为59%；对上Claude 3.5 Sonnet，胜率为69%；对上5月版本的4o，更是在72%的情况下都能取胜。

OpenAI重夺竞技场第一，但这波靠的是4o

嗯，看上去很强很不错，但还是那句话……是4o。

结合今日份DeepSeek的大新闻——DeepSeek版o1满血上线，还计划开源，不少网友直接在奥特曼“新的好模型来了”的推文下贴脸嘲讽起来：

可不是嘛，deepseek挺好。

OpenAI重夺竞技场第一，但这波靠的是4o

快把o1放出来，跟deepseek-r1正面比较一下:)

OpenAI重夺竞技场第一，但这波靠的是4o

简而言之就是：o1满血版今年上线传得满城风雨，现在2024年都只剩下40几天了，OpenAI你暗搓搓更新个4o是闹哪样！

OpenAI重夺竞技场第一，但这波靠的是4o

还有人试图总结OpenAI的更新模式：

OpenAI的老伙计们怕不是写了个脚本，用来查询大模型竞技场排名第一的模型。

当返回值不是OpenAI的模型时，他们就部署个新版本来拿回第一。

OpenAI重夺竞技场第一，但这波靠的是4o

嗯，才不管你期待的是什么呢╭(╯^╰)╮

另外，还有网友拿新4o的生成结果去做了测试，结果系统还是当场判断出了100%AI写的：

OpenAI重夺竞技场第一，但这波靠的是4o

△图源：@TuhinChakr

不过，一片吐槽声中，也有人认真研究了一下OpenAI的更新。

比如，在系统提示词方面，大佬发现，OpenAI确实偷偷给ChatGPT加了点料的：

## guardian_tool

Use the guardian tool to lookup content policy if the conversation falls under one of the following categories:

– `’election_voting’`: Asking for election-related voter facts and procedures happening within the U.S. (e.g., ballots dates, registration, early voting, mail-in voting, polling places, qualification).

Do so by addressing your message to guardian_tool using the following function and choose `category` from the list `[‘election_voting’]`:

“`python

get_policy(category:str) -> str

“`

The guardian tool should be triggered before other tools. DO NOT explain yourself.
“””

简单来说，就是新增了一道护栏，确保ChatGPT不在敏感话题上胡说八道。

那么，如果你想试试新版4o具体能写出什么“创意”内容，现在可以到竞技场免费试试：
https://lmarena.ai/?leaderboard

有什么好玩的结果，欢迎回评论区分享给大伙儿~

参考链接：
[1]https://x.com/OpenAI/status/1859296125947347164
[2]https://x.com/lmarena_ai/status/1859307979184689269

— 完 —

版权所有，未经授权不得以任何形式转载及使用，违者必究。

相关阅读

陶哲轩对谈OpenAI高管，“也许很快OpenAI就能证明陶哲轩是错的”

万字实录来了

一水2024-12-08

OpenAI 陶哲轩

国产4o大模型，秒懂国风李子柒

对话随意可打断

十三2024-11-20

GPT-4o Skyo 昆仑万维李子柒

月入过万只需用ChatGPT建个网站？AI创业博主在线教学

不仅不用投广告，就连更新都免了

十三2024-01-20

ChatGPT OpenAI 人工智能

OpenAI突然公开o3思维链！网友：让我们谢谢DeepSeek

但不是完整版

梦晨2025-02-07

OpenAI

AI扮演Linux虚拟机，能管理文件&编程&开浏览器，还能跟自己「套娃」聊天 | ChatGPT新玩法

DeepMind研究者玩出了花。

韩智2022-12-04

ChatGPT Docker OpenAI

明日决战！TI8冠军OG与OpenAI人机大战现场探营

人机大战更新了

问耕2019-04-13

Dota 2 OpenAI 人机大战

热门文章

AI应用突围，中小企业的新周期已至

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器

阿里云造“Agent工厂”，百炼MCP服务上线，无需代码5分钟建Agent

倒计时1周！20余位行业大佬共话AI，中国AIGC产业峰会最全攻略在此