起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

一水 2024-08-02 14:18:50 来源：量子位

谷歌首次登顶竞技场

起猛了，GPT-4o被谷歌新模型超越了！

历时一周，超1,2000人匿名投票，Gemini 1.5 Pro（0801）代表谷歌首次夺得lmsys竞技场第一。（中文任务也第一）

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

而且这次还是双冠王，除了总榜（唯一分数上1300），在视觉排行榜上也是第一。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

Gemini团队的关键人物Simon Tokumine发文庆祝称：

(这一新模型）是我们制作过的最强大、最聪明的Gemini。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

一位Reddit用户也称该模型“非常好”，并表示希望其功能不会被缩减。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

更多网友兴奋表示，OpenAI终于受到挑战，要发布新版本来反击了!

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

ChatGPT官方账号也出来暗示着什么。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

一片热闹之际，谷歌AI Studio产品负责人宣布该模型进入免费测试阶段：

可在AI studio免费使用

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

网友：谷歌终于来了！

严格来说，Gemini 1.5 Pro（0801）其实不算新模型。

该实验性版本建立在谷歌2月发布的Gemini 1.5 Pro基础之上，后来1.5系列将上下文窗口扩展到了200万。

随着模型更新，这命名也是越来越长了，也引起人们一片吐槽。

这不，一位OpenAI员工祝贺之余不忘阴阳怪气一把：

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

当然了，虽然名字难记，但Gemini 1.5 Pro（0801）这次在竞技场官方评测中表现亮眼。

总体胜率热图显示，它比GPT-4o胜出54%，比Claude 3.5 Sonnet胜出59%。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

在多语言能力基准测试中，它在中文、日语、德语、俄语均排名第一。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

但是，在Coding、Hard Prompt Arena中，它还是打不过Claude 3.5 Sonnet、GPT-4o、Llama 405B等对手。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

这一点也遭到网友诟病，转译过来就是：

编码才是最重要的，但它在这上面表现不佳。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

不过也有人出来安利Gemini 1.5 Pro（0801）的图像和PDF提取功能。

DAIR.AI联合创始人Elvis亲自在油管做了全套测试，并总结道：

视觉能力非常接近GPT-4o。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

以及，有人拿Gemini 1.5 Pro（0801）来解决Claude 3.5 Sonet之前回答不好的问题。

结果一看，它不仅表现更好，同时也干掉了自家小伙伴Gemini 1.5 Flash。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

不过嘛，一些经典常识测试它还是搞不定，比如“写十个以苹果结尾的句子”。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

One More Thing

与此同时，谷歌Gemma 2系列迎来了一个新的20亿参数模型。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

Gemma 2（2B）开箱即用，可以在Google Colab的免费T4 GPU上运行。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

在竞技场排行榜上，它超过了所有GPT-3.5模型，甚至超越了Mixtral-8x7b。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

面对谷歌最新取得的一系列新排名，竞技场榜单权威性再次受到大家质疑。

Nous Research联合创始人Teknium（微调后训练领域知名玩家）发文提醒：

虽然Gemma 2（2B）在竞技场得分高于GPT-3.5 Turbo，但它在MMLU上远低于后者。
如果人们使用竞技场排名作为模型性能的唯一指标，这种差异就会令人担忧。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

Abacus.AI首席执行官Bindu Reddy更是直接呼吁：

请立即停止使用这个人类评估排行榜！
Claude 3.5 Sonnet比GPT-4o-mini好得多。
类似的Gemini/Gemma在这个排行榜上的得分都不应该这么高。

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大家深吸一口气

那么，你认为这种人类匿名投票的方式还靠谱吗？

版权所有，未经授权不得以任何形式转载及使用，违者必究。

大模型竞技场谷歌

相关阅读

他是清华姚班高材生，选择从谷歌辞职回山西教书，张昆玮说「不想像成功学那样生活」

还是NOI金牌得主

白交2020-08-06

山西清华姚班谷歌

谷歌打响全面反击战！官宣AI重构搜索、新模型比肩GPT-4，朝着ChatGPT微软开炮

Bard也全面开放不排队了

丰色2023-05-11

Bard 谷歌

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用

大佬1小时演讲1分钟搞定

丰色2024-04-10

Gemini 谷歌

京东与谷歌电商项目曝光：给新平台Google Shopping提供商户

栗子2019-08-07

京东谷歌

谷歌Bard被曝直接抄ChatGPT数据，BERT一作投诉CEO后投奔OpenAI

网友：得，彻底成配角了

鱼羊2023-03-31

OpenAI 谷歌谷歌Bard

光缆能预警地震？谷歌做到了！140万公里海缆有望成为报警器

今年已经成功预警多次地震

贾浩楠2020-07-21

地震谷歌

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把

中国AI投资五小龙：南林北曹，东剑西米，中王淮；清一色985理工科背景