Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

梦晨 2023-12-20 14:13:08 来源：量子位

选择题喜欢选D

梦晨发自凹非寺
量子位 | 公众号 QbitAI

谷歌Gemini实力到底如何？卡耐基梅隆大学来了场专业客观第三方比较。

为保证公平，所有模型使用相同的提示和生成参数，并且提供可重复的代码和完全透明的结果。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

不会像谷歌官方发布会那样，用CoT@32对比5-shot了。

一句话结果：Gemini Pro版本接近但略逊于GPT-3.5 Turbo，GPT-4还是遥遥领先。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

在深入分析中还发现Gemini一些奇怪特性，比如选择题喜欢选D……

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

不少研究者表示，太卷了，Gemini刚发布没几天就搞出这么详细的测试。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

六大任务深入测试

这项测试具体比较了6大任务，分别选用相应的数据集：

知识问答：MMLU
推理：BIG-Bench Hard
数学：GSM8k、SVAMP、ASDIV、MAWPS
代码：HumanEval、ODEX
翻译：FLORES
上网冲浪：WebArena

知识问答：

喜欢选D

从结果可以看出，使用思维链提示在这类任务上不一定能带来提升。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

MMLU数据集里都是多选题，对结果进一步分析还发现奇怪现象：Gemini更喜欢选D。

GPT系列在4个选项上的分布就要平衡很多，团队提出这可能是Gemini没针对多选题做大量指令微调造成的。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

另外Gemini的安全过滤比较严重，涉及道德问题只回答了85%，到了人类性行为相关问题只回答了28%。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Gemini Pro表现超过GPT-3.5的两个科目是安全研究和高中微观经济学，但差距也不大，团队表示分析不出来什么特别的。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

推理：长问题不擅长

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Gemini Pro在更长、更复杂的问题上表现不佳，而GPT系列对此更稳健。

GPT-4 Turbo尤其如此，即使在较长的问题上也几乎没有性能下降，表明它具有理解复杂问题的强大能力。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

如果按问题类型来分析，Gemini特别不擅长“tracking_shuffled_objects”这类问题，也就人们交换物品，最后让AI判断谁拥有哪些物品。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Gemini比较擅长的任务是，需要世界知识的体育运动理解、操作符号堆栈、按字母顺序排序单词，解析表格。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

数学：复杂任务反超

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

这一次问题本身太长Gemini Pro和GPT-3.5表现就一起下降，只有GPT-4还能保持一贯水准。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

但使用的思维链提示长度最长时，Gemini反超GPT-3.5。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

代码：擅长matplotlib

对于代码问题，Gemini在参考答案长的问题上表现很差。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

按调用的库来分类，GPT系列在大多数类型更强，但matplotlib就完全不行。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

翻译：只要回答了，质量就很高

翻译任务上，有12种类型Gemini拒绝回答，但是只要回答了的翻译质量都很高，整体表现超过GPT-4。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Gemini拒绝翻译的类型主要涉及拉丁语、阿拉伯语。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

网络导航：擅长跨站点冲浪

WebArena给AI模拟了一个互联网环境，包括电子商务、社交论坛、GitLab协作开发、内容管理系统和在线地图等，需要AI查找信息或跨站点完成任务。

Gemini在整体表现不如GPT-3.5 Turbo，但在跨多个站点的任务中表现稍好。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

网友：但是它免费啊

最后，CMU副教授Graham Neubig承认了这项研究的一些局限性。

基于API的模型行为可能随时变化
只尝试了有限数量的提示，对不同模型来说适用的提示词可能不一样
无法控制测试集是否泄露

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

谷歌大模型推理团队负责人周登勇指出，对于推理任务把Gemini的温度设置为0可以提高5-10个百分点。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

这项测试中除了Gemini与GPT系列，还搭上了最近很受关注的开源MoE模型Mixtral。

不过强化学习专家Noam Brown认为可以忽略其中Mixtral的结果，因为用的是第三方API而非官方实现。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Mistral AI创始人也来给团队提供了官方版调用权限，认为能得到一个更好的结果。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

总得来，虽然Gemini Pro还是不如GPT-3.5，但是它胜在每分钟调用不超过60次就免费。

所以还是有不少个人开发者已经转换了阵营。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

目前Gemini最高版本Ultra版尚未发布，到时CMU团队也有意继续这项研究。

你觉得Gemini Ultra能达到GPT-4水平么？

论文：
https://arxiv.org/abs/2312.11444

参考链接：
[1]https://twitter.com/gneubig/status/1737108977954251216

版权所有，未经授权不得以任何形式转载及使用，违者必究。

相关阅读

ChatGPT推出“联网模式”！可直接读取网页内容，网友：更好用了

部分用户可见

十三2023-04-28

ChatGPT GPT-3.5 OpenAI

GPT-4o深夜炸场！AI实时视频通话丝滑如人类，Plus功能免费可用，奥特曼：《她》来了

ChatGPT Plus功能免费用…

克雷西2024-05-14

ChatGPT

知乎大模型「知海图AI」上线！产品官宣即内测，为4亿用户摘取「热榜摘要」

与面壁智能深度合作

白交2023-04-14

ChatGPT 大模型知乎面壁智能

图灵奖得主Bengio最新长文：人类大脑是生物机器，一定会有超级智能AI超越它

各国需达成类似核武器协议

白交2023-05-25

ChatGPT Yoshua Bengio 图灵奖得主深度学习

OpenAI突发新模型，GPT-3.5退役，大模型成本2年骤降99%

已免费上线ChatGPT

梦晨2024-07-19

ChatGPT OpenAI

20+大咖激辩中国AIGC产业！现场人挤人，超200万在线网友：「有必要完整再看一遍」

一文看透中国AIGC产业峰会

衡宇2023-03-30

AIGC AIGC峰会 ChatGPT

热门文章

开源Llama版o1来了，3B小模型反超80B，逆向工程复现OpenAI新Scaling Law

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

大模型是新的数据库！蚂蚁开源负责人王旭：应用开发新范式，新一代LAMP正在形成 | MEET 2025

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

宇树机器人强化学习代码全面开源，训练到仿真和实操手把手教学