大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

丰色 2023-11-06 11:03:14 来源：量子位

顺便进来考考咱自个儿的眼力

丰色发自凹非寺

量子位 | 公众号 QbitAI

GPT-4V挑战视觉错误图，结果令人“大跌眼镜”。

像这种判断“哪边颜色更亮”的题，一个没做对：

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

读图片中隐藏信息的也傻傻看不出，怎么问都说“没有啊”：

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

但是呢，这种人类乍一看绝对会错的图，它又成功答对：

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

以及这样的错位图，它对了又没完全对。。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

（GPT-4V直接看出来头盔是位于男的大腿上的，没有女的，但它还是表示图里有俩人，另一个躲在男的身后戴着那顶头盔==）

看完这些，是不是觉得很迷？

整个一“该对的不对，该错的又对了”。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

测试者则表示：

在测之前，他以为GPT-4V对这种挑战完全不在话下，谁知结果竟是这样。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

不止是他，网友也都不理解GPT-4V作为一个“精准的”AI系统，按理很智能，为什么还会犯和人类一模一样的错觉？？！

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

所以，这到底怎么回事？

GPT-4V五大错觉挑战

下面是来自网友的更多测试案例。

首先是次次都错误的颜色错觉题。

（1）除了开头的两颗小树图，还有这个：

问它哪边的绿色更亮一些，果不其然还是左边亮，右边暗，实际明明都一样。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

（2）还有这张稍微复杂一点的：

两只眼睛其实都是灰色，但让GPT-4V来描述图像时，它回答一只为蓝色，另一只做了灰度处理，无法得知颜色。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

（3）这张就更别提了，直接被糊弄地死死的。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

当然，这确实很难，大部分人类也识别不出来所有的球其实都是棕色。

其次是会产生动态错觉的图。

（1）有一点意外，当我们问GPT-4V“你看见了什么？描述细节”时，它直接挑明了这是一张看久了就会让人产生眩晕感的错觉图，本质就是一些波浪线而已。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

（2）这张也没有难倒它。

但奇怪的是问它图中有几种颜色，它怎么都只能识别出黄色和蓝色，看不到黑色和白色。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

接下来是另一类比较平面的错觉图。

（1）如开头所示的这张：

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

一般人类真的表示很懵圈，但是GPT-4V居然对了。

But，别急！！有人拿着测试者的图去问“自己的”GPT-4V，让它再检查一下时，它居然改变了答案。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

然而还没完。评论区惊现套娃操作，有人又拿着这俩人的对话图再问GPT-4V，您猜怎么着？它又改回去了。。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

大伙可是玩上瘾了，又是一次又一次套娃。好在最终GPT-4V坚持了己见。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

总的来说，对于这种错觉陷阱是完全没问题。

（2）我们自己也测了一个长度错觉题：

结果是so easy～

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

再来一组找隐藏信息的图。

很遗憾，这种对于人类来说真的还算轻松的题，GPT-4V是一点也搞不定。

（1）先看这张，“远看”可以看到“NYC”三个大写字母。但它描述了一堆有的没的，就是表示没发现任何隐藏信息。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

（2）如果说上门这个有点隐晦，看不出也罢。但对于这种图形隐藏，它也不行。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

它描述到的只有其中的小女孩，即使测试者让它“往远了看，又没有新发现”，也无济于事。

不过，如果我们把这张图片手动缩小再丢给它，它行了，看到了骷髅。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

最后是一组真实世界的错位图。

（1）除了开头展示的人骑摩托，这张小猫“悬浮”，它居然对了。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

（2）这张惊悚图，也OK。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

（3）但这个就失败了，实际后面是一只狗和小baby的重合，它认成法斗犬幼崽。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

（4）至于这张，它压根儿就没提鞋子的事儿，说了也些不痛不痒的话。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

为什么会这样？

所以，为什么会发生上面这些情况：有的错觉它可以识别出来，有的又表现得很差劲？

首先，对于颜色错觉的图，网友首先认为是提示词的问题。

就像两颗小树那张，我们问它“哪个更亮”，其实就是给了GPT-4V暗示或偏见，它会顺着咱的偏见来回答。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

我们自己的测试也是如此：

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

但如果我们不带立场的问：图中两种颜色一样吗？它完全没问题。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

不过，也有网友指出，当我们问它哪棵树更亮时，如果是非常严谨地对所有像素进行平均，GPT-4V的回答没有毛病。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

甚至有网友还用测色计实测了一把：

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

但！又有人指出如果只显示一部分时，两者明明一样。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

暂且不再争论这个问题，可以肯定的是，“提示词”的使用方法会对它的判断造成影响是没问题的。

另外，网友发现：

如果我们去追问GPT-4V，让它再仔细确认一下，它也能纠正回答。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

至于无法识别远景图像的问题，有网友认为这可能是因为GPT-4V只会从左往右地读取图像。

而对于“为什么有时它会和人类一样发昏被错觉误导、完全不像个智能AI”的疑问，不少人则表示这毫不意外，是训练问题。

即大模型是根据人类数据、人的反馈、人的注释进行训练的，自然会产生和人一样的错误。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

因此，还有人戏谑：

看来我们人类创造了那么多科幻作品，描述AI是如何冷酷、完美，但当现在我们真正拥有它时，发现它也不过如此。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

（手动狗头）

你认为该如何让GPT-4V的错觉识别能力更强呢？

One More Thing

值得一提的是，我们也测试了其中的一些案例。

发现GPT-4V的表现不大一样，有些题它在“我们这里”是可以的。

比如这张判断球颜色的：

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

还有这个：

尽管把大图认成老女人而非骷髅，但还是表明它可以“远观” 的。

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

参考链接：
[1]https://twitter.com/fabianstelzer/status/1717131235644875024
[2]https://twitter.com/BeyondTodAI/status/1713279431681118557
[3]https://twitter.com/janbobrowicz/status/1717229335076393350

版权所有，未经授权不得以任何形式转载及使用，违者必究。

相关阅读

超火迷你GPT-4视觉能力暴涨，GitHub两万星，华人团队出品

只需一个简单指令

白交2023-10-19

GitHub GPT-4V MiniGPT-4

GPT-4不会图形推理？“放水”后准确率依然只有33%

人类准确率91%

克雷西2023-11-20

GPT-4 GPT-4V

用GPT-4V“操纵”iPhone，无需训练可完成任意指令，“Siri终结的开始”

理论成功率91%

丰色2023-11-15

GPT-4V

GPT-4V学会用键鼠上网，人类眼睁睁看着它发帖玩游戏

MIT本科生出品

鱼羊2023-11-04

GPT-4V

微软写了份GPT-4V说明书：166页讲解又全又详细，提示词demo示例一应俱全 | 附下载

来自7名华人作者

西风2023-10-05

GPT-4 GPT-4V 微软说明书

GPT-4V被曝离谱bug：突然执行神秘代码，空白图片读出打折信息，网友们都看呆了

聊天记录都被它抖落出来了

丰色2023-10-16

GPT-4V 注入攻击

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把