豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

十三 2024-12-19 19:43:34 来源：量子位

金磊发自上海

量子位 | 公众号 QbitAI

豆包的“眼睛”升级了，现在让它看一眼APP截图，就能直接给你生成代码！

话不多说，我们直接给它上一个难度。

例如我们先随机截取一张网站的图片：

再来到火山方舟的大模型广场，pick一下最新的Doubao-vision-pro-32k版本：

（PS：该模型也可以在豆包APP中体验）

然后把刚才的截图“喂”给豆包，并附上一句简单的Prompt：

帮我写代码，克隆这个APP。

只见豆包先是秒看出这是一个音乐APP的界面，紧接着就唰唰唰地敲起了代码。

从代码的功能上来，包括了菜单栏、播放列表框架、播放列表列表框和状态栏。

模拟的播放列表中包含了几首歌曲的信息，包括标题、艺术家、时长和点赞数等。

而且这些都是在不到30秒内完成的。

若是想实现更复杂的功能，我们也是可以继续用说的：

那继续帮我实现更复杂的音乐播放应用。

这一次，也仅仅耗时1分钟，在原先代码的基础上，新增了控制面板、播放按钮、更新进度条等内容。

嗯，现在开发一个APP，真的变成截张图的事儿了。

这便是豆包最新发布的新模型——豆包 · 视觉理解模型。

综合来看，它的亮点可以归结为如下三点：

内容识别更强：支持OCR、图像知识、动作情绪、位置状态等，尤其对中国传统文化理解更深。
理解与推理增强：优化数学、逻辑、代码的推理与问答能力。
视觉描述细腻：提供详细图像描述，可创作多种文体内容，如产品介绍、故事、视频脚本等。

更重要的一点，发布即大降价——0.003元/千tokens。

相当于1块钱可以处理284张图片！

不过有一说一，毕竟考验大模型“视力”这事，不能只看单一的产品。

因此，接下来，我们就组个擂台，看看哪个大模型的“眼神”更好使。

大模型“视力”大比拼

我们请出的打擂台选手，正是目前大模型的顶流之一——OpenAI的GPT-4o。

比试规则也很简单，就是通过不同维度的试题，来看看作答的效果。

Round 1：复杂、生僻物体识别

第一轮比试中，我们先小试牛刀一下一个不常见的水果，请看图：

然后我们分别问一下两位选手：

图中的是什么东西？

豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

△上图为豆包作答；下图为GPT-4o作答（下同）。

从回答内容上来看，二者虽然都回答对了，但特点各有不同。

豆包·视觉理解模型回答更加与金铃子紧密相关；而GPT-4o则是更倾向于金铃子与苦瓜的不同。

若是比试要求是与图中物体高度相关，那么或许豆包·视觉理解模型的回答更优质一些。

再来一张冷门的图像，请看题：

这是什么？

再来看一下两位选手的作答：

它们都看出来这是一个冷门乐器，不过这一次，豆包·视觉理解模型明显回答的要更精准一些——乐器叫做Mizmar。

不仅如此，它还把其材质、文化特点等信息都讲述了出来；而GPT-4o这边的回答，只能说是描述了大概。

这一轮，豆包·视觉理解模型，Win！

Round 2：大家来找茬

要比视力，那“大家来找茬”这个游戏就绝对不能错过啦~

请看题目：

找出10个不同点。

我们来看一下两位选手的回答：

这一轮的比拼中，问题就比较明显了，两位选手都没有完整给出正确答案（部分正确）。

看来AI玩大家来找茬还是具备一定的挑战性。

Round 3：反向猜Prompt

现在AI图片生成的能力可谓是炉火纯青，但当我们看到一幅中意的作品，却苦于无法复刻Prompt时，又该怎么办？

这道题，是时候可以交给“会看”的大模型来处理了。

例如我们随机来一张比较抽象的艺术作品：

然后分别让豆包·视觉理解模型和GPT-4o来猜一下它的Prompt：

看这张图，帮我写一段能够重新生成类似作品的Prompt。

为了公平起见，我们不采用豆包和ChatGPT自带的生图功能，而是将两段Prompt交给第三方Midjourney来处理，结果如下：

豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

△上图：基于豆包的Prompt；下图：基于GPT-4o的Prompt

从还原度上来看，或许豆包·视觉理解模型给出的Prompt，是更加贴近原作的那一个。

Round 4：数学竞赛大比拼

数学题目是测试大模型逻辑推理能力很好的方法。

因此，我们直接上一道AIME数学竞赛题，看看够不够“开门”。

（AIME：美国数学邀请赛，是介于AMC10、AMC12及美国数学奥林匹克竞赛之间的一个数学竞赛。）

这道题目翻译过来是这样的：

每天早晨，Aya会进行一段长度为9公里的散步，然后在一家咖啡店停留。当她以每小时s公里的恒定速度行走时，整个散步加上在咖啡店停留的时间一共需要4小时，其中包含在咖啡店停留的t分钟。当她以s+2公里每小时的速度行走时，整个过程（包括在咖啡店停留的时间）需要2小时24分钟。

假设Aya以s+1/2公里每小时的速度行走，求她在这种情况下（包括在咖啡店停留的时间）的总时间（以分钟为单位）。

这个任务的难度在于，AI需要先准确识别晦涩的数学问题和公式，而后再进行精准的推理。

接下来，我们分别来看下豆包·视觉理解模型和GPT-4o的表现（上下滑动查看）：