DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

双双掉进弱智吧陷阱

国产之光DeepSeek V3竞技场排名新鲜出炉——

优于o1-mini(总榜第7),获最强开源模型认证(也是唯一闯入前10的开源模型)。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

单项上,在困难提示、编程、数学,写作等方面全面超越Claude 3.5 Sonnet

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

不过,如果设置了风格控制,Claude 3.5 Sonnet在理解困难提示方面还是要略胜一筹。

(风格控制:剔除模型通过长篇且格式良好的回复来迎合人类偏好)

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

由此也引发两边支持者激烈的争论:

DeepSeek V3在实际编码中真的比Claude 3.5 Sonnet强吗?

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

带着同款好奇,量子位&网友实测这就奉上。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

实测DeepSeek V3和Sonnet 3.5

经典脑筋急转弯

第一关先来个开胃小菜,一道经典脑筋急转弯考查模型理解能力。

小明的妈妈有三个孩子,老大叫一明,老二叫二明,老三叫什么?

DeepSeek V3回答正确。它先明确了题目要求,然后逻辑满分找出了正确答案(甚至还有自我验证)。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

相比之下,Claude 3.5 Sonnet既正确又简洁。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

当然,考虑到脑筋急转弯这种东西也受东西文化差异影响,我们再来一道。

why are people tired on April Fool’s Day? (为什么人们在愚人节很累?)

答案一般是“Because they have just had a long March”。因为他们刚度过了一个很长的三月(行军),March除了三月还有行军的意思,这里考察对双关的理解。

好嘛,DeepSeek V3果然歇菜了。从部分回答来看,它完全误解了题目意图,一本正经地回答是因为人们感到焦虑、熬夜之类。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

而Claude 3.5 Sonnet稳稳守住了主场,也是轻轻松松get了双关。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

显而易见,Claude 3.5 Sonnet在第一关小试牛刀中全胜,而DeepSeek V3可能更偏向中文语境。

弱智吧逻辑陷阱+反转诅咒

接下来难度升级,利用弱智吧经典陷阱来考查模型逻辑能力。

台上一分钟,台下十年功,为何不在台上练功?

很好,DeepSeek V3又掉线了,精准踩进人类陷阱。(正能量满满可还行)

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

不过别担心,你的难兄难弟Claude 3.5 Sonnet来陪你了(doge)。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

看来面对充满心机的弱智吧问题,二位选手都不在状态。

Okk,不继续在这上面为难二位了,下面来一道正儿八经的“反转诅咒”(即知道A是B却不知道B是A)问题。

而两位选手都一次性答对了Mary Lee Pfeiffer(汤姆·克鲁斯的母亲)的儿子是谁。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了
DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

考研数学真题

下面进入数学能力测试。比如这道考研数学真题,涉及的知识点是曲面积分、高斯定理等内容:

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

直接上传截图,DeepSeek V3还是详细按步骤解答,而且也做对了。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

而Claude 3.5 Sonnet虽然看起来方法更简单,但最终答案错误,功亏一篑。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

编码能力

重头戏来了,最后来考查一下模型编码能力。

刚好有位网友拿DeepSeek V3和Claude Sonnet 3.5进行了测试,在Scroll Hub中分别用它俩创建网站

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

博主在测试之后,认为DeepSeek V3完全胜出

小结一下,从有限测试来看,DeepSeek V3貌似确实能和Claude Sonnet 3.5打得有来有回。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

满血版o1空降第一

BTW,随着DeepSeek V3竞技场排名一起变动的,还有OpenAI的o1模型。

估计是“双十二”期间正式上线的满血版o1,此次超越o1-preview 24分,空降总榜第一。

而且除了创意写作,各个单项都是第一。

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了

所以,对于这几家,大家在使用过程中感受如何呢??

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了
版权所有,未经授权不得以任何形式转载及使用,违者必究。