编码数学击败GPT4-Turbo！DeepSeek-Coder-v2登顶竞技场最强开源编码模型

一水 2024-06-24 17:04:52 来源：量子位

支持338种编程语言

就在刚刚，竞技场排名再次刷新：

深度求索DeepSeek-Coder-v2成竞技场最强开源编码模型！

编码数学击败GPT4-Turbo！DeepSeek-Coder-v2登顶竞技场最强开源编码模型

它在Coding Arena中已攀升至第4名，水平接近GPT-4-Turbo。

在编码领域的整体性能评估中，DeepSeek-Coder-v2的评分和稳定性均位于前10，超越智谱GLM-4、Llama-3等一众知名开源模型。

编码数学击败GPT4-Turbo！DeepSeek-Coder-v2登顶竞技场最强开源编码模型

据了解，完全开源的DeepSeek-Coder-v2现提供236B和16B两种参数规模，支持338种编程语言和128K上下文长度。

编码数学击败GPT4-Turbo！DeepSeek-Coder-v2登顶竞技场最强开源编码模型

而且就在Claude 3.5 Sonnet发布同日，深度求索官网的代码助手也第一时间上线了和“Artifacts”类似的功能（自动生成代码并直接在浏览器上运行）。

比如由DeepSeek-Coder-v2直接生成经典游戏——扫雷。

（提示词：用html实现复杂一点的扫雷游戏，数字颜色分明，有计时，有重启按钮）

编码数学击败GPT4-Turbo！DeepSeek-Coder-v2登顶竞技场最强开源编码模型

再比如设计网页：

编码数学击败GPT4-Turbo！DeepSeek-Coder-v2登顶竞技场最强开源编码模型

总之，DeepSeek-Coder-v2尤为擅长编码和数学。

编码、数学击败GPT4-Turbo

深度求索于上周发布了DeepSeek-Coder-v2，它在编码和数学方面击败了GPT4-Turbo。

在Arena-Hard-Auto排行榜上，DeepSeek-Coder-v2超过了Yi-large、Claude3-Opus、GLM-4 和Qwen2-72B。

同时，DeepSeek-Coder-v2还具有良好的通用性能，在推理和中英通用能力上位列国内第一梯队。

当时甚至有网友怒赞：

DeepSeek-Coder-v2目前位居Aider代码编辑排行榜榜首（仅用了4天），领先于GPT-4o和Opus。
它的基准测试结果甚至比DeepSeek官方图表中显示的更好。

而现在，仅过去一周时间，DeepSeek-Coder-v2正式登顶竞技场最强开源编码模型。

随着这一登顶，其背后的公司深度求索再次引人关注。

老实说，这家公司一直很有看点。

与月之暗面、智谱AI、Minimax、百川智能等获得大厂投资的AI初创公司不同，深度求索由一家搞私募量化的投资基金发起。

当同行都在寻找AI应用落地时，深度求索却喊出了“不做应用做研究”的口号。

短短半年时间，它发布并开源了多个百亿级参数的大模型。

甚至仅凭一己之力点燃了大模型价格战的第一把火。

具体啥情况？接下来一起扒一扒。

“价格战导火索”深度求索

深度求索由知名私募巨头幻方量化于2023年4月创立。

早在2019年，幻方就发布了自研深度学习训练平台“萤火一号”。

据称该项目总投资近2亿元，共搭载了1100块GPU。

后来“萤火一号”升级为“二号”，搭载的GPU数则达到了约1万张。

这意味着，单从算力看，幻方甚至比很多大厂都更早拿到了做ChatGPT的入场券。

去年11月，深度求索发布第一代大模型DeepSeek Coder，免费商用，完全开源。

紧接着12月，它又发布了参数670亿的DeepSeek，主打发布即开源。

今年5月初，深度求索宣布开源第二代MoE大模型DeepSeek-V2。

没错，就是那个“性能比肩GPT-4 Turbo，价格却只有GPT-4仅百分之一”的模型。

DeepSeek-V2推出后，深度求索一度被AI圈称作“价格屠夫”，被认为是引爆大模型价格战的导火索之一。

此外，它还推出了专为视觉与语言理解应用设计的DeepSeek-VL系列大模型。

总之，这家公司一直被视为一匹可能改变国内AI市场格局的“黑马”。

Anthropic联合创始人Jack Clark曾表示：

DeepSeek组建了一支团队，他们对训练雄心勃勃的模型所需的基础设施有着深刻的理解。中国制造也将成为AI模型的发展趋势。

最后，面对竞技场最新排名，网友们纷纷猜测新王Claude 3.5 Sonnet在编码上究竟表现如何？

竞技场：在更了！在更了！

开源编码模型竞技场排名

一水

编码数学击败GPT4-Turbo！DeepSeek-Coder-v2登顶竞技场最强开源编码模型

编码、数学击败GPT4-Turbo

“价格战导火索”深度求索

相关阅读

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

热门文章

ChatGPT新玩法火了：一句话画出你的真实生活，大神Karpathy玩上了

o1/Claude集体翻车！陶哲轩等60+顶尖数学家合力提出新数学基准

字节豆包通用图像编辑模型SeedEdit开启测试用户可一句话轻松改图

董宇辉：我已经失去了所有快乐的前提

小度为何押注AI眼镜？

编码数学击败GPT4-Turbo！DeepSeek-Coder-v2登顶竞技场最强开源编码模型

编码、数学击败GPT4-Turbo

“价格战导火索”深度求索

相关阅读

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

热门文章

ChatGPT新玩法火了： 一句话画出你的真实生活，大神Karpathy玩上了

o1/Claude集体翻车！陶哲轩等60+顶尖数学家合力提出新数学基准

字节豆包通用图像编辑模型SeedEdit开启测试 用户可一句话轻松改图

董宇辉：我已经失去了所有快乐的前提

小度为何押注AI眼镜？

ChatGPT新玩法火了：一句话画出你的真实生活，大神Karpathy玩上了

字节豆包通用图像编辑模型SeedEdit开启测试用户可一句话轻松改图