超越Claude 3.5、GPT-4o等顶尖闭源模型，阿里通义开源模型Qwen2.5斩获OpenCompass评测榜冠军

量子位的朋友们 2024-10-18 11:38:35 来源：量子位

成为全球最大的开源模型群

10月17日获悉，司南 OpenCompass大语言模型评测榜9月榜单公布，阿里通义千问开源模型Qwen2.5-72B-Instruct 击败Claude 3.5、GPT-4o等闭源模型，成为该评测榜首个开源模型冠军。据了解，9月底通义千问开源模型Qwen系列的衍生模型数量首次超越Llama，成为全球最大的开源模型群。

超越Claude 3.5、GPT-4o等顶尖闭源模型，阿里通义开源模型Qwen2.5斩获OpenCompass评测榜冠军

司南 OpenCompass 是由上海人工智能实验室研发的大模型评测体系平台，OpenAI、阿里巴巴、智谱AI、Meta、零一万物等百余个最主流的大模型均已加入评测，是最具国际影响力的中国权威第三方评测榜单。司南 OpenCompass 自建评测榜单每月一更，从语言、推理、知识、代码、数学、指令跟随、智能体等七大能力维度、十余项细分任务，对近期主流模型进行全面评测分析。

在2024年9月的司南 OpenCompass 榜单中，开源的Qwen2.5-72B以70.3分夺冠，首次超越Claude 3.5和GPT-4o等顶尖闭源模型。Qwen2.5-72B-Instruct在此次榜单的多项能力测评中均名列前茅。在代码能力方面，Qwen2.5-72B-Instruct以74.2分夺冠，不仅能准确完成代码编写，还能详细解释代码的功能和逻辑；在数学能力方面，Claude 3.5得分72.1，GPT-4o得分70.6，远不及Qwen2.5-72B-Instruct获得的77分成绩。

司南 OpenCompass 评价称，Qwen2.5的登顶，标志着开源社区在模型领域取得快速进展，以 Qwen 2.5等为代表的国产主流厂商模型，在经历最新一轮技术迭代后，其性能有了显著提升，与国际顶尖模型之间的差距正在快速缩小，展现了国产模型的强大竞争力。

早在9月底，Qwen2.5-72B-Instruct就冲进Chatbot Arena大模型盲测榜单前十，是前十中唯一的中国大模型。Qwen系列开原模型涵盖多尺寸的大语言模型、多模态模型、数学模型和代码模型，几乎所有尺寸的模型都实现了同等规模的最佳性能。截至9月底，全球开发者基于Qwen系列二次开发的衍生模型数量也已突破7.43万，超越Llama的7.28万，成为全球最大的开源模型群。

（完）

阿里云

量子位的朋友们

元戎X火山｜AI汽车加速进化2025-04-24
蚂蚁数科开源虚拟机DTVM，开启区块链AI开发时代2025-04-24
热爱让“她力量”无限进阶，2025璀璨女性影响力大会北京圆满举办2025-04-23
分化浪潮中的投资新局｜第19届中国投资年会·年度峰会在京召开2025-04-23

超越Claude 3.5、GPT-4o等顶尖闭源模型，阿里通义开源模型Qwen2.5斩获OpenCompass评测榜冠军

相关阅读

阿里云李飞飞：今年将帮1000家企业“去O”

AI的下半场怎么走，这朵云知道

阿里云修复100年前巴黎奥运珍贵影像，国际奥委会主席巴赫致谢！

阿里云十年新战略发布！达摩院加持，阿里技术全部开放，20亿补贴小程序

阿里发布企业AI应用与趋势白皮书，总结为企业创造价值的7个模式

首创MaaS后，阿里云要和业界共建大模型生态

热门文章

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把

趣丸科技贾朔：AI音乐迎来应用元年，五年内将重构产业格局｜中国AIGC产业峰会

谷歌大模型“性价比之王”来了！混合推理模型，思考深度可自由控制，竞技场排名仅次于自家Pro

生数科技副总裁：多模态技术定将催生全新内容平台，实现完全个性化、实时可控、可交互｜中国AIGC产业峰会

粉笔CTO：大模型打破教育「不可能三角」，因材施教真正成为可能｜中国AIGC产业峰会