夸克大模型排名C-Eval榜单第一多项性能优于GPT-4

量子位的朋友们 2023-11-16 11:34:33 来源：量子位

专门用于评估语言模型在中文语境下的知识和推理能力

11月16日，根据最新成绩，千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单，多项性能优于GPT-4。在国内大模型赛道火热的当下，夸克自研大模型凭借过硬的研发能力及数据、行业、平台等优势成为新晋“学霸”。

作为国内最权威的两个大语言模型测试榜单，C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集，覆盖52个学科，是目前权威的中文AI大模型评测榜单之一。CMMLU 是由MBZUAI、上海交通大学、微软亚洲研究院共同推出，包含67个主题，专门用于评估语言模型在中文语境下的知识和推理能力。

评测过程中，夸克大模型经过了上万道专业考题的检验，覆盖几十个学科和不同学段。无论是常识问题还是社会科学知识，夸克大模型都展现出了处理复杂、多层次问题的能力。基于精调后的训练数据，夸克大模型能够更好地理解问题的上下文、逻辑结构和语义关系，从而更全面、深入地分析和解决问题。

在CMMLU榜单评测中，夸克大模型以平均77.08分的成绩位列总成绩第一，并占据社会科学和其他两个类目的首位。在C-Eval榜单中，夸克大模型平均分达到89分，稳居行业第一，同时在社会科学、人文科学和其他三个类目中位列榜首。夸克大模型同时登顶两大权威榜单，也进一步证明夸克在数据增强、模型选择、训练策略、模型融合以及模型评估上，处在行业领先地位。

同时，在国内专业考试测试中，夸克大模型的表现堪称“学霸”。不仅在中考、高考、研究生考试中超过GPT-4，包括临床执业医师资格考试、计算机等级考试、公务员考试、教师资格证考试等评测中均优于GPT-4。具备超强解题能力的夸克大模型，应用在日常学习、工作场景，有望给用户带来效率上的全面提升。

此外，夸克大模型还拥有强大的文学创作能力，能够根据用户提供的主题或关键词，生成连贯、有逻辑、有深度的文本内容，可以帮助用户撰写文章、新闻、诗歌等各类文本，支持续写、润色、仿写、批改等多种不同写作需求，进一步提高用户的创作效率。

据介绍，凭借数据、行业、知识正确性、平台等四大优势，夸克大模型应用会优先落地在通识问答、专业搜索等信息服务领域，满足年轻人学习知识和提升自我的需求。夸克将借助自研大模型全面升级，为年轻人工作、学习、生活提供更全面的服务。

夸克大模型

量子位的朋友们

夸克大模型排名C-Eval榜单第一多项性能优于GPT-4

热门文章

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

杨植麟发布Kimi新模型：数学对标o1，中考高考考研成绩全第一

长安发布飞行汽车、人形机器人计划，数智技术引领车市新风向

小马智行作价50亿美元冲刺IPO，募资3.78亿美元，北汽带头认购

夸克大模型排名C-Eval榜单第一 多项性能优于GPT-4

热门文章

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

杨植麟发布Kimi新模型：数学对标o1，中考高考考研成绩全第一

长安发布飞行汽车、人形机器人计划，数智技术引领车市新风向

小马智行作价50亿美元冲刺IPO，募资3.78亿美元，北汽带头认购

夸克大模型排名C-Eval榜单第一多项性能优于GPT-4