夸克大模型排名C-Eval榜单第一多项性能优于GPT-4

量子位的朋友们 2023-11-16 11:34:33 来源：量子位

专门用于评估语言模型在中文语境下的知识和推理能力

11月16日，根据最新成绩，千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单，多项性能优于GPT-4。在国内大模型赛道火热的当下，夸克自研大模型凭借过硬的研发能力及数据、行业、平台等优势成为新晋“学霸”。

作为国内最权威的两个大语言模型测试榜单，C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集，覆盖52个学科，是目前权威的中文AI大模型评测榜单之一。CMMLU 是由MBZUAI、上海交通大学、微软亚洲研究院共同推出，包含67个主题，专门用于评估语言模型在中文语境下的知识和推理能力。

评测过程中，夸克大模型经过了上万道专业考题的检验，覆盖几十个学科和不同学段。无论是常识问题还是社会科学知识，夸克大模型都展现出了处理复杂、多层次问题的能力。基于精调后的训练数据，夸克大模型能够更好地理解问题的上下文、逻辑结构和语义关系，从而更全面、深入地分析和解决问题。

在CMMLU榜单评测中，夸克大模型以平均77.08分的成绩位列总成绩第一，并占据社会科学和其他两个类目的首位。在C-Eval榜单中，夸克大模型平均分达到89分，稳居行业第一，同时在社会科学、人文科学和其他三个类目中位列榜首。夸克大模型同时登顶两大权威榜单，也进一步证明夸克在数据增强、模型选择、训练策略、模型融合以及模型评估上，处在行业领先地位。