"大模型基准"最新资讯 | 量子位 - Part 2

大模型基准

27个大模型混战电商领域，DeepSeek-R1&V3仍是最强

随着大模型在电商领域的广泛应用，如何精准评估其对专业领域知识的掌握成为关键挑战。

明敏前天 22:21

大模型基准

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

主打多模态、长上下文

西风 2025-01-03

大模型基准数据集

突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

来自浙江大学联合上海人工智能实验室，上海交通大学和香港中文大学

白交 2024-10-30

MMBench 大模型基准

无一大模型及格！北大/通研院提出超难基准，专门评估长文本理解生成

像Claude3-200k，GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型，平均只有40%的准确率。

白交 2024-08-07

北京大学大模型大模型基准长文本理解

(●`ω`●)没有更多啦～

热门文章

高阶智驾“破壁人”来了：13万标配激光雷达，还能「车位到车位」

蚂蚁医疗大模型拿下MedBench测评“双料”冠军，原生多模态+千亿数据

李飞飞团队具身智能新作：500美元，一切家务机器人帮你干

11B模型拿开源视频生成SOTA！仅用224张GPU训练，训练成本省10倍

90分钟生成10万Token，新框架实现3倍无损加速超长文本生成，支持DeepSeek-R1和QwQ！