"大模型基准"最新资讯 | 量子位

大模型基准

27个大模型混战电商领域，DeepSeek-R1&V3仍是最强

随着大模型在电商领域的广泛应用，如何精准评估其对专业领域知识的掌握成为关键挑战。

明敏 2025-03-15

大模型基准

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

主打多模态、长上下文

西风 2025-01-03

大模型基准数据集

突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

来自浙江大学联合上海人工智能实验室，上海交通大学和香港中文大学

白交 2024-10-30

MMBench 大模型基准

无一大模型及格！北大/通研院提出超难基准，专门评估长文本理解生成

像Claude3-200k，GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型，平均只有40%的准确率。

白交 2024-08-07

北京大学大模型大模型基准长文本理解

(●`ω`●)没有更多啦～

热门文章

全球首个无限时长视频生成！新扩散模型引爆万亿市场，电影级理解，全面开源

o3/o4-mini幻觉暴增2-3倍！OpenAI官方承认暂无法解释原因

业界首创，海螺集团携手华为发布水泥建材人工智能大模型

SkyReels-V2开源：突破视频生成技术边界，开启无限时长电影生成新时代

微软开源“原生1bit”三进制LLM：2B参数，0.4GB内存/单CPU就能跑，性能与同规模全精度开源模型相当