"大模型基准"最新资讯 | 量子位 - Part 2

大模型基准

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

主打多模态、长上下文

西风前天 14:46

大模型基准数据集

突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

来自浙江大学联合上海人工智能实验室，上海交通大学和香港中文大学

白交 2024-10-30

MMBench 大模型基准

无一大模型及格！北大/通研院提出超难基准，专门评估长文本理解生成

像Claude3-200k，GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型，平均只有40%的准确率。

白交 2024-08-07

北京大学大模型大模型基准长文本理解

加载更多

热门文章

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet实测来了

豆包大模型披露2024技术进展，亮相7个月综合能力全面对齐GPT-4o

赛迪报告：金融行业分布式数据库OceanBase占据第一

LeCun：对人工智能末日的担忧被夸大了，Meta正在构建超级智能助手

黄仁勋自掏腰包50亿，手把手教AI公司用好GPU