大模型基准

突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

来自浙江大学联合上海人工智能实验室,上海交通大学和香港中文大学

无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成

像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。