大模型基准

27个大模型混战电商领域,DeepSeek-R1&V3仍是最强

随着大模型在电商领域的广泛应用,如何精准评估其对专业领域知识的掌握成为关键挑战。

明敏 9小时前

突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

来自浙江大学联合上海人工智能实验室,上海交通大学和香港中文大学

无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成

像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。

(●`ω`●)没有更多啦~