长文本理解

无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成

像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。