首页
资讯
数码
智能车
智库
活动
MEET大会
AIGC
扫码关注量子位
benchmark
别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻
来自人民大学等最新研究
明敏
2023-11-09
benchmark
刷榜
大语言模型
加载更多
热门文章
ChatGPT新玩法火了: 一句话画出你的真实生活,大神Karpathy玩上了
2024-11-11
o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准
2024-11-11
字节豆包通用图像编辑模型SeedEdit开启测试 用户可一句话轻松改图
2024-11-11
小度为何押注AI眼镜?
2024-11-13
董宇辉:我已经失去了所有快乐的前提
2024-11-13