强化学习

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科

梦晨 2025-04-02

不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限

大模型数学推理任务面临”三重门”困局。

怎样从零开始训练一个AI车手?

说起来你可能不信,训练AI司机跟驯猫是一个道理……