"DeepSeek-R1-Zero"最新资讯 | 量子位

DeepSeek-R1-Zero

1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

复杂奖励函数不是必要的

西风 2025-02-22

DeepSeek-R1-Zero 沈向洋阶跃星辰

(●`ω`●)没有更多啦～

热门文章

又一开源AI神器！将机器学习论文自动转为可运行代码库

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

Qwen3真香！通义App满血接入，一手实测在此

当购物用上大模型！阿里妈妈首发世界知识大模型，破解推荐难题

自动化所：基于科学基础大模型的智能科研平台ScienceOne正式发布