"强化学习"最新资讯

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

AIME 2024准确率提升159%

克雷西前天 14:26

强化学习

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科

梦晨 2025-04-02

强化学习

业界突破多模态泛化推理能力，OPPO研究院&港科广提出OThink-MR1技术

基于动态强化学习

一水 2025-03-30

OPPO 多模态强化学习

迁移DeepSeek-R1同款算法，小米让7B模型登顶音频理解推断MMAU榜单

准确率提升31%

克雷西 2025-03-17

小米强化学习

不蒸馏R1也能超越DeepSeek，上海 AI Lab 用RL突破数学推理极限

大模型数学推理任务面临”三重门”困局。

白交 2025-02-16

上海AI Lab 强化学习

仅需一万块钱！清华团队靠强化学习让7B模型数学打败GPT-4o

新的结合过程奖励的强化学习方法

梦晨 2025-01-07

强化学习

高瓴、蓝驰领投灵初智能，致力于打造业界领先通用灵巧操作智能体

灵初智能将从2B服务业切入

西风 2024-11-13

具身智能强化学习

多模态模型学会打扑克：表现超越GPT-4v，全新强化学习框架是关键

全程无需人类反馈

克雷西 2024-06-04

多模态强化学习

最好7B模型再易主！打败700亿LLaMA2，苹果电脑就能跑，还开源免费

舍弃强化学习

西风 2023-10-28

DPO 大模型强化学习

迪士尼玩起强化学习，新机器人有星球大战那味了

有“情感”会卖萌，还能应对偷袭

西风 2023-10-09

强化学习机器人迪士尼

AI无人机竞速击败人类冠军，Nature：将AlphaGo成果带到物理世界

空中F1

梦晨 2023-08-31

Nature 强化学习

中国AI麻将打出新高度！战胜真人职业选手，鹅厂「绝艺」刷新战绩

明敏 2023-07-11

决策AI 强化学习绝艺腾讯

两小时就能超过人类！DeepMind最新AI速通26款雅达利游戏

最高可取得人类5倍成绩

明敏 2023-07-02

DeepMind 强化学习智能体

重现当年AlphaGo神来之笔！DeepMind新AI发现提速70%排序算法，十年都没更的C++库更新了

新成员AlphaDev登场

丰色 2023-06-08

DeepMind 强化学习

AI设计蛋白质新方法登Science！利用强化学习，根据预想优化结构

来自RoseTTAFold团队

明敏 2023-04-21

强化学习蛋白质设计蛋白质预测

在《我的世界》里挖钻石把AI难哭，DeepMind最新算法终于扳回颜面

不靠攻略和“外挂”

鱼羊 2023-01-22

DeepMind 强化学习我的世界

AI看了70000小时《我的世界》视频学会人类高级技巧，网友：它好痛苦

还打算给它看100万小时视频

十三 2022-11-27

OpenAI 强化学习模仿学习

怎样从零开始训练一个AI车手？

说起来你可能不信，训练AI司机跟驯猫是一个道理……

梦晨 2022-09-02

亚马逊强化学习

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达开山大弟子最新成果

用的机械狗还是中国牌子的（doge）

明敏 2022-06-30

UC伯克利强化学习机器狗

AI自己写代码让智能体进化！OpenAI的大模型有“人类思想”那味了

程序员：跟不上AI步伐了

十三 2022-06-21

GitHub OpenAI 人工智能强化学习智能体

强化学习

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

业界突破多模态泛化推理能力，OPPO研究院&港科广提出OThink-MR1技术

迁移DeepSeek-R1同款算法，小米让7B模型登顶音频理解推断MMAU榜单

不蒸馏R1也能超越DeepSeek，上海 AI Lab 用RL突破数学推理极限

仅需一万块钱！清华团队靠强化学习让7B模型数学打败GPT-4o

高瓴、蓝驰领投灵初智能，致力于打造业界领先通用灵巧操作智能体

多模态模型学会打扑克：表现超越GPT-4v，全新强化学习框架是关键

最好7B模型再易主！打败700亿LLaMA2，苹果电脑就能跑，还开源免费

迪士尼玩起强化学习，新机器人有星球大战那味了

AI无人机竞速击败人类冠军，Nature：将AlphaGo成果带到物理世界

中国AI麻将打出新高度！战胜真人职业选手，鹅厂「绝艺」刷新战绩

两小时就能超过人类！DeepMind最新AI速通26款雅达利游戏

重现当年AlphaGo神来之笔！DeepMind新AI发现提速70%排序算法，十年都没更的C++库更新了

AI设计蛋白质新方法登Science！利用强化学习，根据预想优化结构

在《我的世界》里挖钻石把AI难哭，DeepMind最新算法终于扳回颜面

AI看了70000小时《我的世界》视频学会人类高级技巧，网友：它好痛苦

怎样从零开始训练一个AI车手？

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达开山大弟子最新成果

AI自己写代码让智能体进化！OpenAI的大模型有“人类思想”那味了

热门文章

飞猪AI意外出圈！邀请码被黄牛倒卖，分分钟搞定机酒预订，堪比专业定制团队

具身空间数据技术的路线之争：合成重建VS全端生成

全球首个无限时长视频生成！新扩散模型引爆万亿市场，电影级理解，全面开源

清华张亚勤：10年后，机器人将可能比人都多

o3/o4-mini幻觉暴增2-3倍！OpenAI官方承认暂无法解释原因