MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
创始人
2025-06-11 17:08:52
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

“预测下一个token”——这个支撑LLM的核心训练机制,正在被强化学习颠覆。

微软亚洲研究院(MSRA)联合清华大学、北京大学提出全新预训练范式RPT(强化预训练),首次将强化学习深度融入预训练阶段,让模型在预测每个token前都能先“动脑推理”,并根据推理正确性获得奖励。

传统预训练依赖海量文本进行自监督学习,模型通过简单预测下一个token建立语言能力,作者将之比喻为一块蛋糕胚,而RL只是作为上面点缀的一颗樱桃。

现在RPT要做的就是用樱桃直接做蛋糕,即将这一过程重构为推理任务,促进模型更深层次理解和提升下一个token的预测准确度。

那这块樱桃蛋糕到底怎么做?详细烘焙流程我们接着往下看。

传统的预训练方法采用自监督的下一个token预测任务,而RL通常承担微调LLM的功能,使其与人类偏好对齐或者增强复杂推理。

然而基于人类反馈的强化学习(RLHF)过度依赖昂贵数据,且模型容易受到奖励破解;可验证奖励的强化学习(RLVR)也会受到数据稀缺的限制,只能应用于特定领域的微调。

为了让强化学习更好地作用于LLM,团队提出的全新范式强化预训练RPT,激励使用RL进行有效的Next-Token推理任务,将预训练语料库重构为推理问题集,推动预训练从学习表面的token相关性转为理解深层含义。

模型首先需要对多个token生成一个思维链推理序列,涉及多种推理模式(如头脑风暴、自我批评和自我纠正),然后再为下一个token生成预测。

具体来说,RPT就是通过让LLM同策略(on-policy)执行,以生成多条不同的思维轨迹,每条轨迹包含中间推理步骤和对下一个token的最终预测。

引入前缀匹配奖励,验证预测的正确性。如果预测与真实token匹配,则分配正奖励1,反之为0。该奖励信号将用于更新LLM,以鼓励生成能准确延续上下文的轨迹。

团队使用包含4428个竞赛数学问题及答案的OmniMATH数据集,并通过计算下一token的熵和设定阈值,进行数据过滤,只保留更难预测的token参与训练。

另外采用Deepseek-R1-Distill-Qwen-14B作为基础模型,使用GRPO算法和8K的训练长度,批大小为256个问题,每个问题采样8个响应。

实验表明,与R1-Distill-Queen-14B相比,RPT-14B在三种难度(简单、中等、困难)上均实现了更高的下一个token预测准确率,优于标准下一token预测基线和使用推理的预测基线。

在性能上,也可与更大的模型R1-Distill-Queen-32B相媲美,说明RPT能有效捕捉token生成背后的复杂推理信号,并在提升LLM的语言建模能力方面拥有巨大潜力。

RPT在跨难度的训练计算方面,也表现出清晰的幂律缩放(Power-law Scaling),预测准确性随着计算的增加而不断提高,并且与理论曲线紧密拟合。

与传统的使用下一个token预测相比,在具有可验证答案的问题(即Skywork-OR1)上,使用RL微调RPT模型显示出更强的推理能力

在数据有限的情况下,可以快速将从下一token推理中学习到的强化推理模式迁移至最终任务。

另外模型在SuperGPQA和MMLU-Pro基准测试上的零样本评估表明,RPT-14B不仅优于R1-Distill-Queen-14B,还在推理模式中显著超过了R1-Distill-Qwen-32B。

最后团队还对推理轨迹进行分析,发现与显式问题解决模型相比,RPT-14B采用了更多的假设生成、替代方案的考虑以及对结构线索甚至颗粒度token级细节的反思。

既包含高级语义理解,又包含低级文本特征,说明RPT在训练过程中会培养更深层次的推理习惯

这个著名的“蛋糕论”最早出自图灵奖得主Yann LeCun在2016年的演讲。

而现在试图用强化学习碾碎这块蛋糕的,还有OpenAI

在上个月红杉组织的AI Ascent活动中,OpenAI科学家Dan Roberts就提及了他们在将RL置于模型预训练过程中的转变。

在GPT-4o中全是传统预训练计算,在o1中引入了一些强化学习运算并且取得了不错的效果,在o3中则引入更多,他们预计在未来的某一代模型中,将会完全由RL计算主导

有理由相信,未来RL或许将在LLM预训练过程中掀起更大的风暴,且让我们拭目以待。

论文链接:https://arxiv.org/abs/2506.08007

参考链接:

[1]https://x.com/omarsar0/status/1932522665182703664

[2]https://x.com/qx_dong/status/1932268949238067482

[3]https://www.youtube.com/watch?v=_rjD_2zn2JU

相关内容

热门资讯

近2万亿元!再融资专项债券快速... 来源:证券时报网 作者:王军  2025年开年以来,地方政府债务化解工作迎来关键突破。证券时报记者根...
衢州多部门联动织密梅汛安全网 转自:衢州日报  记者 陈霞 通讯员 孙伟 华潇萍  6月7日衢州正式入梅,据气象部门预测,今年梅汛...
全国首例!两股民收到78万元赔...   证券时报记者 张淑贤  6月12日,证券时报记者从上海金融法院获悉,该院依法审结的原告刘某某、郑...
“无人码头”运输忙 科技赋能港... 转自:证券日报    本报记者 李雯珊    近日,首批AJ型65t岸边集装箱起重机(以下简称“岸桥...
多领域深化合作 中非经贸迎来新... □记者 苏晓洲 王文博 6月12日,第四届中国—非洲经贸博览会在湖南长沙国际会议中心开幕。为期4天的...
美股开盘,波音大跌 6月12日消息,美股三大指数集体低开,纳指跌0.19%,道指跌0.38%,标普500指数跌0.22%...
Sonic Labs 向 AI... Sonic Labs 宣布通过 Sonic Innovator Fund 向链上 AI 协议 Hey...
易方达财富子公司获批 “投顾之...   近日,证监会正式批复批准易方达基金管理有限公司设立全资子公司——易方达财富管理基金销售(广州)有...
受股市抛售拖累 美国家庭净资产... 转自:财联社【受股市抛售拖累 美国家庭净资产自2023年以来首次下降】财联社6月13日电,美联储公布...
开化设6个疏导点为流动摊贩安家 转自:衢州日报  本报讯 (报道组 方晓璐 通讯员 廖秋琴) 6月11日,在开化县城解放街原荣昌超市...
2024年黄金升至 全球第二大... □记者 马悦然 刘向 欧洲中央银行日前发布的最新报告显示,2024年,按照市场价格计算,黄金在全球央...
百场活动邀海内外游客感受南京魅... 转自:南京晨报 6月12日晚7时30分,玄武湖莲花广场灯光璀璨。在舞蹈《江南》的婉约韵律中,...
锚定“三新”攻坚 锻造服务开放... 转自:衢州日报  衢州职业技术学院党委书记  徐须实  市委八届九次全会吹响了“以高水平开放推动高质...
服务先行 乘“云”而上 □记者 班娟娟 国家发展改革委和国家能源局日前印发的《关于深化提升“获得电力”服务水平 全面打造现...
薛世清:专业高效是最大的底气 转自:北京商报2025年,恰逢中贸圣佳而立之年,三十载栉风沐雨,是从行业开拓者到引领者的生动注脚。在...
马群街道果场社区河道巡查提升水... 转自:南京晨报 晨报讯(通讯员 马宣 南京晨报/爱南京记者 端木)近日,马群街道果场社区居民...
中泰证券调整回购股份价格上限至... 来源:中访网财观中访网数据  中泰证券股份有限公司(股票代码:600918)今日发布公告,宣布因20...
诵读革命篇章,播撒红色种子 转自:南京晨报 晨报讯(通讯员 虞婷婷 南京晨报/爱南京记者 景正华)6月11日,为庆祝中国...
青春跆风 燃情开赛 转自:衢州日报  6月10日,2025年浙江省青少年跆拳道锦标赛(省十八运测试赛)在常山县体育馆开赛...
荣宝斋(深圳)春拍6月14日举... 转自:北京商报荣宝斋(深圳)2025年春季拍卖会预展正式拉开帷幕,6月14日—15日举槌拍卖。本次预...