蚂蚁集团携手清华大学开源AReaL系统,训练AI推理最高提速2.77倍
创始人
2026-03-04 18:21:06

3 月 4 日,蚂蚁集团携手清华大学联合推出开源强化学习训练框架 AReaL v1.0 稳定版,这是一种大规模异步强化学习系统,主要通过解耦生成与训练流程,来提升大语言模型(特别是推理模型)的训练效率。

IT之家援引博文介绍,随着大语言模型向“大推理模型”(LRM,Large Reasoning Model)演进,强化学习(RL)已成为提升模型逻辑推理能力的关键技术。

然而,现有的 RL 训练系统主流采用同步机制,即生成阶段必须等待批次中所有输出(通常是最长的那个)完成后才能开始训练。

这种“木桶效应”导致大量 GPU 算力处于闲置状态,制约了训练效率,在处理需要生成数万个思考 Token 的复杂推理任务时表现尤为明显。

研究团队为解决这一瓶颈,开发了 AReaL 系统,这是一个完全异步的 RL 训练架构。AReaL 彻底解耦了模型的生成与训练过程:生成工作器可以连续不断地产生新数据,而训练工作器则在收集到足够数据后立即更新模型。

这种流水线式的并行设计消除了同步等待时间,显著提升了硬件资源的利用率,让整个训练过程更加流畅高效。

在算法层面,AReaL 面临异步带来的数据“陈旧度”挑战,即训练数据可能来自旧版本的模型。为此,团队设计了陈旧度感知训练机制,通过控制工作负载来平衡数据的新鲜度。

同时,研究团队提出了解耦 PPO 目标函数,并支持“可中断生成”技术,允许模型在生成过程中无缝更新权重。

实验结果验证了 AReaL 的卓越性能。在数学和代码推理基准测试中,使用相同数量的 GPU,AReaL 相比最先进的同步系统,训练速度最高提升 2.77 倍。更令人惊喜的是,这种加速并未以牺牲准确率为代价,模型的解题能力在部分任务上甚至有所提升。

来源:IT之家

相关内容

热门资讯

沐曦股份:预计2026年Q1净... (来源:财闻) 公司在坚持技术创新驱动、持续加大研发投入的同时,深化市场开...
连平:未来5年人民币汇率趋势前... 来源:@究竟视频微博 #专家称未来5年人民币汇率将走强#【连平:#未来5年人民币汇率趋势前瞻#...
人走与棋落:阿里AI告别理想主... 文 | 极点商业评论 张 婕编辑 | 杨铭“me stepping down. bye my bel...
电影《哈姆奈特》大热,作家讲述... (来源:上观新闻)2020年,玛吉·奥法雷尔凭借小说《哈姆奈特》(Hamnet)获美国国家书评人协会...
十四届全国人大四次会议内蒙古代... (来源:青橙融媒 呼和浩特日报)按照大会统一安排,3月3日,出席十四届全国人大四次会议的内蒙古代表团...