智东西
作者 | 陈骏达
编辑 | 漠影
一股强化学习(Reinforcement Learning)的浪潮,正席卷AI圈。
从OpenAI o1验证强化学习在大语言模型上的巨大潜力,再到DeepSeek-R1对这项技术的性能与成本效益优化,理论、算力与数据的协同演进,正让强化学习快速走向台前,成为推动AI下一阶段智能水平提升的引擎。
学术界也对强化学习的价值给出了极高评价。3月5日,对这项技术做出开创性贡献的安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton),获得本年度的图灵奖。
在国内,有不少团队正在继续探索强化学习未来的发展路径。就在前天,清华大学交叉信息院和蚂蚁技术研究院的联合团队,正式开源全异步强化学习训练系统——AReaL-boba²。
AReaL-boba²最大的亮点是完全解耦了模型生成与训练,实现了不间断的流式数据生成和并行训练。在效果不变的前提下,其训练速度达到了上一版本的2.77倍。
研究团队还在Qwen3系列模型的基础上,使用AReaL-boba²进行强化学习训练,并将相关模型开源。在多项编程领域权威基准测试上,强化学习后的8B和14B参数模型,实现了同尺寸模型中的SOTA水准。
难能可贵的是,AReaL-boba²在开源代码、数据集、脚本及SOTA级模型权重的基础上,新增了详细教程与深度文档,帮助开发者更便捷地使用与定制上述研究成果,并提供了对多轮智能体强化学习 (Multi-Turn Agentic 强化学习)训练的原生支持。
开源地址:
https://github.com/inclusionAI/AReaL/
论文链接:
https://arxiv.org/pdf/2505.24298
SOTA模型下载链接:
https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5
一、RL训练如何提效?训推解耦成关键
为了更好地理解 AReaL-boba²,我们可以先了解几个强化学习领域的基本概念。
简而言之,强化学习是一种“试错式学习”机制,类似于训练宠物:当它做对了,就给予奖励;做错了,则不给奖励,甚至惩罚。
强化学习的核心在于“动作—学习”的交替循环。以语言模型为例,这一过程表现为生成与训练之间的不断切换:模型根据提示生成内容,然后由特定算法对其进行评估,模型再依据这一评估结果进行调整,从而更倾向于生成高得分的内容。
在这一过程中,AI系统通过反复尝试、观察反馈、优化策略,逐步学会如何选择能带来更高长期回报的动作。这正是强化学习用于提升模型智能的基本原理。
强化学习在大语言模型的应用,催生了一种新的模型形态——大型推理模型(Large Reasoning Models)。推理模型能在给出最终结果之前,生成大量用于“思考”的token。产业界的实践证明,让模型推理(即测试时计算)对于提升模型解决数学、编程等问题的能力有显著作用。
然而,在打造大推理模型的过程中,强化学习算法也展现出一定局限性。当下,大部分强化学习算法的生成与训练阶段按照严格的时序进行耦合,每一轮训练必须等到当前一轮所有样本的生成任务完成之后才能开始,即所谓的同步强化学习。
对于大型推理模型而言,输出长度因提示(prompt)内容的不同而波动极大,导致有些样本生成很快,而另一些则非常缓慢,从而造成硬件资源的空闲和浪费。AReaL-boba²的实验中,如下图所示,空白的部分就代表了同步强化学习训练中可能出现的GPU闲置情况。
此外,主流强化学习算法(如PPO、GRPO)对“最新策略数据”的依赖也加剧了系统设计的复杂性。这类算法要求训练样本必须由当前模型版本生成,确保训练数据具有良好的“策略一致性”。
这意味着系统必须频繁地进行模型更新和推理,不仅提高了计算负载,还引入了版本管理和同步协调的额外开销。
虽然近年来已有研究尝试打破同步限制,通过将生成与训练并行进行来提高效率,这些方法依旧受到“版本偏移”的限制,即训练所用样本与当前模型版本之间不能相差过远。
为了避免模型性能下降,此类异步系统通常仅允许使用1个版本之前的样本进行训练,同时仍保留了统一版本的批量生成方式。这种批处理机制无法充分利用生成时间的碎片化空隙,依旧无法从根本上缓解生成阶段的系统瓶颈。
因此,要实现高效、可扩展的大型推理模型强化学习系统,亟需一种更灵活的系统设计方案,能够充分应对生成长度不一、策略更新频繁等挑战,从而实现更高的设备利用率和可扩展性。这正是AReaL-boba²所尝试解决的核心问题。
二、四大组件实现全异步RL,仍存两大算法挑战
AReaL-boba²是一个专为高效大规模语言模型强化学习训练而设计的异步强化学习系统,这一系统主要有四大部分。
首先是“可中断轨迹生成器(Interruptible Rollout Worker)”,它负责生成模型的输出,也可以一边生成,一边接收新的模型权重,一旦收到更新请求,会立刻中断当前生成、丢掉旧缓存,然后加载新权重继续生成。
其次是“奖励服务(Reward Service)”,它的作用是判断生成内容的好坏,比如在代码任务中,它会提取代码、运行测试,看看代码是否正确。
“训练器(Trainer Workers)”负责不断地从以前生成的数据中抽样,执行强化学习算法更新模型,并保存新模型参数。
最后是“生成控制器(Rollout Controller)”,可以将其看作是整个系统的大脑。它控制生成的流程:从数据集中读取数据,让生成器生成内容,把内容发送至奖励服务打分,然后把带分数的内容放进缓冲区,等待训练器进行训练。当训练器更新完模型,控制器还会调用轨迹生成器的权重更新接口。
整体上,这种异步设计让每个环节可以专注于自己的核心任务,互不干扰,又能协调配合,从而提升效率。不过,它也带来了两个算法问题。
在异步强化学习系统中,不同训练批次的数据可能来自旧版本的模型,导致训练数据与当前模型不匹配,即所谓的分布差异(distribution gap)。研究表明,这种数据陈旧性(Data Staleness)在人类反馈强化学习(RLHF)和游戏训练中会降低训练效果。
对语言模型(尤其是长文本)来说,这个问题可能更严重,因为生成过程耗时更长,导致使用的模型版本更加过时。
模型版本不一致(Inconsistent Policy Versions)本身,更是违背了传统强化学习算法的根本性假设——即所有动作都来自同一个模型。
三、限制滞后提升稳定性,解耦策略保障效率
为了缓解数据滞后对训练稳定性带来的影响,AReaL-boba²团队开发了多项创新算法。
该团队先是引入了最大允许滞后值“η”,用以限制生成数据所使用的策略(模型)版本与当前训练策略(模型)版本之间的差距。
η有效控制了训练数据的陈旧程度。较小的η有助于提高训练的稳定性,但也可能限制数据生成速度,尤其是在处理长上下文文本时,生成耗时更长,从而更容易出现版本滞后。
为了能够在不牺牲训练效率的前提下利用一定程度的滞后数据,AReaL-boba²采用了解耦版的 PPO(Proximal Policy Optimization)算法。
这种算法把生成数据的行为策略(有可能为旧策略)和用来约束当前模型的近端策略分开处理。OpenAI o1等模型使用的传统PPO算法要求上述内容均为同一个策略,但这在异步训练里不现实。
解耦PPO通过重要性采样,可以在训练时修正行为策略与近端策略之间的差异,从而保证训练有效且稳定。
此外,尽管解耦PPO在理论上可以使用滑动平均等复杂方法构建近端策略,但考虑到大型语言模型的计算成本,AReaL-boba²采用了更为高效的做法——直接使用每次模型更新前的参数作为近端策略。该设计不仅简化了实现,也满足了训练的精度要求。
通过限制数据滞后程度与采用解耦 PPO 的方式,系统实现了在提升异步训练效率的同时,保持算法收敛性与训练稳定性的目标。
四、 训练步骤耗时骤降52%,具备线性扩展能力
AReaL-boba²通过算法系统协同设计(co-design)的方式实现了完全异步强化学习训练(fully asynchronous RL),生成和训练使用不同GPU并完全解耦。
这一强化学习系统中,有一部分GPU持续进行生成任务,避免空闲。同时,训练任务实时接收生成结果并在训练节点上并行更新参数,再将更新后的参数同步至推理节点。该系统在保障稳定强化学习训练的同时,将通信与计算的同步开销控制在总训练时间的5%以内。
AReaL-boba²在训练速度上展现出明显优势。在使用128卡对1.5B模型在32k输出长度、512 x 16批大小设定下进行强化学习训练时,异步方法相比同步方法相比,每个训练步骤耗时减少52%。
为了更全面地评估AReaL-boba²在数学推理和代码生成任务中的性能,研究团队使用了DeepSeek-R1 系列中蒸馏后的Qwen2模型,涵盖从1.5B到32B不等的规模,并采用多种方式进行强化训练。
训练过程中,AReaL-boba²一共使用了512张H800 GPU,为了充分利用资源,团队将四分之三的设备分配给推理任务,这一设备比例在早期实验中表现出更高的训练吞吐率。
实验结果显示,AReaL-boba²展现出与现有同步RL系统(如 VeRL 和 AReaL的早期sync版本)相当甚至更优的性能,同时在训练速度上取得了最多2.77倍的提升。
具体而言,在AIME24和LiveCodeBench上,AReaL-boba²在各个模型规模下都保持较高的精度,并大幅缩短训练时间。尽管某些任务上,AReaL-boba²的表现与已有系统相当,但凭借异步训练框架,其整体吞吐和硬件利用率上实现了明显优势。
在可扩展性方面,AReaL-boba²展现了近似线性的扩展能力,随着设备数量的增加,训练吞吐量几乎成比例增长。与之形成对比的是传统同步系统,其扩展性在大模型和长上下文设置下表现不佳,甚至面临显存溢出的限制。
AReaL-boba²在长文本生成任务中的优势尤为显著,通过异步和可中断生成机制,有效掩盖生成时间,提高了整体效率。
为了进一步验证系统设计的合理性,研究团队还进行了详尽的算法与系统消融实验。结果表明,传统的PPO算法在面对陈旧数据时训练效果明显降低,而通过引入解耦目标函数和陈旧性控制,AReaL-boba²不仅能保持训练稳定性,还能在保证最终性能的前提下加速训练过程。
此外,系统级设计如可中断生成策略能显著减少训练等待时间,而动态微批次分配策略则在多个模型规模下带来了约30%的吞吐提升。
结语:强化学习持续进化,赋能智能体未来
AReaL-boba²背后团队已经多次迭代这一强化学习系统,他们一直坚持了“全面开源、极速训练、深度可定制”的开发理念。本次,该团队不仅扩展了训练系统的能力边界,还提供了更为全面的开发者支持。
在Agentic AI逐渐成为解决复杂任务和构建自主决策系统的重要路径之际,类似AReaL-boba²这样的异步强化学习系统,有望为多轮、长上下文、高复杂度的智能体任务提供更高效、更稳定的训练机制。