文|于芳博
1.淘天集团携手爱橙科技正式开源了全新一代强化学习训练框架ROLL,打通了从小模型到600B+超大模型的RL训练落地路径。ROLL在诸如人类偏好对齐、复杂推理和多轮自主交互场景等关键领域显著提升了大语言模型的性能,同时具备超高的训练效率,目前ROLL已成功应用在多个淘天集团内部业务场景,为业务创新提供了强大的技术支持。
2.谷歌正式发布、开源了全新端侧多模态大模型Gemma 3n。Gemma 3n代表了设备端AI的重大进步,其特性包含:①多模态设计、专为设备端优化、架构突破(MatFormer架构)、质量提升。
1.1淘天联合爱橙开源强化学习训练框架ROLL
淘天集团携手爱橙科技正式开源了全新一代强化学习训练框架ROLL(Reinforcement Learning Optimization for Large-scale Learning)。ROLL以用户体验为核心设计理念,专为「高效・可扩展・易用」而打造,彻底打通从小模型到600B+超大模型的RL训练落地路径。ROLL在诸如人类偏好对齐、复杂推理和多轮自主交互场景等关键领域显著提升了大语言模型的性能,同时具备超高的训练效率,目前ROLL已成功应用在多个淘天集团内部业务场景,为业务创新提供了强大的技术支持。
ROLL是一款面向用户友好设计的强化学习框架。具体来说,ROLL考虑三类用户诉求,即:技术先驱者、产品开发者和算法研究者。对于技术先驱者:支持异构大规模GPU集群下的弹性扩展与容错,能够在上千卡环境下持续稳定地完成600B+大模型训练,极大降低训练成本和中断风险。对于产品开发者:可灵活配置奖励函数、环境、采样比例与数据配比,轻松实现各种任务场景的RL训练落地。对于算法研究者:单卡/少卡资源下也能高效实验,所有模块高度抽象,极易实现自定义RL算法、奖励与环境,极大缩短从想法到验证的周期。
整体框架上,ROLL接收的输入是用户定义的强化学习数据流及其相关配置。基于这些输入,分布式执行器和调度器可协调管理各类工作节点和调度节点。而AutoDeviceMapping模块则负责管理已分配资源池中的计算资源,并高效地将工作节点和调度节点绑定到其分配的资源上。
运行时,ROLL首先会根据提供的设备配置,分配由GPU和CPU资源组成的资源池。在RL数据流的指导下,系统会创建一个Rollout调度器和多个并行工作器。其中,Rollout调度器负责管理生成阶段中每个提示词样本请求的生命周期。然后,根据训练和模型配置,ROLL会实例化并行策略,以决定每个并行工作器的并行策略和执行后端。一旦并行工作器建立完成,ROLL将依据用户指定的设备映射配置,调用AutoDeviceMapping模块,从资源池中为各个并行工作器分配相应的计算资源。
①生成阶段中,首先将一批样本送入Rollout调度器以生成响应。在此过程中,Actor模型可能会与环境工作器进行交互,以实现智能体强化学习任务中的多轮环境互动。同时,系统也会调用奖励工作器来计算奖励信号,从而支持高级采样技术(例如动态采样)以提升采样效率。②推理阶段,会执行Critic、Reward和Ref模型(前提是这些模块已在RL数据流图中启用)的前向传播。随后,迁移协议会对生成阶段输出的响应进行分片,并将其分发给各个活跃的并行工作器。③训练阶段,Critic和Actor模型利会用已准备好的奖励信号更新各自的参数。此外,在下一轮训练迭代中,Actor模型还会通过ModelUpdateGroup与生成阶段同步模型参数,确保训练与生成过程的一致性。另外,ROLL也支持wandb、swanlab、TensorBoard等实验可视化方案。
实验表现方面,在Qwen2.5-7B-base与Qwen3-30B-A3B-base等模型上,ROLL取得了显著的跨领域多任务性能提升。例如,在RLVR pipeline训练下,Qwen2.5-7B-Base的整体准确率从0.18提升至0.52(2.89倍),Qwen3-30B-A3B-Base准确率从0.27提升至0.62(2.30倍),这两个模型在ROLL的支持下均展现了稳定且一致的准确率提升,且未发生模型崩溃等异常现象,展现了ROLL极佳的稳健性和实用性。
除了标准RL流程,ROLL在智能体交互场景中同样展现了强大的稳健性。研发团队在三个典型环境下对ROLL的泛化性与适应性进行了实证验证:
①Sokoban(推箱子):在经典网格推箱子任务中,模型在训练集上的成功率从16.8%提升至26.0%,验证集成功率从13.3%提升至35.2%。表明智能体在多轮决策与空间规划方面能力显著增强。此外,该训练结果具备良好的跨任务迁移能力,能有效泛化至其他环境如FrozenLake。
②FrozenLake(冰冻湖):训练成功率从16.8%提升至26.0%,有效动作占比从69.1%提升至88.8%;验证集成功率也从12.9%升至23.8%。
③WebShop(网页购物):在模拟真实购物任务中,训练和验证集上的成功率从37%大幅提升至超过85%。同时,平均每轮交互动作数从7降至4,表明模型在复杂自然语言指令下逐步学会了高效完成目标任务,体现出较佳的操作效率和指令理解能力。
1.2 谷歌开源Gemma 3n
本周五,谷歌正式发布、开源了全新端侧多模态大模型Gemma 3n。Gemma 3n代表了设备端AI的重大进步,它为手机、平板、笔记本电脑等端侧设备带来了强大的多模式功能,其性能去年还只能在云端先进模型上才能体验。
Gemma 3n的特性包含如下几个方面:①多模态设计:Gemma 3n原生支持图像、音频、视频和文本输入和文本输出。②专为设备端优化:Gemma 3n型号以效率为设计重点,提供两种基于有效参数尺寸:E2B和E4B。虽然它们的原始参数数量分别为5B和8B,但架构创新使其运行内存占用与传统的2B和4B型号相当,仅需2GB(E2B)和3GB(E4B)内存即可运行。③架构突破:Gemma 3n的核心是全新组件,例如用于计算灵活性的MatFormer架构、用于提高内存效率的每层嵌入(PLE)以及针对设备用例优化的新型音频和基于MobileNet-v5的视觉编码器。④质量提升:Gemma 3n在多语言(支持140种文本语言和35种语言的多模态理解)、数学、编码和推理方面均实现了质量提升。E4B版本的LMArena得分超过1300,使其成为首个达到此基准的100亿参数以下模型。
Gemma 3n的核心是MatFormer(Matryoshka Transformer)架构,这是一种专为弹性推理而构建的新型嵌套Transformer。你可以将其想象成俄罗斯套娃:一个较大的模型包含其自身更小、功能齐全的版本。这种方法将俄罗斯套娃表征学习的概念从单纯的嵌入扩展到所有Transformer组件。因此,MatFormer在训练4B有效参数(E4B)模型时,会同时优化2B有效参数(E2B)子模型。
每层嵌入(PLE):释放更多内存效率。Gemma 3n模型采用了逐层嵌入(PLE)技术。这项创新专为设备部署而设计,可大幅提高模型质量,同时不会增加设备加速器(GPU/TPU)所需的高速内存占用。虽然Gemma 3n E2B和E4B模型的总参数数量分别为5B和8B,但PLE允许很大一部分参数(与每层相关的嵌入)在CPU上加载并高效计算。这意味着只有核心Transformer权重(E2B约为2B,E4B约为4B)需要存储在通常较为受限的加速器内存(VRAM)中。
KV Cache共享:更快的长上下文处理。处理长内容输入(例如来自音频和视频流的序列)对于许多先进的设备端多模态应用至关重要。Gemma 3n引入了键值缓存共享(KV Cache Sharing),旨在加快流式响应应用的首个token获取时间(Time-to-first-token)。KV Cache Sharing优化了模型处理初始输入处理阶段(通常称为「预填充」阶段)的方式。来自局部和全局注意力机制的中间层的键和值将直接与所有顶层共享,与Gemma 3 4B相比,预填充性能显著提升了两倍。这意味着模型能够比以往更快地提取和理解较长的提示序列。
音频理解:将语音引入文本并进行翻译。在语音方面,Gemma 3n采用基于通用语音模型(USM)的高级音频编码器。该编码器每160毫秒的音频生成一个token(约每秒6个token),然后将其作为语言模型的输入进行集成,从而提供声音上下文的精细表示。
MobileNet-V5:最先进的视觉编码器。除了集成的音频功能外,Gemma 3n还配备了全新的高效视觉编码器MobileNet-V5-300M,为边缘设备上的多模态任务提供最先进的性能。
北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;下游需求不及预期影响公司正常生产和交付,导致收入及增速不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;人工智能技术进步不及预期;汽车与工业智能化进展不及预期。
证券研究报告名称:《淘天联合爱橙开源强化学习训练框架ROLL,谷歌正式开源Gemma 3n》
对外发布时间:2025年6月30日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
于芳博 SAC 编号:S1440522030001
SFC 编号:BVA286
研究助理孟龙飞