攻克大模型训练难题!360实现全网首个开源强化学习LoRA训练方案
创始人
2025-06-04 18:37:05
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

在大模型的训练中,强化学习算法一直是提升模型性能的关键。然而,其面临着计算资源要求高、训练速度慢等问题,让普通企业机构望而却步。面对行业共性难题,近日,在360数字安全集团冰刃实验室主导下,打造出“轻量化、高性能”的AI训练方案:RL-LoRA,在保持模型泛化能力的前提下,体积仅为原始全参数模型的1%-5%,实现强化学习训练技术引领性突破。目前,360安全大模型已深度融合RL-LoRA技术,相关核心代码也已正式对外开放下载使用。

大模型强化学习训练困境:更高性能,更高门槛

当DeepSeek-R1凭借卓越的推理与泛化能力惊艳全球,其背后的核心引擎——强化学习算法GRPO(Generalized Reinforcement Learning Policy Optimization)也备受瞩目。GRPO的训练能够简洁有效的提升大模型的推理能力,同时保持更优的泛化能力。然而GRPO训练对显存消耗高且速度缓慢,这就对于大模型的强化学习训练设置了更高的门槛要求,让一些资源有限的企业以及在垂直领域的模型应用望而却步。

一方面,强化学习训练方法对显存资源要求巨大,在配备TRL+FA2的GRPO设置中,Llama 3.1(8B)在20K上下文长度下,训练需要510.8GB的VRAM,而主流的娱乐级显卡容量通常为2GB、4GB或8GB。

另一方面,强化学习训练相对速度慢,需要持续对训练效率优化提升。GRPO执行过程中,需同时运行策略模型、参考模型和推理模型,每一次权重更新操作需要频繁切换模型,不仅引发效率瓶颈,还会产生显存占用尖峰,使得强化学习训练速度缓慢。

最后,显卡资源有限的机构或垂类领域应用大模型时,常面临在单一服务器上同时推理多个不同功能大模型的需求。LoRA这一低资源训练方法的重要性愈发凸显,为高效利用有限资源、实现多模型协同推理提供了关键技术支撑。

重大突破:360实现全网首个强化学习LoRA训练方案

面对行业共性难题,由360冰刃实验室主导,联合加州伯克利大学BAIR顶尖学者(S.Xie、T.Lian、J.Pan)及字节跳动Seed团队专家,在开源项目Volcengine/VERL中贡献了里程碑式方案:RL-LoRA集成支持,其主要具备以下技术优势:

更少资源、更高性能

RL-LoRA训练方法将LoRA引入至GRPO等强化学习训练全流程,能够以更低的资源支持更大规模模型的强化训练。以往8卡A100无法触及的32B+模型,如今可轻松训练70B甚至更大尺寸。

实际测试中,对于LoRA_rank=32的0.5B模型,采用RL-LoRA训练方法,训练收敛速度和最终性能与常规GRPO训练几乎相同,节省算力资源的同时,保证了训练的正确性和稳定性。

更多批次、更高效率

RL-LoRA训练方法降低了显存尖峰,在同等硬件下显著提升训练批次(Batch Size),可以支持更多数据并行处理,提升计算资源利用率,进而加快训练速度,助力模型高效训练。

轻量化、易部署

训练产出的LoRA Adapter体积仅为原始全参数模型的1%-5%,微小体积使其复制、分发、加载异常便捷,彻底摆脱动辄数百GB巨型模型的部署枷锁。

落地实践:360安全大模型率先落地应用RL-LoRA技术

针对安全垂直领域多场景化的应用需求,360独创了紧凑型多专家协同大模型(CCoE)架构,该架构与模型基座解耦并具备迁移能力,使得专项任务无需训练大规模基座参数。在模型基座之上,360针对各类安全研判、分析、生成等任务设计了相互独立的“专家”,即插即用,少许训练路由参数就能即可完成新任务“专家”扩展工作。

360安全大模型已深度融合CCoE与RL-LoRA技术, 面向安全运营、威胁狩猎、钓鱼研判等众多安全场景,实现专项微调显存占用降低、训练效率提升、集约化部署应用。同时,360通过专项训练推出100+安全专家智能体,已经为北京市朝阳区政府、重庆大学等近500家用户在真实环境中完成测试应用与交付,加持政府、金融、央企、运营商、交通、教育、医疗等行业客户实现智能化安全防御。

目前,RL-LoRA相关核心代码已正式对外开放下载使用。未来,360继续深耕AI+安全实践应用,以创新技术赋能行业智能化、高效化转型,为国内AI研发生态贡献力量!

相关内容

热门资讯

“网约护士”发展情况调查:“医... 调查动机为了有效打通医疗护理服务的“最后一公里”,2019年,国家卫健委发布了《“互联网+护理服务”...
外交部例行记者会 / MFA ... 转自:外交部发言人办公室​2025年6月5日外交部发言人林剑主持例行记者会Foreign Minis...
特朗普与马斯克的矛盾核心 【#特朗普与马斯克的矛盾核心#[并不简单]】本周,特斯拉首席执行官马斯克接连对美国总统特朗普力推的大...
东贝集团跌2.05%,成交额1... 6月6日,东贝集团盘中下跌2.05%,截至11:02,报6.68元/股,成交1.22亿元,换手率2....
【爱兰州•午点】考试时间安排→ ·天下 、】★1、2025年甘肃省普通高校招生统一考试时间安排来源:甘肃省教育考试院★2、在2025...
云天励飞涨2.02%,成交额2... 6月6日,云天励飞盘中上涨2.02%,截至11:02,报51.10元/股,成交2.29亿元,换手率1...
濮耐股份涨2.05%,成交额3... 6月6日,濮耐股份盘中上涨2.05%,截至11:04,报4.98元/股,成交3652.83万元,换手...
朗科科技涨2.04%,成交额1... 6月6日,朗科科技盘中上涨2.04%,截至11:03,报23.01元/股,成交1.20亿元,换手率2...
王姓股民向赢合科技发起索赔 李...   受损股民可至Hehson股民维权平台登记该公司维权:http://wq.finance.sina...
新发现的“超级地球”究竟是颗啥... 来源:北京科学中心 审核专家:景海荣 北京天文馆研究员近日,由中国科学院云南天文台牵头的国际研究团队...
歹徒持枪抢劫,一中国同胞遇害!... 中国驻赞比亚大使馆6月5日发布通报称,赞比亚铜带省基特韦市一家中资农场5月29日遭歹徒持枪抢劫,导致...
张国华与中国建设银行党委书记、... 转自:雄安发布6月5日,中国建设银行党委书记、董事长张金良一行到雄安新区考察调研。省委常委,雄安新区...
全球首个满级QQ即将诞生 界面新闻记者 | 宋佳楠星星到月亮,月亮到太阳,太阳到皇冠,再之后是什么?一位QQ等级已达255级的...
宇晶股份涨2.16%,成交额4... 6月6日,宇晶股份盘中上涨2.16%,截至10:56,报25.98元/股,成交4406.14万元,换...
苏超爆火出圈江苏银行赢麻了,有... 【#苏超爆火出圈江苏银行赢麻了#,#有储户为了苏超门票定存几十万#元】作为苏超赛事的总冠名商,江苏银...
守护儿童青少年心理健康(健康焦... 转自:人民日报崔永华在出门诊。记者杨彦帆摄徐高阳在接热线电话。记者申少铁摄易莉萍(右一)在心理健康课...
康缘药业跌2.05%,成交额1... 6月6日,康缘药业盘中下跌2.05%,截至11:05,报13.84元/股,成交1.64亿元,换手率2...
存储芯片概念异动 大为股份涨停 人民财讯6月6日电,存储芯片概念异动,大为股份、好上好涨停,国科微涨超10%,兆易创新、西测测试、信...
重要事件提振市场风险偏好!A5... 消息面上,6月5日晚,中美元首通话,双方表示同意继续落实好日内瓦共识。着眼6-7月份,相关机构预测美...