上海 AI 实验室联合突破强化学习算法,攻克 AI 推理熵崩溃难题
创始人
2025-06-04 08:41:02

IT之家 6 月 4 日消息,上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等学府,组建国际团队研发新方法,通过 Clip-Cov 和 KL-Cov 技术有效应对策略熵崩溃问题。

背景简介

大型语言模型(LLMs)近年来在推理能力上的突破,让强化学习(RL)的应用范围从单一任务扩展到更广泛的场景,这种进步赋予了模型更强的泛化能力和逻辑推理能力。

然而,与传统的模仿学习不同,强化学习需要更高的计算资源来支持从经验中学习,核心问题在于策略熵(反映了模型在利用已知策略和探索新策略之间的平衡)的下降。

熵值过低会导致模型过度依赖已有策略,丧失探索能力。这一探索-利用权衡(exploitation-exploration trade-off)是强化学习的基础,如何控制策略熵成为训练中的关键难题。

策略熵崩溃的理论与实践突破

为解决这一问题,研究团队提出了一个经验公式:R = −a exp H + b,其中 H 代表策略熵,R 为下游任务表现,a 和 b 为拟合系数。这一公式揭示了策略性能与熵值之间的权衡关系,指出熵耗尽是性能瓶颈。

研究进一步分析了熵动态变化,发现其受动作概率与 logits 变化协方差的驱动。为此,团队创新性地提出了 Clip-Cov 和 KL-Cov 两种技术,分别通过裁剪高协方差 token 和施加 KL 惩罚来维持熵水平。

实验基于 Qwen2.5 模型和 DAPOMATH 数据集,覆盖数学任务,结果显示新方法在 7B 和 32B 模型上分别提升了 2.0% 和 6.4% 的性能,尤其在 AIME24 和 AIME25 等高难度基准测试中,32B 模型性能提升高达 15.0%。

研究团队在包括 Qwen2.5、Mistral、LLaMA 和 DeepSeek 在内的 11 个开源模型上进行了测试,参数规模从 0.5B 到 32B 不等,涵盖数学和编程任务的 8 个公开基准测试。

训练采用 veRL 框架和零样本设置,结合 GRPO、REINFORCE++ 等算法优化策略性能。结果表明,Clip-Cov 和 KL-Cov 技术能维持更高的熵水平,例如 KL-Cov 方法在基线熵值趋于平稳时仍保持 10 倍以上的熵值。

这不仅解决了策略熵崩溃问题,也为强化学习在语言模型中的扩展提供了理论支持。研究强调,熵动态是性能提升的关键瓶颈,未来需进一步探索熵管理策略,以推动更智能语言模型的发展。

IT之家附上参考地址

相关内容

热门资讯

成都人才政策及待遇如何查?附查... 成都市ABCDEF人才政策有哪些? 人才安居补贴待遇、认定标准在哪里查询? 人才认定证书怎么看? 小...
父亲丧事感谢信 父亲丧事感谢信...   各级领导,各位戚族亲友,各位来宾:   正值国运昌隆、家境小康、乐享天伦的美好时光,我的父亲大人...
捐书感谢信 捐书感谢信 捐书感...   尊敬的**省食品药品监督管理局全体干部职工:   首先对贵单位支持山区教育,关心贫困孩子的善举表...
致企业董事长的感谢信 青山地产...   尊敬的***董事长:您好!   在***为期四个月的学习生活,即将接近尾声。在****一体化实验...
政府致公司领导感谢信 写给离任...   尊敬的****公司各位领导:您们好!   我代表**乡党委、政府向贵公司致以最诚挚的问候! ...