上海 AI 实验室联合突破强化学习算法,攻克 AI 推理熵崩溃难题
创始人
2025-06-04 08:41:02
0

IT之家 6 月 4 日消息,上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等学府,组建国际团队研发新方法,通过 Clip-Cov 和 KL-Cov 技术有效应对策略熵崩溃问题。

背景简介

大型语言模型(LLMs)近年来在推理能力上的突破,让强化学习(RL)的应用范围从单一任务扩展到更广泛的场景,这种进步赋予了模型更强的泛化能力和逻辑推理能力。

然而,与传统的模仿学习不同,强化学习需要更高的计算资源来支持从经验中学习,核心问题在于策略熵(反映了模型在利用已知策略和探索新策略之间的平衡)的下降。

熵值过低会导致模型过度依赖已有策略,丧失探索能力。这一探索-利用权衡(exploitation-exploration trade-off)是强化学习的基础,如何控制策略熵成为训练中的关键难题。

策略熵崩溃的理论与实践突破

为解决这一问题,研究团队提出了一个经验公式:R = −a exp H + b,其中 H 代表策略熵,R 为下游任务表现,a 和 b 为拟合系数。这一公式揭示了策略性能与熵值之间的权衡关系,指出熵耗尽是性能瓶颈。

研究进一步分析了熵动态变化,发现其受动作概率与 logits 变化协方差的驱动。为此,团队创新性地提出了 Clip-Cov 和 KL-Cov 两种技术,分别通过裁剪高协方差 token 和施加 KL 惩罚来维持熵水平。

实验基于 Qwen2.5 模型和 DAPOMATH 数据集,覆盖数学任务,结果显示新方法在 7B 和 32B 模型上分别提升了 2.0% 和 6.4% 的性能,尤其在 AIME24 和 AIME25 等高难度基准测试中,32B 模型性能提升高达 15.0%。

研究团队在包括 Qwen2.5、Mistral、LLaMA 和 DeepSeek 在内的 11 个开源模型上进行了测试,参数规模从 0.5B 到 32B 不等,涵盖数学和编程任务的 8 个公开基准测试。

训练采用 veRL 框架和零样本设置,结合 GRPO、REINFORCE++ 等算法优化策略性能。结果表明,Clip-Cov 和 KL-Cov 技术能维持更高的熵水平,例如 KL-Cov 方法在基线熵值趋于平稳时仍保持 10 倍以上的熵值。

这不仅解决了策略熵崩溃问题,也为强化学习在语言模型中的扩展提供了理论支持。研究强调,熵动态是性能提升的关键瓶颈,未来需进一步探索熵管理策略,以推动更智能语言模型的发展。

IT之家附上参考地址

相关内容

热门资讯

6月6日,快手(01024.H... 6月6日,快手(01024.HK)旗下可灵AI上线一周年。快手官网信息显示,可灵AI在推出10个月之...
苹果将出席今年 IEEE CV... IT之家 6 月 6 日消息,苹果公司宣布将参加本年度 IEEE / CVF 计算机视觉与模式识别会...
《藏海传》大结局:皇帝之死,蒯... 在大结局之前,赵秉文借刀杀人,把藏海私藏铜鱼的事情捅到了皇帝面前。在绝对的权力面前,智慧根本不值一提...
博通:预计2025财年AI芯片... 博通:预计2025财年AI芯片销售的增长势头将延续至2026年。大客户在加大AI推理开支。
Reddit怒怼Anthrop... 有着“美版贴吧”称号的Reddit(RDDT.US)起诉人工智能(AI)初创公司Anthropic,...
腾讯打造高考AI工具箱 “好用... 今年高考迎来倒计时。与往年不同,今年的高考与AI的结合更加紧密。 6月5日,据腾讯方面介绍,今年高考...
恒拓开源股价微涨0.76% 大... 恒拓开源最新股价报17.15元,较前一交易日上涨0.13元。盘中最高触及17.18元,最低下探至16...
原创 最... 据环球网报道,商务部新闻发言人回应美国对人工智能(AI)芯片出口管制问题时表示,中方对此坚决反对,将...
CentOS下LVM的安装与卸... 核心提示:直接操作LVM删除涉及底层存储结构,需极度谨慎,误操作可能导致数据永久丢失。请确保已将所有...
重磅|香港全明星英文脱口秀已开... https://www.art-mate.net/doc/83720
总局最新收视榜:《藏海传》仅第... 现在的电视剧档可谓是“神仙打架”,各式各样的类型、剧情统统上映,让观众们看都看不过来,并且直呼过瘾。...
柯淳翻拍版《栀栀复栀栀》为什么... 我们近期看短剧,会不会有一个共感?同一个IP,为什么翻拍那么多版?柯淳饰演的《致我们暖暖的小时光》之...
内娱终于有不恋爱脑但甜度爆表的... 最近又来一部剧让我垂直入坑。刘浩存、王安宇的《陷入我们的热恋》,本以为只是甜滋滋的糖水现偶,看完却猛...
《长安的荔枝》定档开播!雷佳音... 终于等到了。自2023年的《显微镜下的大明之丝绢案》热播之后,有“文字鬼才”之称的马伯庸,便再也没有...
余男:49岁首次出演古装《藏海... 最近热播剧《藏海传》引发了一波持续热度,剧中,跌宕起伏的情节引人入胜,选角精准传神,即使是客串几集的...
《藏海传》10位演技派排名,张... 肖战、张婧仪主演的《藏海传》自5月18日在央视八套和优酷开播以来,热度迅速飙升。云合很快就赶超《折腰...
运动鞋配上仙女裙=今夏最in穿... 最近的这个天气超级适合出去玩呀,再过段时间就太热了,所以赶快约着好姐妹或者男朋友一起出去玩!但是咱就...
《藏海传》碾压《琅琊榜》《甄嬛... 有网友发帖称,郑晓龙导演这下要哭了,没有任何的预兆,没有任何的准备,万万没想到,毫无预热的《藏海传》...
邱泽:抛弃杨丞琳,伤害过唐嫣,... 提起邱泽,你会先想到什么?不是影帝头衔,不是偶像剧男主,更不是那张让人一眼沦陷的俊脸。而是“渣男”这...
《绽放的许开心》江苏台首播,有... 6月5日,电视剧《绽放的许开心》在江苏卫视两集首播,腾讯视频上线。这部电视剧由韩庚、张雨绮等演员主演...