新智元报道
编辑:peter东 英智
【新智元导读】新加坡国立大学等机构的研究者们通过元能力对齐的训练框架,模仿人类推理的心理学原理,将演绎、归纳与溯因能力融入模型训练。实验结果显示,这一方法不仅提升了模型在数学与编程任务上的性能,还展现出跨领域的可扩展性。
当AI试图破解数学、编程与科学的难题时,它常常像一位灵感乍现的天才,却又难以稳定发挥。
新加坡国立大学、清华大学和Salesforce AI Research的研究者,提出了一种革命性的训练框架——元能力对齐,赋予模型稳健的推理能力,让顿悟成为常态。
论文链接:https://arxiv.org/abs/2505.10554
他们提出了一项使大型推理模型的能力变得更加可控和可靠的训练方法,能够高效地系统化培养大模型的数学,编程和科学问题上的基本推理能力。
要理解其突破,需要知道何为啊哈时刻,这里指的是在使用纯强化学习训练大模型的时候,大模型偶然展现出的高级推理行为,如自我纠正、回溯和验证等。
DeepSeek-R1的成功表明,从预训练基础模型或指令微调模型开始,基于规则的纯强化学习能够自发地涌现出长链式思维推理、自我纠正、自我反思等高级行为。
然而,这些涌现行为的频率和一致性,却始终不可预测且无法控制,这就限制了大模型的推理能力的可扩展性和可靠性。
实验方法:模仿心理学,
让大模型稳定地涌现出推理能力
要想做到超越「顿悟时刻」就需要借助于心理学家皮尔斯提出的经典推理三元组,该理论指出人类的推理能力,可以分为三个组件间的组合,分别是假设,观察和规则,根据任意两个,可以得出第三个。
例如根据观察和假设,通过归纳得到可泛化的规则;而基于规则和假设,能根据演绎推断出未来可能的观察结果;至于基于规则和观察,得到假设的过程,称之为溯因。
图1:皮尔斯提出的推理元能力三元组有了这样的分类,研究者据此构建了一个程序,能自动化生成上述三类推理的实例,用于大模型的训练,并对大模型输出的结果自动进行验证,程序生成的任务,是由常见数据组合而成,但又不再训练数据集中的,由此可训练模型的元推理能力。
例如,在演绎推理(H+R⇒O)中,模型被给定一组逻辑规则R和一个候选真值赋值H作为假设,必须验证整体观察结果O(即所有公式为真)是否成立。
而在归纳推理(H+O⇒R)中,模型被提供可观察项O和不完整输入H,必须抽象出底层生成规则R;在溯因推理(O+R⇒H)中,模型被给定观察结果O和一个规则图R ,必须反向追踪以恢复能够逻辑解释结论的最小隐藏假设集H。
下面是作者给出的一个训练数据的例子,以提示词及正确回复的方式出现。
每个训练实例由自动化生成器产生,并由验证器筛选,从而生成大规模、自我校验的训练数据,完全无需人工标注。
图2:模型训练的三阶段流程概述:对演绎、归纳和溯因专家进行对齐,在参数空间中合并它们,并持续使用强化学习训练统一模型到下游领域
具体来看,该架构下的大模型,可视为一个类似混合专家模型的架构,每类专家拿到的训练数据后,先各自提升自己的能力,演绎推理的「专家」,会在训练后产生假设生成、逻辑推论传播、经验一致性检测和纠错。
归纳专家增强了模型在抽象和泛化方面的基本能力;而溯因专家从目标开始,以假设最小支持性为前提,对照已知事实,高效地进行目标导向的假设形成、验证和修订的重复循环,相当于对因果图进行剪枝。
这些能力是跨领域进行稳健推理的必要组成部分。
之后研究者会后通过参数空间融合,将这些专家合并,然后在数学,编程和社交互动这三种场景上分别使用强化学习训练专家模型(称之为Domain-RL-Meta特定领域元强化学习),之后再对训练好的模型进行融合。
这种训练方法,被称为元能力对齐。
实验结果
高效且可扩展的训练方式
对于上述三类任务,该研究对问题难度进行了分级,并采用循序渐进的学习策略,从易到难逐级训练模型。
按照这个计划,7B模型在2级问题时性能收敛,并且在使用更高级别的训练数据集时,不再提升性能,32B模型偶尔受益于3级难度的训练数据,但奖励曲线不稳定,因此该研究中也没有采用。
研究者在训练过程中,对于7B模型,每个任务每个级别实验200个实例,对于32B模型,每个任务每个级别适应2000个实例。
结果显示:相比指令微调基线(Qwen-2.5),基于元能力对齐的训练方法使模型在数学,编程和科学问题的7个模型从没有见过的基准测试上的准确率提高了10%以上,并通过特定领域强化学习获得进一步增益。
在7B和32B规模下,元能力对齐和合并的模型始终优于指令微调的基线模型,合并后的模型取得了最高增益。
在7B规模模型上,数学问题的平均分从基准的38.8%提升到Domain-RL-Meta的43.0%;而没有经过元能力对齐,只是进行特定领域的强化学习,训练后的表现只有41.2%。
参数量扩展至32B时,数学问题上的表现从46.9升至50.3(特定领域强化学习)再升至52.3(元能力对齐+特定领域强化学习),整体平均分从44.6升至47.4再升至48.8。
对比7B和32B参数量的提升,可看出元能力对齐带来的收益随模型规模增加而扩展,显著提升了各项任务的性能上限,尤其是在数学任务上,合并三种推理模式后,训练好的模型性能提升了11.1%。
表1:不同参数量下,适应元能力对齐训练的大模型在数学和编程问题上的性能
这说明该框架为在数学、编程和科学领域提升推理能力提供了一种可扩展、可推广且可控的方法,有助于构建可解释且鲁棒的推理模型。
这种模块化的训练方式,借鉴了混合专家模型,同时使用来自心理学对人类推理本质的洞见,让大模型的每个专家进行专业分工,擅长一种推理方式,从而能够用小数据集完成快速的性能提升。
这就如同学生学到了能驾驭各家功夫的小无相功后,能够在各种问题上游刃有余。
参考资料:
https://www.alphaxiv.org/abs/2505.10554
https://www.alphaxiv.org/overview/2505.10554
下一篇:俄罗斯遭遇重大袭击!