无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力
创始人
2025-06-02 14:06:28
0

新智元报道

编辑:peter东 英智

【新智元导读】新加坡国立大学等机构的研究者们通过元能力对齐的训练框架,模仿人类推理的心理学原理,将演绎、归纳与溯因能力融入模型训练。实验结果显示,这一方法不仅提升了模型在数学与编程任务上的性能,还展现出跨领域的可扩展性。

当AI试图破解数学、编程与科学的难题时,它常常像一位灵感乍现的天才,却又难以稳定发挥。

新加坡国立大学、清华大学和Salesforce AI Research的研究者,提出了一种革命性的训练框架——元能力对齐,赋予模型稳健的推理能力,让顿悟成为常态。

论文链接:https://arxiv.org/abs/2505.10554

他们提出了一项使大型推理模型的能力变得更加可控和可靠的训练方法,能够高效地系统化培养大模型的数学,编程和科学问题上的基本推理能力。

要理解其突破,需要知道何为啊哈时刻,这里指的是在使用纯强化学习训练大模型的时候,大模型偶然展现出的高级推理行为,如自我纠正、回溯和验证等。

DeepSeek-R1的成功表明,从预训练基础模型或指令微调模型开始,基于规则的纯强化学习能够自发地涌现出长链式思维推理、自我纠正、自我反思等高级行为。

然而,这些涌现行为的频率和一致性,却始终不可预测且无法控制,这就限制了大模型的推理能力的可扩展性和可靠性。

实验方法:模仿心理学,

让大模型稳定地涌现出推理能力

要想做到超越「顿悟时刻」就需要借助于心理学家皮尔斯提出的经典推理三元组,该理论指出人类的推理能力,可以分为三个组件间的组合,分别是假设,观察和规则,根据任意两个,可以得出第三个。

例如根据观察和假设,通过归纳得到可泛化的规则;而基于规则和假设,能根据演绎推断出未来可能的观察结果;至于基于规则和观察,得到假设的过程,称之为溯因。

图1:皮尔斯提出的推理元能力三元组

有了这样的分类,研究者据此构建了一个程序,能自动化生成上述三类推理的实例,用于大模型的训练,并对大模型输出的结果自动进行验证,程序生成的任务,是由常见数据组合而成,但又不再训练数据集中的,由此可训练模型的元推理能力。

例如,在演绎推理(H+R⇒O)中,模型被给定一组逻辑规则R和一个候选真值赋值H作为假设,必须验证整体观察结果O(即所有公式为真)是否成立。

而在归纳推理(H+O⇒R)中,模型被提供可观察项O和不完整输入H,必须抽象出底层生成规则R;在溯因推理(O+R⇒H)中,模型被给定观察结果O和一个规则图R ,必须反向追踪以恢复能够逻辑解释结论的最小隐藏假设集H。

下面是作者给出的一个训练数据的例子,以提示词及正确回复的方式出现。

每个训练实例由自动化生成器产生,并由验证器筛选,从而生成大规模、自我校验的训练数据,完全无需人工标注。

图2:模型训练的三阶段流程概述:对演绎、归纳和溯因专家进行对齐,在参数空间中合并它们,并持续使用强化学习训练统一模型到下游领域

具体来看,该架构下的大模型,可视为一个类似混合专家模型的架构,每类专家拿到的训练数据后,先各自提升自己的能力,演绎推理的「专家」,会在训练后产生假设生成、逻辑推论传播、经验一致性检测和纠错。

归纳专家增强了模型在抽象和泛化方面的基本能力;而溯因专家从目标开始,以假设最小支持性为前提,对照已知事实,高效地进行目标导向的假设形成、验证和修订的重复循环,相当于对因果图进行剪枝。

这些能力是跨领域进行稳健推理的必要组成部分。

之后研究者会后通过参数空间融合,将这些专家合并,然后在数学,编程和社交互动这三种场景上分别使用强化学习训练专家模型(称之为Domain-RL-Meta特定领域元强化学习),之后再对训练好的模型进行融合。

这种训练方法,被称为元能力对齐。

实验结果

高效且可扩展的训练方式

对于上述三类任务,该研究对问题难度进行了分级,并采用循序渐进的学习策略,从易到难逐级训练模型。

按照这个计划,7B模型在2级问题时性能收敛,并且在使用更高级别的训练数据集时,不再提升性能,32B模型偶尔受益于3级难度的训练数据,但奖励曲线不稳定,因此该研究中也没有采用。

研究者在训练过程中,对于7B模型,每个任务每个级别实验200个实例,对于32B模型,每个任务每个级别适应2000个实例。

结果显示:相比指令微调基线(Qwen-2.5),基于元能力对齐的训练方法使模型在数学,编程和科学问题的7个模型从没有见过的基准测试上的准确率提高了10%以上,并通过特定领域强化学习获得进一步增益。

在7B和32B规模下,元能力对齐和合并的模型始终优于指令微调的基线模型,合并后的模型取得了最高增益。

在7B规模模型上,数学问题的平均分从基准的38.8%提升到Domain-RL-Meta的43.0%;而没有经过元能力对齐,只是进行特定领域的强化学习,训练后的表现只有41.2%。

参数量扩展至32B时,数学问题上的表现从46.9升至50.3(特定领域强化学习)再升至52.3(元能力对齐+特定领域强化学习),整体平均分从44.6升至47.4再升至48.8。

对比7B和32B参数量的提升,可看出元能力对齐带来的收益随模型规模增加而扩展,显著提升了各项任务的性能上限,尤其是在数学任务上,合并三种推理模式后,训练好的模型性能提升了11.1%。

表1:不同参数量下,适应元能力对齐训练的大模型在数学和编程问题上的性能

这说明该框架为在数学、编程和科学领域提升推理能力提供了一种可扩展、可推广且可控的方法,有助于构建可解释且鲁棒的推理模型。

这种模块化的训练方式,借鉴了混合专家模型,同时使用来自心理学对人类推理本质的洞见,让大模型的每个专家进行专业分工,擅长一种推理方式,从而能够用小数据集完成快速的性能提升。

这就如同学生学到了能驾驭各家功夫的小无相功后,能够在各种问题上游刃有余。

参考资料:

https://www.alphaxiv.org/abs/2505.10554

https://www.alphaxiv.org/overview/2505.10554

相关内容

热门资讯

榴莲价格“大跳水”!啥原因? 夏季是各类水果集中上市的季节,榴莲爱好者们最近有口福了,市场上榴莲价格出现了大幅下降,甚至“腰斩”的...
药都厚植文明沃土 近日,安徽省亳州市荣膺第七届全国文明城市称号。这座以中华药都、国家历史文化名城、中国优秀旅游城市闻名...
青岛今天晴到少云,市区最高气温... 青岛日报社/观海新闻6月4日讯 观海新闻“青岛气象”获悉,青岛市气象台4日06时发布:【青岛市区】今...
邂逅青春力量 绽放恒久魅力 转自:黑龙江日报 □杨桂华 本届哈洽会“新”意满满、活力四射,“首发经济”等新业态、新...
“1+6”政策体系推动云南农业...   本报讯 记者王琳报道 记者6月3日获悉,云南省财政厅近日联合相关部门出台以《推进农业保险创新发展...
Metals X 拟要约收购绿... 绿科科技国际(00195)及要约人Metals X Limited联合公布,于2024年10月23日...
社保扫码缴费更省心 转自:贵州日报 本报讯(记者 余昌旭)记者近日从省税务局获悉,社保费线下扫码缴费自5月上线以来,我省...
“安徽省最美科技工作者”刘东:...   中安在线 中安新闻客户端讯 5月26日,以“矢志创新发展 建设科技强国”为主题的2025年“全国...
金文洙宣布败选 向李在明表示祝... 转自:央视当地时间6月4日,韩国国民力量党总统候选人金文洙宣布败选,并向李在明表示祝贺。执政党国民力...
与马斯克Neuralink“扳... 成立不到5年,由两名90后创立的上海脑机接口公司“阶梯医疗”成为全球第二家进入注册临床阶段的侵入式脑...
商业航天迈向星辰大海 作为战略性新兴产业的重要组成部分,商业航天已连续两年被写入《政府工作报告》。当前,各地抢抓商业航天加...
科学家发现可能有类地生命的“超...   新华社电 浩瀚宇宙中,是否只有地球这样一颗有生命的星球?抱着这样的疑问,人类从未停止过寻找地外生...
管网工段的创新先锋 转自:黑龙江日报 □纪世强 本报记者 刘大泳 在时代的洪流中,每一位奋斗者都是自己故事...
定格时光 青春不散场 转自:黑龙江日报 3日,在哈尔滨工业大学,即将离开校园的毕业生们既有喜悦也有不舍,他们穿上学...
[报效祖国 建功西部]“贵州青... 转自:贵州日报 贵州日报天眼新闻记者 鲁毅“不用到处跑,在家就能申请住房补贴,只需在平台上完成认证、...
宁夏低空经济乘势起飞 图为未来之鹰(宁夏)睿宝航空体验中心。本报记者 杨开新摄 一段时间以来,低空经济成为不少地方培育产业...
王文涛部长会见世贸组织总干事伊... 6月3日,商务部部长王文涛在法国巴黎出席世贸组织小型部长会议期间,会见世贸组织总干事伊维拉,双方就全...
马斯克抨击特朗普的预算计划,称... 格隆汇6月4日|前美国政府效率部(DOGE)“顾问”马斯克在社交媒体平台上表示:“对不起,我实在受不...
安阳钢铁全资子公司新增一项10... (转自:快查一企业中标了)快查APP显示,安阳钢铁相关公司安阳钢铁建设有限责任公司于2025年6月3...
心理减压让考生轻装上阵 转自:贵州日报 郭元鹏随着2025年中高考临近,考生及家长的心理压力逐渐增大。为帮助青少年科学应对考...