苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著
创始人
2025-06-06 13:46:02
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

新智元报道

编辑:定慧

【新智元导读】苹果最新研究揭示大推理模型(LRM)在高复杂度任务中普遍「推理崩溃」:思考路径虽长,却常在关键时刻放弃。即便给予明确算法提示,模型亦无法稳定执行,暴露推理机制的局限性。

AI「思考」只是假象?

刚刚,一项来自苹果的重磅研究揭示了「大推理模型(LRM)」背后的惊人真相——这些看似聪明的模型,在面对稍复杂点的题目时,准确率居然会全面崩溃!

随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算——它们恰在最需要深入思考时选择了放弃!

这太违背直觉了,似乎Scaling Law在推理时完全失效了。

值得一提的是,论文作者中还有Samy Bengio,他也是图灵三巨头Yoshua Bengio的兄弟。

论文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

LRM模型因能「写出思考过程」而备受期待,被认为是AI推理能力跃升的关键。

DeepSeek-R1 模式的开源开启了LLM进化到LRM的进程

但研究人员通过可控游戏环境的系统实验证明:现有LRMs不仅在高复杂度任务上力不从心,甚至还展现出一种「反常的推理崩溃曲线」——题目越难,它们反而越不「努力」。

研究还通过在相同计算token预算下对比思考模型与普通模型,发现:

不同于大多数仅衡量最终性能的研究,这项最新研究分析了它们实际的推理轨迹——深入观察其冗长的「思考」过程。

三种不同的性能区间

与以往主要依赖数学问题来评估语言模型推理能力的研究不同,本研究引入了可控的解谜环境

这种环境可以精确调节问题的复杂度,同时保持逻辑过程的一致性,从而更严谨地分析模型的推理模式和局限性。

顶部的「LLM Response」部分表示研究设置了可以验证模型的最终答案和中间推理过程,从而能够更细致地分析模型的思维行为。

左下准确率和中间的回答长度表示:在任务复杂度较低时,不进行推理的模型表现得更准确,也更节省Token。

随着复杂度提升,具备推理能力的模型开始表现更好,但也消耗更多Token——直到复杂度超过某个临界点后,两类模型的表现都会迅速下降,同时推理过程变得更简短。

右下表示在成功解题的情况下,Claude 3.7 Thinking 通常会在任务复杂度低时较早找到正确答案,而在复杂度高时则更晚得出答案。

而在失败案例中,它往往会在一开始就陷入错误答案,之后继续浪费剩余的 Token 预算。这两种情况都暴露了推理过程中存在的效率问题。

数学和谜题环境

对思考型与非思考型模型在数学基准测试中的对比分析显示出模型的性能表现并不一致。

在MATH-500数据集上,两类模型的表现相近;但在AIME24和AIME25基准上,思考模型的表现明显更优。

此外,从AIME24到AIME25的性能下降也揭示出这些基准数据易受到数据污染问题的影响。

研究设置了四种谜题环境。

每列展示一个谜题从初始状态(顶部)、中间状态(中部)到目标状态(底部)的变化过程。

四个谜题分别是:汉诺塔(将圆盘在柱子间移动)、跳跳棋(交换不同颜色棋子的位置信息)、过河(将多个对象安全运送过河)、积木世界(重新排列积木的堆叠结构)。

在所有谜题环境中,不同复杂度问题下,思考型模型(Claude 3.7 Sonnet with thinking、DeepSeek-R1)与其非思考型对应模型(Claude 3.7 Sonnet、DeepSeek-V3)的准确率对比。

最明显的依然是,当问题复杂度突破一定阈值后,所有模型的准确率同时坍塌至0%!

实验和结果

上图为在tokens预算相同的情况下,思考型模型与非思考型模型在低、中、高三种复杂度谜题环境中的 pass@k表现对比。

结果显示:

推理模型的崩溃

上图表示推理模型在不同谜题环境中,准确率与思考token使用量随问题复杂度变化的趋势图。

随着复杂度上升,模型在一开始会投入更多思考token,准确率则逐渐下降;

但当复杂度达到某个临界点时,模型的推理能力开始崩溃——表现急剧下降,同时思考token的使用量也随之减少。

深入「思考模型内部」

左图与中图展示了在不同复杂度下,四种谜题中推理过程中间解的出现位置及其正确性。✓ 表示中间解正确,✗ 表示错误,阴影表示分布密度。

右图则显示了在不同复杂度下,汉诺塔谜题中解决方案的准确率随思考过程位置的变化情况。

结果显示:

未解之谜:推理模型的异常行为

如上图a和b所示,在汉诺塔游戏环境中,即便在提示中直接提供了解法算法,让模型只需按步骤执行,模型的表现仍未改善,推理崩溃的现象依然出现在大致相同的位置。

这一点非常值得注意,因为设计并找到一个解法通常比仅仅执行一个已知算法需要更多的计算(比如搜索与验证)。这一现象进一步突显了推理模型在「验证」以及按逻辑步骤解决问题方面的能力局限。

如图c和d所示,观察到Claude 3.7 Sonnet思考模型在不同环境中表现出明显不同的行为。

在汉诺塔环境中,当N=10时,模型通常直到大约第100步才会出现第一处错误;

而在过河环境中,同一个模型却只能正确地完成前4步,之后便无法继续生成有效解。

这种差异非常显著。

值得注意的是,当 N=5(即需要31步解)时,模型几乎可以完美解决汉诺塔问题;但在 N=3(仅需11步解)的过河谜题中,模型却完全失败。

这一现象很可能说明:在网络数据中,N>2 的过河问题案例非常稀少,因此大语言模型(LRMs)在训练中几乎没有见过或记住这类实例。

这项研究系统性地评估了大推理模型(LRMs),低复杂度下,标准LLM反而更稳;中等复杂度时,LRM暂时领先;可一旦问题变得复杂到一定程度——两者双双崩盘。

分析推理轨迹后,研究者发现模型在简单问题上「过度思考」,在复杂问题上则彻底罢工。

甚至连直接提供解题算法都救不了它们——比如汉诺塔问题,算法提示给到位了,模型却依然原地打转。

模型在汉诺塔中可连续操作100步不出错,到了过河问题里,却五步都撑不过去!

这背后的原因成谜,但无疑为后续探索AI推理极限打开了一个新的突破口。

眼下的LRM,距离「通用推理」这座大山,显然还有不少路要走。

参考资料:

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

相关内容

热门资讯

古人的消夏智慧 转自:团结报  □江 舟  当现代都市在空调嗡鸣中对抗酷暑时,回望千年烟尘,祖先们的消夏智慧令人惊叹...
收盘:美股周五收高 标普指数突... 查看最新行情   北京时间6月7日凌晨,美股周五收高,道指上...
沪滇情暖“六一” 心动公司为云... 在“沪滇协作”持续深化的大背景下,企业正积极投身帮扶山区教育一线。“六一”国际儿童节来临之际,心动网...
森特士兴集团股份有限公司关于召... 证券代码:603098 证券简称:森特股份 公告编号:2025-031森特士兴集团股份有限公司关于...
浙商中拓集团股份有限公司关于公... 证券代码:000906 证券简称:浙商中拓 公告编号:2025-41浙商中拓集团股份有限公司关于公...
无锡市太极实业股份有限公司第十... 证券代码:600667 证券简称:太极实业 公告编号:临2025-031无锡市太极实业股份有限公司...
好莱坞打头阵、国产片压轴 暑... 中经记者 张靖超 北京报道随着端午假期结束,电影暑期档也拉开帷幕。按照行业惯例,暑期档从每年6月1日...
广州汽车集团股份有限公司202... A股代码:601238 A股简称:广汽集团 H股代码:02238 H股简称:广汽集团 公告编号:临2...
起步股份有限公司关于完成工商变... 证券代码:603557 证券简称:ST起步 公告编号:2025-055起步股份有限公司关于完成工商变...
金圣叹的奇葩答题 转自:团结报  □刘琪瑞  又是一年高考季,千万学子怀揣梦想和希望,走进高考考场,迎接人生中重要的一...
晶科电力科技股份有限公司关于控... 证券代码:601778 证券简称:晶科科技 公告编号:2025-061晶科电力科技股份有限公司关于...
勿将传统中医药文化扭曲 转自:团结报  □苑广阔  随着大众健康意识的增强,近年来餐饮界刮起了一股“万物皆可配中药”的养生风...
洛阳钼业“换帅” 剑指国际化并... 转自:中国经营报中经记者 李哲 北京报道5月30日,洛阳钼业(603993.SH、03993.HK)...
上海皓元医药股份有限公司简式权... 上市公司名称:上海皓元医药股份有限公司股票上市地点:上海证券交易所股票简称:皓元医药股票代码:688...
钙钛矿投融资活跃 迈为股份募... 转自:中国经营网中经记者 张英英 吴可仲 北京报道近日,光伏设备龙头——迈为股份(300751.SZ...
中牧实业股份有限公司关于职工监... 股票代码:600195 股票简称:中牧股份 编号:临2025-016中牧实业股份有限公司关于职工监事...
张玉良再度连任董事长 千亿绿... 中经记者 方超 张家振 上海报道在执掌千亿房企“帅印”33年后,张玉良再度迎来新的任期。绿地控股集团...
华域汽车系统股份有限公司关于职... 证券代码:600741 证券简称:华域汽车 公告编号:临2025-016华域汽车系统股份有限公司关...
铁流股份有限公司关于回购注销部... 证券代码:603926 证券简称:铁流股份 公告编号:2025-025铁流股份有限公司关于回购注销...
稳楼市新政多地开花 “好房子... 中经记者 黄永旭 北京报道近期,多地密集出台楼市支持政策,从促进住房消费、支持人才购房、发放购房补贴...