告别过度思考:浙江大学开发自制动力训练让大型语言模型高效推理
创始人
2025-05-28 12:32:45
0

在人工智能迅猛发展的今天,大型语言模型(LLMs)在数学和逻辑推理能力上取得了长足进步。2025年5月,来自浙江大学、天津大学和微软亚洲研究院的研究团队,由赵浩然、严宇辰、沈永亮等人组成的团队,在arXiv预印本平台发布了一篇题为《Let LLMs Break Free from Overthinking via Self-Braking Tuning》的研究论文。这项研究主要解决了大型推理模型在思考过程中的一个常见问题:过度思考(overthinking)。研究团队开发的"自制动力训练"(Self-Braking Tuning,简称SBT)方法,可以让人工智能模型像人类一样,在达到足够确定性时自然终止思考过程,而不是继续进行冗余计算。有兴趣深入了解的读者可以通过他们的GitHub项目页面(https://github.com/ZJU-REAL/Self-Braking-Tuning)获取更多信息。

智能体也会"想太多":推理模型的效率困境

想象一下,你正在解决一道简单的数学题,比如"2加3等于多少"。作为人类,你可能只需几秒钟就能回答"5",然后停止思考这个问题。但今天的大型语言模型(LLMs)却可能会继续"思考":它可能会重新检查答案,尝试其他计算方法,甚至质疑自己是否理解了问题,生成数百甚至上千个词的冗长推理过程。

这种现象被研究人员称为"过度思考"(overthinking)。近年来,像OpenAI的o1、DeepSeek-R1、QwQ等先进的大型推理模型(LRMs)通过生成详细的多步推理过程,显著提高了在复杂任务上的准确性。然而,这种进步伴随着一个显著的代价:推理过程变得极其冗长,一个问题常常消耗数千个标记(tokens),导致计算成本增加、延迟加长,以及充斥着冗余推理步骤的输出,有时甚至会掩盖核心解决方案。

浙江大学的研究团队发现,在解决数学问题时,这些模型通常会在推理过程的早期就得出正确答案,但它们仍会继续生成额外的解决方案尝试,进行重复验证和不必要的计算。例如,在AIME(美国数学邀请赛)级别的问题上,模型可能会使用超过7,000个标记,而实际上只有一小部分是产生答案所必需的。

现有的解决方法主要依赖外部干预:模型优化(通过强化学习或监督微调)、推理输出优化(动态减少推理步骤数量)或添加外部限制(如标记预算)。这些方法通常依赖复杂的优化策略或引入额外的约束机制,而没有充分探索模型自身缓解过度思考的能力。

像人类一样"适可而止":自制动力训练的创新方法

浙江大学团队的核心洞察是:大型语言模型可以被训练开发出一种"内部制动机制",让它们能够识别什么时候进一步的推理变得无效,从而自然地结束思考过程并过渡到最终解决方案的制定,就像人类在达到足够确定性时自然地结束推理一样。

这项名为"自制动力训练"(Self-Braking Tuning,简称SBT)的新方法,从根本上重塑了模型感知和调节自己推理过程的方式。与以往依赖外部约束的方法不同,SBT培养了模型内在的自我调节能力。

想象一下教导一个学生解决数学问题。传统方法就像是老师不断提醒学生:"时间到了,该停止思考了"或"你已经用了太多步骤,请直接给出答案"。而SBT方法更像是教导学生自己判断:"如果我已经通过两种方法得到了相同的答案,并且我很确定这是正确的,那么我应该停止思考并提供最终答案。"

研究团队首先开发了一套系统方法来识别推理轨迹中的过度思考模式。通过分析DeepSeek-R1等先进模型的推理过程,他们发现这些过程通常包含两部分:

1. 基础解决方案(Foundation Solution):在推理过程开始部分的第一个解决方案,模型理解问题后,逐步进行解决。 2. 演化解决方案(Evolution Solution):出现在模型推理过程后期的解决方案,通常伴随着"等等"、"另外"或"然而"等提示词,主要是对基础解决方案的反思、改进或总结。

研究团队通过统计发现,在不同难度的数学问题上,演化解决方案部分占据了总推理标记的41%到71%,这部分通常包含大量冗余计算。

为了量化过度思考,研究者提出了两个互补指标:

1. 推理效率比率(Reasoning Efficiency Ratio):计算达到第一个正确答案所需的步骤与总思考步骤的比率。比率越接近1表示推理越有效率,越接近0表示存在大量过度思考。 2. 过度思考标记比率(Overthinking Marker Ratio):通过识别与过度思考相关的语言标记(如"等等"、"让我再检查一下"等)来量化过度思考的语言特征。

基于这些指标,研究团队开发了一个综合评分机制(Overthink Score),将这两个指标以90:10的权重结合,用于判断推理过程中哪些部分是有效的,哪些部分是冗余的。

教会模型何时停止思考:数据构建与训练策略

基于过度思考识别框架,研究团队开发了两种互补的数据构建策略,用于训练模型自主终止冗余推理:

1. 自制动力训练精确版(SBT-E):对每个展示过度思考的推理轨迹,保留基础解决方案加上一个演化解决方案,然后添加一小段被屏蔽的后续推理。这种结构化方法确保模型学习到必要推理和过度计算之间的清晰边界。

2. 自制动力训练动态版(SBT-D):采用更加细粒度的自适应策略,根据每个问题的特点定制推理长度。它逐步分析每个推理步骤,重新计算过度思考分数,直到分数超过预设阈值(设为0.2),允许复杂问题保留更多步骤,简单问题更早终止。

就像教导司机何时踩刹车一样,这两种方法使用不同的学习策略:SBT-E更像是在固定位置安装减速标志,而SBT-D则更像是根据道路条件动态判断何时减速。

研究团队基于OpenR1-Math高质量推理轨迹数据集,构建了两个专门的训练数据集:OpenR1-Math-SBT-E和OpenR1-Math-SBT-D,每个包含92,064个示例。

为了增强模型对其推理状态的自我意识,研究者还引入了两个创新机制:

1. 屏蔽冗余思考:虽然SBT-E和SBT-D都识别最佳截断点,但简单切断推理并不能帮助模型学习检测过度思考。相反,研究者保留了一小部分冗余推理,并应用损失屏蔽(loss masking)以防止其影响训练。这种方法让模型接触到过度思考模式,但不会强化这些模式。

2. 自然语言制动信号:在推理停止点添加明确的自然语言提示,如"等等,我已经得到相同答案多次,是时候结束思考了"。这些制动信号作为停止决策的语言锚点,与模型的能力自然匹配,提供明确的元认知提示,同时保持推理流畅。

这种方法就像教一个学生自己判断:"我已经检查了两次,得到了相同的答案,现在我可以确信这是正确的,不需要继续思考了。"

显著减少标记消耗,保持推理准确性

研究团队在多个数学推理基准测试上进行了广泛实验,评估自制动力训练的有效性。测试涵盖不同难度级别的数学问题:AIME(高难度代数问题)、AMC23(大学前数学)、MATH500(多样化数学问题)和GSM8K(小学数学文字问题)。

实验结果令人印象深刻:经过自制动力训练的模型在保持与基线模型相当的准确率的同时,显著减少了标记消耗。对于Qwen2.5-Math-7B-Instruct模型,SBT-E和SBT-D分别减少了30.7%和23.0%的标记使用量,准确率仅下降2.65%和1.95%。更令人惊讶的是,当应用于Llama-3.1-8B-Instruct模型时,SBT-E减少了62.8%的标记消耗,同时保持了94.1%的基线准确率。

这就像一位学生在解题时学会了更加高效:他们不再写下每一个思考步骤和多次验证,而是在确信答案后直接给出结论,既节省了时间也避免了不必要的工作。

研究者还发现,SBT的效率提升因模型类型而异。对于通用模型(如Llama系列),较大模型获益更多——标记减少从1B模型的54.2%提升到8B模型的62.8%。而在数学专业模型中,较大模型的收益反而较小(7B为30.7%对比1.5B的48.9%),这表明专业模型已经具有更加专注和高效的推理能力,进一步压缩的空间较小。

SBT-E和SBT-D两种方法也展现出不同的性能特点。SBT-E通常实现更大的标记减少(所有模型平均48.3%,相比SBT-D的43.9%),但准确率下降略多。SBT-D表现更加平衡,特别是在最具挑战性的AIME和MATH500基准测试上。值得注意的是,对于Llama-3.1-8B模型,SBT-D在MATH500上实际提高了2.62%的准确率,同时减少了58.7%的标记,这表明动态截断可能不仅消除冗余推理,在某些情况下还可能消除潜在有害的过度思考。

深入分析:影响自制动力训练效果的关键因素

研究团队进行了深入分析,探索了影响自制动力训练效果的几个关键因素:

1. 过度思考阈值的影响:研究者实验了0.2、0.3和0.4三个阈值,分别将约60%、50%和40%的样本归类为过度思考案例。结果显示,0.2阈值为SBT-E提供了最佳性能,在标记减少(比基线少49%)和准确率保持(基线的97.4%)之间取得了最佳平衡。这一发现揭示了一个关键洞察:积极的过度思考识别(较低阈值)带来更显著的效率提升,同时不会导致相应的准确率损失,这表明LRM中的大部分推理确实是冗余的,可以在不影响问题解决能力的情况下被消除。

2. 保留推理与冗余屏蔽的权衡:研究者调查了不同配置的保留(未屏蔽)和屏蔽内容的组合,以了解这种平衡。结果显示,保留两个完整解决方案同时仅屏蔽少量额外句子产生最佳性能,减少49%的标记同时保持97.4%的基线准确率。这一发现提供了两个关键洞察:首先,解决方案重复作为自然终止信号:当模型两次得出相同答案时,它学会这是结束推理的强烈指示;其次,保留推理和屏蔽内容之间存在反比关系:保留更多推理(两个解决方案)时,最佳配置需要较少的屏蔽内容;保留较少推理(一个解决方案)时,更多的屏蔽内容表现更好。

3. 步骤级别与标记级别过度思考检测的比较:研究团队比较了基于推理步骤和基于标记的两种过度思考检测方法。结果表明,步骤级别检测在所有数据集上都实现了更低的标记使用量,同时保持更高的准确率。这证实了研究者的假设:当保持完整逻辑单元时,推理连贯性更好地得到保持。标记级别截断虽然更加精细,但可能打破逻辑推理单元,潜在创造出不连贯或不完整的思考模式,这些模式对模型来说更难学习或有效复制。

4. 自然语言指导与特殊标记指导的比较:研究者比较了两种信号推理终止的机制:自然语言指导(使用"我已经验证了我的答案,不需要继续..."等顿悟句)和特殊标记方法(使用作为显式控制信号)。结果显示,自然语言指导表现更优,在实现同等准确率的同时使用明显更少的标记(1682对比1797)。这表明嵌入在自然语言中的元认知自我反思提供了比显式控制标记更有效的学习信号。

这些发现表明,自制动力训练不仅仅是一种技术改进,它代表了一种根本性的转变:从外部控制模型行为转向培养模型的内在能力,使其能够判断何时应该停止推理。

结语:更智能、更高效的人工智能推理

归根结底,浙江大学研究团队开发的自制动力训练(SBT)框架代表了解决大型语言模型过度思考问题的一种全新方法。不同于传统上依赖外部干预的策略,SBT从根本上重塑了模型对其推理过程的感知和调节方式,使模型能够自然地识别过度思考并在适当时候终止推理。

就像人类在解决问题时会自然地知道何时停止思考一样,经过SBT训练的模型学会了在达到足够确定性时"放手"。这种能力在不牺牲准确性的情况下,显著提高了计算效率,在测试基准上减少了30%到60%的标记消耗。

这项研究的意义远超简单的效率提升。它向我们展示了AI系统可以更像人类那样工作的可能性——既能进行深度思考,又不会陷入无休止的分析瘫痪。这对于部署在资源受限环境中的AI系统特别重要,也对未来发展更具元认知能力的AI模型提供了重要启示。

对于我们日常使用AI的普通人来说,这意味着更快的响应时间、更低的使用成本,以及更加简洁明了的答案。想象一下,当你向AI助手询问一个数学问题时,它能够快速给出正确答案,而不是生成长达数千字的冗长推理,这无疑会带来更好的用户体验。

研究团队也坦承,尽管SBT取得了显著成功,但仍存在局限性。当前研究主要聚焦于数学推理任务,未来需要扩展到开放式、常识性、逻辑性或多模态推理领域;同时,为了适应不同任务和领域的特点,过度思考检测的阈值参数可能需要手动调整,这限制了方法的动态适应性。

随着大型语言模型继续发展,我们可以期待更多像SBT这样的创新方法,使AI系统不仅更加智能,还能更加高效和自我调节。正如研究者所表明的,有时候,让AI知道何时停止思考,与教它如何思考同样重要。

有兴趣深入了解这项研究的读者可以访问研究团队的GitHub项目页面:https://github.com/ZJU-REAL/Self-Braking-Tuning 或项目网站:https://ZJU-REAL.github.io/SBT,获取更多详细信息和代码实现。

相关内容

热门资讯

金岭矿业1.84亿转让子公司,... 来源:泰山财经泰山财经实习记者 郑旭雯 记者 李迪5月29日,塔什库尔干县金钢矿业有限责任公司(下称...
爱玛科技副总王春彦去年薪酬15... 运营商财经网 于航/文近日,爱玛科技公布了2024年财报,并随之公布了公司高管的薪酬,其中副总王春...
德乌签署57亿美元协议!德总理... 每经编辑|张锦河     据央视新闻,当地时间5月29日,乌克兰驻德国大使馆在其官...
青云科技:关于公司核心技术人员...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 北京青云科技集团股份...
教授称政府正削弱美国科研交流地... 来源:@究竟视频微博 #多个学术会议撤离美国#【#教授称政府正削弱美国科研交流地位#】英国诺丁...
*ST龙宇:徐增增辞任董事长、... *ST龙宇(维权)5月29日公告,公司董事长徐增增因个人及身体原因,申请辞去公司董事长、董事等职务,...
敦化森林公安联动执法 筑牢生态... 近日,为严厉打击非法盗伐林木违法犯罪行为,切实维护森林资源安全和生态环境稳定,吉林省敦化森林公安分局...
形成抗旱救灾合力 保障粮食生产... 转自:扬子晚报现场扬子晚报网5月29日讯(通讯员 王燕 记者 万凌云) 今年以来,丹阳市遭遇持续干旱...
尤夫股份新增“昨日涨停”概念 2025年5月29日,尤夫股份(sz002427)新增“昨日涨停”概念。根据喜娜AI概念解读,202...
2025年5月29日外交部发言... 总台央视记者:第三次中国—太平洋岛国外长会昨天在厦门举行。发言人能否介绍会议具体情况和成果?中方如何...
数据:美国政府持有约 204 ... 据《华盛顿邮报》报道,美国总统特朗普于 3 月签署行政命令,指示财政部建立“战略比特币储备”和“美国...
朱雪冰任新疆生产建设兵团副政委 国务院任免国家工作人员。任命郭彩云(女)为审计署副审计长;任命王军为海关总署副署长;任命蔡自力为国家...
均瑶健康连续2个交易日收盘价格... 5月29日,均瑶健康(605388)发布公告,公司股票在2025年5月28日和29日连续2个交易日,...
中国—上海合作组织人工智能合作... 转自:天津发布本报讯(记者 米哲 于春沣 周志强 刘国栋)5月29日,中国—上海合作组织人工智能合作...
合肥地铁,还有这些服务? 谁说地铁只能通勤赶路?干洗、剪发、寄快递、共享化妆间、图书借阅……当轨道与生活无缝对接,合肥地铁从硬...
生物股份在内蒙古投资成立臻味餐... 人民财讯5月29日电,企查查APP显示,近日,内蒙古金堃臻味餐饮有限公司成立,法定代表人为刘晶,经营...
旱情能否缓解?哪些灾害性天气需... 转自:中工网新华社北京5月29日电新华社记者刘诗平目前,全国农业生产已进入“三夏”大忙季节。进入6月...
滨江集团:拟使用不超过100亿... 转自:贝壳财经新京报贝壳财经讯 5月29日,杭州滨江房产集团股份有限公司(简称“滨江集团”)披露,为...
主力资金 | 数字货币龙头尾盘... 11股获主力资金净流入均超3亿元。今日(5月29日),A股三大指数集体收涨,市场成交额达到12134...
深桑达A(000032.SZ)... 格隆汇5月29日丨深桑达A(000032.SZ)公布,公司董事会于近日收到公司董事长司云聪先生,董事...