打破思维链推理瓶颈!“软推理”让大模型学会人类抽象能力
创始人
2025-05-24 13:16:08
0

不再像CoT(“思维链”)一样“一个字一个字往外蹦”,加上“软思维”就能让大模型像人类一样进行抽象思考。

来自SimularAI和微软DeepSpeed的研究员联合提出了Soft Thinking,让模型在连续的概念空间中进行 “软推理”,而非局限于离散的语言符号,打破了基于离散token的推理瓶颈。

相比标准CoT,Soft Thinking最高提升Pass@1平均准确率2.48%、减少token使用量22.4%。

并且,Soft Thinking是一种即插即用的推理策略,无需额外训练即可应用于现有模型(如Llama、Qwen)。

目前主流的语言模型推理方法存在一个关键问题:只能逐字生成离散的语言符号(如单词或子词)

这就好比思考时只能一个字一个字的蹦出来,不仅限制了模型表达抽象概念的能力,还容易在复杂问题中因“单一路径选择”而犯错。

人类大脑思考时并非依赖明确的语言符号,而是通过抽象概念的灵活整合进行推理。

Soft Thinking正是受此启发,将语言模型的推理从“离散符号空间”拓展到“连续概念空间”。

这样,模型就可以捕捉到介于仅有细微差别的语义之间的概念,能够更灵活地探索多种解题路径,同时保持高效和可解释性。

有网友表示:这种方法解决了自回归“贪婪”的next token搜索问题。

Soft Thinking仅修改传统CoT的中间推理阶段,保留最终答案的离散生成(如数学题的数字答案或代码的具体语句)。

Soft Thinking的理论本质是线性近似替代路径枚举

解复杂问题时,传统CoT的推理路径数量随步骤呈指数级增长(如每步选1000个token,3步就有1000^3种路径),无法显式枚举。

Soft Thinking通过线性化近似,将指数级路径求和简化为概念token的加权计算。

概率加权替代离散采样,通过连续概念空间中的线性变换,隐式聚合多条路径的信息,避免显式枚举的计算爆炸。

传统方法每次生成一个确定的token(如 “30”“加”),而Soft Thinking生成一个概率分布(如 “30” 的概率40%,“乘以” 的概率30%,“分解” 的概率20%等),这个分布被称为 “概念token”。

每个概念token相当于多个可能符号的 “混合体”,允许模型同时保留多种推理可能性

如下图中的例子,在计算“43×34”时,模型可能同时考虑“分解34为30+4”和“直接相乘”两种路径的概率,而非只选其一。

通过将概念token的概率分布与模型的词向量(Token Embedding)加权结合,形成连续的概念空间。

这里的 “连续” 意味着模型可以在不同概念之间平滑过渡,例如从“分解数字”自然过渡到“乘法运算”,而无需用明确的语言符号分隔步骤。

由于模型在训练中没见过概念token(属于 “分布外” 输入),长时间推理可能导致陷入重复或混乱(类似人类思维的 “卡壳”)。

Soft Thinking引入了一个“Cold Stop”机制:通过监测概率分布的熵值判断模型的 “自信程度”。

当熵值持续较低时(表明模型对当前推理路径很确定),提前终止中间步骤,直接生成答案,避免浪费计算资源。

在基准测试里,QwQ - 32B模型的平均Pass@1准确率从标准CoT的83.84%提升至86.32%,最高提升2.48%,其中在AIME 2024数据集上提升6.45%。

推理效率方面,DeepSeek-R1-Distill-Qwen-32B在数学任务中token使用量减少22.4%。

Soft Thinking通过连续概念空间推理和Cold Stop机制智能平衡了效率与准确性,为大模型优化提供了新思路。

感兴趣的朋友可以到官方了解更多细节。

官方网站:https://soft-thinking.github.io/

论文地址:https://arxiv.org/abs/2505.15778

代码地址:https://github.com/eric-ai-lab/Soft-Thinking

参考链接:https://x.com/xwang_lk/status/1925399783503798692

相关内容

热门资讯

入境旅游热度攀升 外国游客在江... 转自:荔枝新闻今年以来,江苏入境旅游热度不断攀升,持续圈粉境外游客。同时,江苏各地的人文风光、特色活...
锐评|哈佛、苹果、欧盟排队挨刀... 转自:北京日报客户端禁止哈佛大学招收国际学生,在校的也必须转学;勒令苹果将iPhone生产线迁回美国...
每月议事解民忧!雄安新区启动区... ​5月17日,雄安新区启动区首个“疏解议事会”启动仪式在易安社区党群服务中心举行。成立疏解议事会,是...
“拾”级而上,与美同行!南京致... 转自:扬子晚报十岁,是成长路上重要的里程碑,是拥抱成长的起点。5月23日,致远外国语小学分校三年级师...
2025公募基金荣誉榜:富国基...   5月24日,Hehson财经主办的2025基金高质量发展大会在深圳举行。监管层、专家学者、基金领...
官方通报人在ICU写欠条法院判... #江西赣州通报法院重大错误判决#【#官方通报人在ICU写欠条法院判还钱#】近日,有网民反映江西赣州“...
两人爬山时发现598枚金币重达... 新华社消息,两名登山者在捷克东北部地区爬山时,意外发现一箱财宝,其中包括598枚金币、金首饰以及日用...
梧州特产摆上“世界货架”丨梧州... 转自:梧州发布今年以来,梧州市不断落实落细各种便利举措,靠前服务指导生产经营企业提高技贸合规水平,疏...
江苏省首例!肉厂经营者拒交70... 转自:荔枝新闻大家都知道,拒不执行法院的生效判决、裁定会构成拒执罪。那么,行政机关作出的罚款处罚,如...
第四届中国—中东欧国家博览会亮... 第四届中国—中东欧国家博览会“数智中东欧”展区展出的多发混合动力飞机,该机由奥地利钻石飞机公司研发。...
百师聚镇共绘技工教育新图景 省... 转自:扬子晚报扬子晚报网5月24日讯(通讯员 赵晨希 袁梦 吴晓雪 记者 万凌云)5月20日-23日...
工厂拖欠放火男子800元工资系... #警方通报27岁男子纺织厂放火#【#工厂拖欠放火男子800元工资系谣言#】5月23日,四川省宜宾市屏...
2025公募基金荣誉榜:易方达...   5月24日,Hehson财经主办的2025基金高质量发展大会在深圳举行。监管层、专家学者、基金领...
喜报!梧州这些县域、村镇、单位... 转自:梧州发布5月23日,全国精神文明建设表彰大会在北京召开。第七届全国文明城市、文明村镇、文明单位...
上海国际航运金融大厦更新:激活... 裙房改建商场,作为社区商业,会怎样?上海正积极推进全市商务楼宇的更新提升工作,已经形成了10个试点单...
浮动费率怎么个“浮”法? CFIC导读◆本轮改革效果如何仍然取决于主动管理的公募基金产品未来能否真正给基民创造价值,重塑基民对...
连续4天!“福州好房子 五月直... “福州好房子 五月直播 GO”即将震撼开启!这将是连续 4 天的房产盛宴。在这 4 天里,福州的优质...
紫牛热点∣属比赛中正常碰撞,小... 转自:扬子晚报在一场儿童足球赛中,两名小球员在抢球中意外相撞,致其中一方眼睑受伤。5月22日,广东佛...
官方通报:一审错判,将追责问责... 近日,有网民反映江西赣州“人躺在ICU居然写下欠条法院判还钱”一事引发关注。5月23日晚,赣州市中级...
“家门口”的全民健身跑 转自:上观新闻5月24日,2025全国体育文化宣传推广活动暨美丽中国·全民健身跑活动在金山区枫泾镇白...