8B模型任务击败GPT-5?阶跃星辰开源Deep Think新框架,小模型解锁百万Token测试时计算
创始人
2025-12-14 11:19:27

(来源:机器之心)

8B 模型在数学竞赛任务上超越 GPT-5!

阶跃星辰正式推出并行协同推理(PaCoRe, Parallel Coordinated Reasoning),这是一个全新的训练和推理框架,让大模型的能力不再受限于线性思维链的上下文窗口大小(Context Window)和处理速度,而是基于大规模并行协同的方式,让模型进行前所未有的广度和深度思考。

强大性能的 Gemini Deep Think 模式仅隐约透露其采用“并行思考”扩展测试时计算的思路;而 PaCoRe 以卓越的表现验证了大规模扩展测试时计算的有效性,并完整开源模型,训练数据,推理管线从而加速该领域的研究与创新。

基于该框架,小模型亦能解锁百万级 Token 测试时计算(Test-Time Compute)。

经过大规模、基于结果的强化学习(Outcome-based RL)训练,阶跃星辰研究团队的 PaCoRe-8B 模型掌握了综合发散性推理轨迹的能力。在 HMMT 2025 数学基准测试中,它取得了 94.5 的高分,一举超越了 GPT-5 的 93.2 分。这一成绩的取得,得益于模型在解决单个问题时,能够有效利用高达两百万 Token 的计算量。

长程推理是人类智力皇冠上的明珠。正如人类需要数月甚至数年的专注思考来攻克最棘手的难题,通用人工智能(AGI)也必须在推理阶段大幅扩展其计算规模,PaCoRe的研究进展标志着在这个方向上迈出了坚实的一步。

  • 论文链接:https://github.com/stepfun-ai/PaCoRe/blob/main/pacore_report.pdf

  • GitHub:https://github.com/stepfun-ai/PaCoRe

  • Hugging Face:https://huggingface.co/stepfun-ai/PaCoRe-8B

PaCoRe 框架

标准的思维链(Chain-of-Thought)推理与上下文容量是强耦合的:一旦窗口填满,推理就必须停止。PaCoRe 通过将推理的主要驱动力从 “串行深度” 转移到 “并行协同的广度”,成功解耦了这种关系。

图 1:并行协同推理(PaCoRe)的性能表现。

左图: 在 HMMT 2025 上,PaCoRe-8B 展示了惊人的测试时扩展(Test-Time Scaling)能力。通过增加并行轨迹(Parallel Trajectories)和协同轮次(Coordinated Rounds),性能稳步提升,最终超越了 GPT-5。右图: 在 LiveCodeBench 上,普通的 RLVR-8B 模型无法利用增加的测试时计算量,而 PaCoRe 有效地解锁了这种综合能力,随着计算量的增加带来了显著的性能提升。

推理机制 (Inference)

图 2:PaCoRe 的推理流程。

每一轮推理都会启动广泛的并行探索,将生成的轨迹压缩为精简的消息(Compacted Messages),并将这些消息与原始问题一起输入模型,以协同下一轮的推理。重复此过程 次,即可在遵守固定上下文限制的同时,产生数百万 Token 的有效测试时计算量(Effective TTC),最终的压缩消息即为系统的答案。

PaCoRe 的核心是一个按轮次运行的迭代消息传递架构。其工作流程如下:

1. 综合与并行探索 (Synthesis & Parallel Exploration): 在第 r 轮中,模型  接收来自上一轮的一组精简消息 个独立的推理轨迹

。随后,它并行启动

2. 消息压缩(Message Compaction): 为了不突破上下文窗口的限制,我们不能将所有原始轨迹反馈回模型。相反,我们应用一个压缩函数  去除

的中间推导过程,仅保留最终结论,形成新的消息集

3. 迭代协同 (Iterative Coordination): 这些精简消息成为下一轮的上下文,使模型能够在多次迭代中修正理解、发现共识并纠正错误。为了确保收敛,最后一轮仅使用单一轨迹,生成最终的精简消息作为 PaCoRe 推理流水线的输出。

这种循环机制使得系统能够将 “有效测试时计算量(Effective TTC)”—— 即所有轨迹的 Token 总和 —— 扩展到远远超出模型物理上下文窗口限制的程度。

训练方法 (Training)

实现这一框架的主要挑战在于将模型从 简单聚合和 孤立推理 转移为主动合作。未经训练的推理模型常常在具有简单解结构的问题上使用诸如多数表决这样的简单规则,而在更加多样解的问题上,模型常常展现出 孤立推理 的现象:尽管在上下文中接收到了来自并行分支的丰富见解,但模型往往会忽略它们,试图从头开始重新解决问题。

为了克服这一问题,研究团队将综合阶段视为一个情景式强化学习环境。我们采用大规模、基于结果的 RL 来教会模型 推理综合 (Reasoning Synthesis) 能力:即审查并行分支、调和相互冲突的证据并提炼出统一解决方案的能力。

通过过滤训练数据,排除那些仅靠启发式规则就能解决的简单问题,我们迫使模型发展出真正的综合能力,将其从一个孤立的求解者转变为一个高效的协同者。

图 3:PaCoRe 训练动力学。

左图: 训练奖励(Reward)和响应长度(Response Length)稳步增加,证明了训练的稳定性和有效性。右图: 在 HMMT2025 和 LiveCodeBench (2408-2505) 上的评估。性能报告基于 PaCoRe 推理设置中的单轮协同推理,参数为

实验结果

研究团队将 PaCoRe-8B(初始化自基于 Qwen3-8B-Base 的内部后训练模型)与当前最具代表性的前沿推理模型进行了对比评估。

前沿级的性能表现

结果表明,并行协同机制使 8B 模型能够通过大规模扩展 TTC,获得远超标准解码限制的显著收益,在一些最复杂的数学和代码基准测试中超越了最先进的系统。

  • 数学 (HMMT2025): 在我们的高算力投入模式(High, )下,PaCoRe-8B 达到了 94.5% 的得分。这超过了领先的专有模型 GPT-5 的 93.2%。这一结果是通过将有效 TTC 扩展到每个问题约 200 万 Token 实现的。

  • 代码 (LiveCodeBench 2408-2505): 模型达到了 78.2%,与 GLM-4.6 和 Kimi-K2-Thinking 等大得多的前沿模型保持了竞争力。

“综合” 能力的涌现

图 4:训练过程中模型输出中 “综合” 相关语言特征的演变。

研究团队绘制了 PaCoRe 训练期间,数学和代码任务生成解决方案中 “交叉检查” 类词汇(包括 'reference', ' 参考 ', 'Ref ', 'ref ')的频率。训练在这两个领域都激发并放大了这种综合能力。值得注意的是,模型最初在代码任务上很少进行交叉检查,这佐证了图 1 中代码任务在 PaCoRe 训练前测试时扩展性差的现象。

研究团队通过追踪训练过程中 “交叉检查”(cross-checking)语言标记的普遍性来探究 PaCoRe 的底层机制。如上图所示,基于结果的强化学习推动了这种行为在两个领域的稳步上升。模型显式地学会了引用同伴的消息(Referencing peer messages),这种行为在未经 PaCoRe 训练的模型中几乎不存在。这证实了 RL 根本性地改变了推理动态,使模型能够有效地利用大规模并行计算。

训练数据的通用有效性

除了框架本身,研究团队还发现为 PaCoRe 构建的训练语料库是一种密度极高的学习资源。经验观察表明,将我们发布的数据集作为标准 RLVR 的主要基底,也能带来稳健的性能提升。这表明我们的问题集 —— 经过精心筛选以要求真正的综合能力 —— 是训练通用强推理模型的高效催化剂。

结论与未来方向

PaCoRe 建立了一条通往大规模测试时扩展(Test-Time Scaling)的无限路径。通过围绕 “并行协同” 构建推理架构并针对 “综合能力” 进行训练,研究团队以将测试时计算扩展到数百万 Token,从而允许较小的开放权重模型在复杂任务上超越专有的前沿系统。

阶跃星辰团队将发布模型权重、训练数据和推理代码,以加速社区的研究。

展望未来,团队将 PaCoRe 视为通向以下更大目标的基础性一步:

1. 扩展极限 (Scaling the Extremes): 计划将 PaCoRe 应用于更强大的基础模型,扩展任务领域,并进一步扩大广度(并行轨迹)和深度(协同轮次),以攻克目前被认为无法解决的挑战。

2. 提升 Token 智能密度 (Boosting Token Intelligence Density): 虽然目前通过 “量” 来扩展,但研究团队的目标是最大化每一个计算单元的效用。这包括通过更好的组织、合作和轨迹间的劳动分工,实现更高效的并行探索。

3. 涌现多智能体智能 (Emergent Multi-Agent Intelligence): 研究团队有兴趣探索综合策略(Synthesis Policy)与消息传递机制的联合训练,构建一个极简却丰富的协作多智能体学习环境,这将是研究涌现式沟通、自组织和群体智能的宝贵试验场。

4. 衔接预训练与后训练的 “衔尾蛇” (Ouroboros): 研究团队打算利用 PaCoRe 流程开发先进的合成数据生成技术,以反哺并改进当前的预训练和后训练过程,形成良性循环。

相关内容

热门资讯

全球媒体聚焦|外媒分析中国取得... 欧洲《现代外交》网站发表题为《中国经济在五年发展后的现状如何?——评估其增长动力与未来趋势》的署名文...
百诚医药:员工战略配售资管计划... 转自:证券时报人民财讯12月14日电,百诚医药(301096)12月14日公告,持有公司1.0425...
泰国陆军:目前不存在停火安排 本文转自【新华网】;新华社曼谷12月14日电(记者常天童 陈倩慈)泰国陆军14日谴责柬埔寨袭击四色菊...
顺灏股份:现有业务未与轨道辰光... 顺灏股份12月14日发布公告,公司股票于2025年12月10日、12月11日、12月12日连续3个交...
中国洲际弹道导弹排名,中国洲际...   评价:翻新后速度达到每小时15000公里   这次发射也是经过翻新的MK21装备和引信组件的首次...