炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:智东西)
智东西
作者 李水青
编辑 心缘
智东西11月17 日报道,今日,DeepSeek开源了“奥数金牌级”模型DeepSeekMath-V2,该模型具备强大的定理证明能力。
DeepSeekMath-V2在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)上取得了金牌水平的成绩;并在2024年普特南大学生数学竞赛(Putnam 2024)上取得了接近满分(118/120分)的成绩,超过人类最高的90分成绩。
如下图所示,DeepSeekMath-V2以10%的优势击败谷歌的IMO金奖得主DeepThink模型。
▲DeepSeekMath-V2在数学竞赛中的成绩表现
▲DeepSeekMath-V2在IMO-ProofBench的测评结果上述结果表明,自验证数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。
Hugging Face地址:
https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
论文地址:
https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf
按惯例,DeepSeek往往会将新开源的模型直接上线DeepSeek,我们第一时间尝试进行了体验。
首先让DeepSeek证明一道较简单的题目“证明根号2为无理数”,DeepSeek快速给出了正确答案。
当智东西输入“证明奇数和整数哪个多?”这一证明题,DeepSeek也给出了正确证明过程和答案,这一证明过程大部分人应该可以看懂。当然,奥数级证明题会更加复杂,如果有能够看懂理解这类题目的读者,可以再进一步进行体验测试。
回到模型背后的研发问题,我们来具体看看论文内容,从已有的研究来看,在数学推理领域,强化学习(RL)传统方法足以让大模型在主要评估最终答案的数学竞赛(如AIME和HMMT)中达到很高的水平。然而这种奖励机制存在两个根本性的局限性:
首先,传统方法不能可靠地代表推理的正确性,模型可能通过有缺陷的逻辑或侥幸的错误得出正确答案。
其次,它不适用于定理证明任务,在这类任务中,问题可能不需要生成数值形式的最终答案,而严谨的推导才是主要目标。
为此,DeepSeek建议在大型语言模型中开发证明验证能力,基于DeepSeek-V3.2-Exp-Base开发了DeepSeekMath-V2。他们让模型明确了解其奖励函数,并使其能够通过有意识的推理而非盲目的试错来最大化这一奖励。
DeepSeek制定了用于证明评估的高级评分标准,目的是训练一个验证器,使其能根据这些评分标准对证明进行评估,模拟数学专家的评估过程。以DeepSeek-V3.2-Exp-SFT的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程使用了两个奖励组件:格式奖励和分数奖励。
然后是构建强化学习数据集。DeepSeek基于17503道竞赛题目、DeepSeek-V3.2-Exp-Thinking生成的候选证明、带专家评分的随机抽取的证明样本,构建了初始强化学习训练数据集。
紧接着,其设置了强化学习目标和训练验证器的强化学习目标。具体是以DeepSeek-V3.2-Exp-SFT的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程使用了两个奖励组件:格式奖励和分数奖励。而后通过下列函数完成训练验证器的强化学习目标。
为了解决训练过程中“验证器可能通过预测正确分数同时虚构不存在的问题来获得全部奖励”这一漏洞,DeepSeek引入了一个二次评估过程——元验证(meta-verification),从而提高验证器识别问题的忠实度。
在证明生成阶段,DeepSeek进行了证明生成器的训练,并通过自我验证增强推理能力,解决模型被要求一次性生成并分析自己的证明时“生成器不顾外部验证器判错而宣称证明是正确的”。
最后,DeepSeek证明验证器和生成器形成了一个协同循环:验证器改进生成器,而随着生成器的改进,它会生成新的证明,这些证明对验证器当前的能力构成挑战,这些挑战也成为增强验证器自身的宝贵训练数据。
简单来说,DeepSeekMath-V2模型中的验证器能完成逐步检查证明过程,而生成器则会修正自身的错误。
从实验结果来看,在单步生成结果评估中,如图1所示,在CNML级别的所有问题类别(代数、几何、数论、组合数学和不等式)中,DeepSeekMath-V2始终优于GPT-5-Thinking-High和Gemini 2.5-Pro,展现出在各领域更卓越的定理证明能力。
在带自我验证的顺序优化中,其对2024 IMO备选题进行连续优化后,证明质量提升。自选的最佳证明比线程平均值获得了显著更高的验证分数,这表明生成器能够准确评估证明质量。这些结果证实,其生成器能够可靠地区分高质量证明和有缺陷的证明,并利用这种自我认知系统地改进其数学推理能力。
在高计算量探索中,DeepSeek扩大了验证和生成计算的规模,他们的方法解决了2025 IMO的6道题中的5道,以及2024 CMO的4道题,另外1道题获得部分分数,在这两项顶尖高中竞赛中均达到金牌水平,在基础集上优于DeepMind的DeepThink(IMO金牌水平),在高级集上保持竞争力,同时大幅优于所有其他基线模型。
但DeepSeek发现,最困难的IMO级别问题对其模型来说仍然具有挑战性。
值得注意的是,对于未完全解决的问题,DeepSeek的生成器通常能在其证明过程中识别出真正的问题,而完全解决的问题则能通过所有64次验证尝试。这表明,我们能够成功训练基于大语言模型的验证器,以评估那些此前被认为难以自动验证的证明。通过在验证器的指导下增加测试时的计算量,DeepSeek的模型能够解决那些需要人类竞争者花费数小时才能解决的问题。
结语:可自我验证的AI系统,离解决研究级数学问题更进一步
总的来说,DeepSeek提出了一个既能生成又能验证数学证明的模型。团队突破了基于最终答案的奖励机制的局限性,迈向了可自我验证的数学推理。
这项工作证实,大语言模型能够培养出针对复杂推理任务的有意义的自我评估能力。尽管仍存在重大挑战,这一研究方向有望为创建可自我验证的AI系统解决研究级数学问题这一目标做出贡献。