大模型高考数学真实水平曝光：最后一题全体"滑铁卢"，看来AI想考清北也难_热点

大模型高考数学真实水平曝光：最后一题全体"滑铁卢"，看来AI想考清北也难

创始人

2025-06-12 00:07:28

0次

（转自：知危）

还记得你高考时被数学最后几道大题支配的恐惧吗？今天，知危编辑部想让各个 AI 大模型也尝尝滋味。

这并不是整活儿，大模型在推理上天天高呼 “ 取代程序员 ”、“ 取代人类科学家 ”，那从实际层面，它们真的有那么强吗？他们能赢得过大学生最巅峰状态 —— 高考时的状态吗？

知危通过 2025 年高考数学全国卷一卷的最后 5 道解答题（总分 77 分），对当前主流大语言模型的数学推理能力进行了系统性评测。

测试题目涵盖了统计学、数列、立体几何、解析几何和三角函数等多个数学领域，对于考察模型在概率计算、证明推理、空间几何分析、参数优化等方面的表现，能提供一些线索。

另外，关于推理模型的有趣特性，也通过答题有所展现。

本次参与评测的模型包括：Gemini 2.5 Preview、智谱Z1、豆包1.5、Claude 4 Sonnet、Qwen3-235B-A22B、DeepSeek R1、Kimi K1.5、腾讯T1、文心X1、GPT-4o 和 o3 等 11 个主流大语言模型。评测采用百分制打分，重点关注计算准确性、逻辑严谨性和解题思路的完整性。

为防止模型解题卡在读图这一非核心能力上，知危把所有题目都转换成了 LaTeX 格式（一种适用于数学公式的排版格式），一些带图的题目，其实图片也不是必须的，后面会详细说明。

这是知危得到的评测结果概况：

总体表现：Gemini 2.5 Preview 以 75 分位居第一，智谱 Z1（ 67 分）和豆包 1.5（ 62 分）紧随其后；
推理特色：DeepSeek R1在思维链细节方面表现突出；
普遍短板：最后一道综合性三角函数题成为各模型的 " 滑铁卢 "，仅 Gemini 2.5 Preview 给出了相对完整的解答；

通过对各模型思维链的深度分析，本文揭示了不同模型在数学推理方面的独特特点、常见错误模式，以及在面对复杂数学问题时的思维策略差异。

第 15 题

真题：

LaTeX 格式：

为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了 1000 人,得到如图中的联表:

(1)记超声波检查结果不正常者患该疾病的概率为 P,求 P 的值;

(2)根据小概率值 \alpha =0.001 的独立性检验,分析超声波检查结果是否与患该疾病有关。

附: χ² =\frac {n(ad-bc)^{2}}{(a+b)(c+d)(a+c)(b+d)}, \frac {p(x=2,k)}{k} =0.821 6.635 10.828

（一个细节：题目要配合表格一起输入，但 DeepSeek R1 没有 OCR 或多模态能力，刚好 Qwen3-235B-A22B 在输出中将表格用文本的形式表示了，所以我们就顺道复制到 DeepSeek R1 的输入之中了。）

注：我们保留了 LaTeX 公示的表达，看起来抽象，但方便你感兴趣的话可以复制测试，以下几题同理。

测试结果：

这道题主要考查的是列联表分析中的独立性检验和条件概率的计算，属于高中统计与概率模块的内容。

第一小题比较容易，所有模型都答对了。

第二小题需要套用题目中给出的卡方统计量的公式，只要具备相关概念的知识，也能顺利做出来，大部分模型也都答对了。

除了 Kimi K1.5 和文心 X1，它们都把最后的卡方统计量算错了，正确值是 χ² =765.625，而它们计算出来的值是 761.25，虽然不影响最后的结论，但这个错误因为过于低级让人惊讶。

从思维链中追溯，发现 Kimi K1.5 的错误是：第一次算出 400 - 140,400 = -139,600，而实际上是 -140,000，最后算出卡方统计量是 760.5，随后三次因为这个值过大，重新进行了计算，但都算成了 761.25，并接受了这个答案。文心 X1 在执行时直接跳过了深度思考，在解答输出中也没有线索，所以错误无法追溯。

很多模型在第一次计算后都会因数值太大而产生质疑，会决定重新计算三次左右，比如豆包 1.5、Qwen3-235B-A22B、智谱 Z1 等。

还有的模型会再采用通用公式来算，比如 Qwen3-235B-A22B、DeepSeek R1：

DeepSeek R1 的回答简直是细节狂魔，不仅思维链长度 7000 字之长（仅次于Kimi K1.5 ），对数值计算做了过多不必要的抠细节，比如把乘法一步一步算给你看中间结果，除法一步一步给你看怎么约分，甚至算到 χ² = (49/64) × 1000 之后，还在纠结如何把 64 做拆分使得计算更简便。当然，这不全是缺点，优点会在之后的题目中体现。

实际上，最难能可贵的是，Claude 4 Sonnet 在结果中提及了对卡方统计值如此之大的合理解释 —— 患病者中 90% 的人超声波检查不正常，而未患病者中只有 2.5% 的人超声波检查不正常，两者差异极其显著，也能直观上说明超声波检查结果与患该疾病相关性极大。Qwen3-235B-A22B 和智谱 Z1 也并给出了类似的合理解释。这种能力虽然对做题拿分没什么帮助，但对开放性研究的数据分析是有意义的。相比之下，腾讯 T1 倒是最为干脆，没有对卡方统计量很大表示质疑，也没给出解释，给出答案就结束了。

最后，o3 和 Gemini 2.5 Preview 的思维链摘要中没有关于如何任何思考的线索，这是个大槽点。

本题的评分结果，Kimi K1.5 和文心 X1 各扣 2 分，其它模型满分。

第 16 题

真题：

LaTeX格式：

已知数列a_ {n}中, a_ {1}=3, \frac {a_ {n+1}}{n}=\frac {a_ {n}}{n+1}+ \frac {1}{n(n+1)}.

(1)证明:数列{ na_ {n} }是等差数列;

(2)给定正整数m,设函数f(x)=a_ {1}x+a_ {2}x^ {2}+\cdots+a_ {m}x^ {m} ,求f'(2).

（注意，第 2 小题因真题信息源的偏差，把 f'(-2) 改为了 f'(2)，但无大碍。）

测试结果：

这一题几乎所有模型都完美的做出来了。但通过对思维链的分析，还是能看出各自的特点。

第一小题没什么好说的。对于第二小题，主要难点在于处理两个有限级数的值，以下是 o3 给出的，基于数列的通项将 f(x) 和导数展开为一个有限调和级数和一个有限几何级数。

GPT-4o 对于较难的有限调和级数部分直接给出了一个求和公式来求解。

不仅是 GPT-4o，豆包 1.5、Qwen3-235B-A22B、DeepSeek R1、Kimi K1.5、文心 X1、腾讯 T1 都采用了这个公式来计算。

当然这个公式可能有些超纲，一般高中阶段会用错位相减法这种更巧妙的方法来解。比如，文心X1、腾讯T1除了公式法，也都使用了错位相减法。

比如腾讯T1给出的：

一些模型包括豆包 1.5、Kimi K1.5、DeepSeek R1 都会在计算完成后将一些数值代入进行验证，这是个很好的习惯。

Qwen3-235B-A22B 可以自定义预算 token，展现了比较特别的行为。比如达到预算 token 都会立刻停止，但 1024token 预算不能完成推理，2048token 预算能完成推理，但无论是否推理完，都能得到正确答案。

若推理完成，Qwen3-235B-A22B 会在思维链中写下公式，并在回答中使用。

如果没有推理完，则会直接给出套用公式计算之后的结果，却没出现公式。

DeepSeek R1 的整体思维链比较复杂，但有其思考的深度。在求解第 2 小题时，DeepSeek R1 甚至把较难的有限调和级数用求导法推导出了公式。

一开始比较依赖变量推理，后来发现代入底数 2 计算会更加方便，这里耽误了比较大的时间，Kimi K1.5 也是类似的做法。但 DeepSeek R1 在原函数与导数之间灵活变化的做法值得借鉴。比如几何级数的和更容易计算，就先计算再求导，调和级数的和更难计算，就先求导变为几何级数再求和。

值得关注的一个细节是，文心 X1 在推导中使用了奇怪的记号：S = 12^0 + 22^1 + 32^2 + ... + m2^{m-1}，两个相乘的数字中间没有乘号，Kimi K1.5 中也出现了相同的记号。相比之下，腾讯 T1 使用的记号倒是很标准：S = 1 * 2^0 + 2 * 2^1 + 3 * 2^2 + … + m2^(m-1)。

Claude 4 Sonnet 直接给出了解法，没毛病也没亮点。最后再吐槽一次，o3、Gemini 2.5 Preview 的思维链摘要没有关于解法的信息。

第 17 题

真题：

LaTeX 格式：

如图所示的四棱锥P-ABCD中,PA\bot平面ABCD,BC/\!/AD,AB\bot AD.

(1)证明:平面PAB\bot平面PAD;

(2)若PA=AB=\sqrt {2},AD= \sqrt {3}+1,BC=2,P,B,C,D在同一个球面上,设该球面的球心为O.

(i)证明:O在平面ABCD上;

(ii)求直线AC与直线PO所成角的余弦值.

（这里再提示一次，由于DeepSeek R1没有OCR或多模态能力，因此这道题直接以文本形式提供给DeepSeek R1，其它模型因特殊时期暂时无法使用读图功能的也是如此处理，因为就算不提供图片，文字也能完整表达题意。）

测试结果为：

这一次，除了 GPT-4o 和文心 X1，其它模型都答对了。

大部分模型都是采用很常规的解法，比如第一小题引用两个平面垂直的判定法则来求解，第二小题基于坐标法来求解。

对于第一小题，GPT-4o 参考的关于两个平面垂直的判定原则是对的，但用错了对象，应该以 AB 为推理线索，而不是 PA，证明 AB 垂直于 PAD 上两条不共线的直线。

而在求解第 2 小题第一部分，GPT-4o 的这一段推导基本属于胡说八道：

后续虽然使用了坐标法来计算 O 的坐标，以及直线 AC 与直线 PO 所成角的余弦值，但都算错了。

文心 X1 类似，使用坐标法计算 O 的坐标时也算错了，自然直线 AC 与直线 PO 所成角的余弦值也会算错。

DeepSeek R1 又一次展示了不一样的思维方式，推理过程习惯一步一步走，而不是把所有方程集合起来解，就显得很冗长，在数值验证上也耗费了不少时间。

第 18 题

真题：

LaTeX 格式：

设椭圆C: \frac{x^{2}}{a^{2}}+\frac{y^{2}}{b^{2}}=1 (a>b>0)的离心率为\frac{2 \sqrt{2}}{3}，下顶点为A，右顶点为B，|AB|=\sqrt{10}。

(1) 求C的方程；

(2) 已知动点P不在y轴上，点R在射线AP上，且|AP||AR|=3。

(i) 设点P(m,n)，求R的坐标（用m,n表示）；

(ii) 设O为坐标原点，Q是C上的动点，直线OR的斜率是直线OP的斜率的 3 倍，求|PQ|的最大值。

测试结果：

这一道题翻车的就多了，而且出错的方式五花八门。只有 Gemini 2.5 Preview、豆包 1.5、文心 X1、智谱 Z1 全对，其它全部栽在第 2 小题第二部分。

Gemini 2.5 Preview 抓住了解题的关键点：PQ 的最大距离应该等于圆心到椭圆上点的最大距离加上圆的半径。豆包 1.5 则阐述了这个关键点背后更本质的逻辑： | PQ|≤|PO| + |OQ|。意识到这一点之后，通过参数化方法求解 P 的轨迹即圆的圆心到椭圆C的最大值即可。

在思维链部分，豆包 1.5 尝试过纯参数法（不借助圆心，直接用参数表示 PQ 距离），因为过于复杂而放弃。对正确答案有过怀疑和犹豫，但次数不多，最后并没有找到好的办法来验证。

文心 X1 在 Q 和 P、R 是否有关系这个问题上纠结了很久，并把 P 点的方程重复计算了多遍，在计算出 P 点方程后，要解决 PQ 之间距离时，由于要处理的变量太多而犹豫不前。关键点是意识到存在更简便的方法，比如利用几何性质或拉格朗日乘数法。用几何法计算出正确结果后，怀疑了好多次，每次都用同样的结论说服自己是正确的，但没有任何信息增量。然后尝试了拉格朗日乘数法，列出方程后就感觉太复杂直接放弃了，继续纠结中。最后依靠一些心理暗示停止了思考。

智谱 Z1 得到了正确答案，一次用 y 做参数化，一次用 cosθ 做参数化，每一次都得到了正确的答案，但每一次验证都失败了。通过往前回溯也没有找到合适的线索，导致犹豫不决，重复提问了自己好几次。

接下来看看答错的模型是怎么做的。GPT-4o 计算点 P 方程时出现错误，自然不可能计算出正确的 PQ 值。Claude 4 Sonnet 也是类似的问题。

此外 GPT-4o 最大化 PQ 的逻辑并不严密，在使用代数法发现无法严格求解后，直接尝试了数值试错法来得出结论。o3 的错误更加离谱，一开始误以为 Q 应该是 P 和椭圆的交点，即便后面意识到 P 和 R 的关系与 Q 无关，也没有转换思维。

Qwen3-235B-A22B 有意识到最大距离应该出现在两图形的最远点之间，通过几何分析找到不同思路，比如分析圆和椭圆的相对位置和重叠部分，但一直都在参数化和几何方法之间犹豫不决，最后达到 token 预算（ 5120 token ），答案中的思路是对的，但计算出来的最大距离是错误的，并且缺乏论据，不知道错在哪里。

Kimi K1.5 也是在参数化方法和几何方法之间犹豫，无法往前推进。参数化太复杂，几何方法不够严密。最后是通过 y 轴上的 PQ 距离计算，并加上几个其它 PQ 实例的比较，下结论说 y 轴上的 PQ 是最大距离。但实际上，P 是不能在 y 轴上的。

腾讯 T1 尝试了多种参数方法和拉格朗日乘数法、柯西不等式等，因复杂度较高而放弃，然后转向几何法。它也找到了解题的关键点：点 P 到 Q 的距离可以表示为 |PQ| = |OQ - OP| ≤ |OQ| + |OP|，当且仅当 O, P, Q 共线且 Q 在 OP 的延长线上时取等号，但需要 Q 在椭圆上，所以最大可能的 |PQ| 是 |OP| + 椭圆上离 O 最远的点在 OP 方向上的距离。

它还有另一个新奇的思路：以椭圆中心为关键点，计算 P 到椭圆中心的距离 + 椭圆在该方向上的半长轴。

但这些思路都没有被执行下去，最后走了容易计算 y 轴上的 PQ 值—— 5 + 3√2，虽然 P 不能在 y 轴上，但可以以无限靠近 y 轴的方式存在。

这个思路也被 DeepSeek R1 继承了。DeepSeek R1 通过 y 轴上的一个 PQ 距离计算，并加上几个其它 PQ 实例的比较，得到 y 轴上的 PQ 是最大距离。即便意识到 P 不在 y 轴上，也表示： P 不在 y 轴上，但可无限接近。

和文心 X1 一样，DeepSeek R1 也纠结 Q 和 P、R 是否有关系。甚至自己改题目，推测 “ P ” 可能是一个笔误，应为 “ Q ”，即 “ 直线 OR 的斜率是直线 OQ 的斜率的 3 倍 ”。

第 19 题

真题：

LaTeX 格式：

(1)求f(x)=5\cos x-\cos5x在[0,\frac {\pi }{4}]的最大值;

(2)给定\theta\in(0,\pi)和a\in R,证明:存在y \in [a-\theta ,a+\theta ],使得\cos y \leqslant \cos \theta ;

(3)若存在实数 \varphi ,使得对任意实数x,都有5 \cos x- \cos ( 5x+ \varphi ) \leqslant b,求b的最小值.

测试结果：

这一道题太惨烈了，特别对于第 3 小题，几乎全军覆没，只有 Gemini 2.5 Preview 在得到正确答案的同时，也提供了比较令人信服的逻辑，但也还不够完整。其它模型要么答错，要么理解错题意，要么借用第 1 小题的结果投机取巧凑出一个正确答案。

第 2 小题一般有反例法和反证法两种，所以答案多样性比较大，也是容易出错的。

Gemini 2.5 Preview 第一题采用常规解法，无需细说。第 2 小题，Gemini 2.5 Preview 通过余弦函数的区间单调性，找到了满足 cos x>cos θ 的区间：

然后通过反证法，证明如果假设成立，y 的区间不可能被包含在上述区间内，得出矛盾，从而得证。

第 3 小题，Gemini 2.5 Preview 使用导数法求驻点，获得了正确的最小值。

思路是合理的，但实际上在最后下结论之前，缺乏对 φ 如何影响 x 的驻点有效取值的分析（在任意的 k 值下），结论仍然是不严密的。

但总体而言，Gemini 2.5 Preview给出了最严谨的分析过程，甚至知危在网络参考答案中暂时还没找到比这个更好的。不过，其推理思维链摘要没有找到特别有用或清晰的线索。

整体上，GPT-4o 是错得最离谱的，直接零分。

GPT-4o 第一小题只计算了端点的值，得到了暂时的最大值，而对于导数的求解，选择不执行，并给出了很荒唐的理由：解这个方程不容易在解析范围内做出更大值。

第2小题GPT-4o强调余弦函数在 [0,π] 上是单调减函数；但把结论基于 a+θ 的取值范围，并不严谨，毕竟这个结论需要在 a 是任意值的情况下成立。

对第 3 小题的求解，GPT-4o 只是通过三角函数最大值为1的特性，进行数值举例，找到了一个使得上界比较大的 φ 值，就轻易下了结论。而没有考虑到，这不是找上界，而是最小上界。需要通过特定的 φ 值，让这个上界最小。

豆包 1.5 和腾讯 T1 做对了第 1 小题，做错了第 2、3 小题。

豆包 1.5 在第 2 小题通过划分 3 个区间分别找到反例来求解，但每一句结论要么依赖a的特定取值，要么没有逻辑严谨性。

第 3 小题，豆包 1.5 结合余弦函数的取值范围特性，通过数值特例找到了 6 作为最小的极大值。但逻辑不严谨，答案也是错误的。

在思维链中，豆包 1.5 尝试了和 Gemini 2.5 Preview 相似的思路。但后续处理把注意力放在了 k 的取值，而不是 φ 的取值上。

豆包 1.5 一开始对题意的理解还是对的。

但后面即便注意到比如 φ=0 时，b的最大值是3√3，后续看到 φ= π ，b 为 6 的极大值，还是昏了头。

腾讯 T1 解决第 2 小题时，用区间分析得到了奇怪的结论：“ 区间长度为 2θ，当 θ∈(0,π) 时，无法完全包含在 ( −θ,θ ) 内（否则长度超过 2θ ），矛盾。” 求解第 3 小题时采用了第 1 小题的极大值结果，但这不严谨，因为这个极大值和 φ 没有关系，并且局限在有限区间内。

o3 求解第 2 小题使用了比较直观的反证法，不需要分析区间，不容易出错。

智谱 Z1 结合余弦函数特性和区间长度，也采用了不同的反证思路。

o3 求解第 3 小题时，没有足够的逻辑推导，只表示 “ 通过分析（三角恒等式或数值搜索）可知 ”，答案虽然正确，但并不严谨。类似地，智谱也没有给出有说服力的过程，就得到了正确答案。

Claude 4 Sonnet 表示 b 的最小值为 6，通过变分法可以证明，但没有实际展示如何得到。

Qwen3-235B-A22B 求解第 2 小题时找到了和 Gemini 2.5 Preview 一样的逻辑。

求解第 3 小题时，对题意的理解是正确的。

考虑了一些复杂的思路：相继提到了谐波成分抵消、傅里叶级数、切比雪夫多项式、贝塞尔不等式等超纲的方法。感觉行不通后，开始通过数值举例寻找线索。

尝试了 Gemini 2.5 Preview 采用的求导法，但没有把这条路径走完。最后的答案是准确的，并尝试了 φ 的多种取值做对比，通过 “ 无论 φ 如何调整，无法通过相位抵消完全消除高频项的影响，因此最小的 b 应为原函数的最大值 ” 得出了结果，但这并不严谨。

DeepSeek R1 求解第 2 小题时采用了正确的反证法，思路和 Gemini 2.5 Preview 相同，但补齐了 Gemini 2.5 Preview 得出满足 cos x>cos θ 的区间的逻辑前提。

求解第 3 小题时，DeepSeek 也采用了求导分析法。

抓住了 k 变化对最终结果的影响较小，而更多与 φ 相关。但没有完全分析完成又放弃了，最后还是通过数值比较增大了信心，得到了正确答案，但过程也不是准确的。

Kimi K1.5 的解答过于冗长，似乎是把长思考带入到了解答部分。第 2 小题找到了和 Qwen3-235B-A22B、Gemini 2.5 Preview 一样的反证法。第 3 小题没有用严格的分析，而是用 φ 取值的反复比较得出了结论，不能算准确。和 Qwen3-235B-A22B 一样先进行了求导解析，但后面把注意力集中在k的取值比较上。

文心 X1 再次跳过了深度思考，解答中得到了准确答案，但如何得出结论没有具体过程。

总结

好了，我们的 2025 高考数学大题 AI 大乱斗的测试就到此结束了，下面是各个模型的总成绩单：

前三名分别是 Gemini 2.5 Preview、智谱 Z1、豆包 1.5，得到了 75 分、67 分、62 分，后两者都是在最后一题的最后一部分，才和 Gemini 2.5 Preview 拉开了差距。

其它模型之间整体相差不大，最后一名是 GPT-4o，这并不奇怪，毕竟它不是推理模型。倒是 o3、Claude 4 Sonnet，作为行业领先者的表现还是挺令人失望的，很多错误甚至有点离谱。

DeepSeek R1 在思维链上的特点比较明显，字数非常多，细节非常丰富，即便只看部分思维链，也能给人类带来不错的启发，会采用复杂、冗长的推理过程来解题，甚至采用比较高阶的方法，许多模型都会在这种节点下，停滞不前或绕过去， DeepSeek R1 会进行尝试，即便最后放弃，也能提供不少细节。相比之下，部分模型（如 o3、Gemini 2.5 Preview ）的思维链摘要缺乏关键推理细节，影响了可解释性。

需要特别强调的是，思维链长度与准确性并非简单正相关，过度冗长的推理有时反而影响效率。

在解题层面，目前主流大模型在求解数学推理还会遇到这些共同挑战：

复杂参数优化问题（如第18、19题第2小题ii部分）对所有模型都构成较大挑战；
几何直觉和代数计算的结合是普遍难点（如第 18 题第 2 小题 ii 部分）；
数值计算精度在长推理题目中成为关键因素；

最后，除了解题本身，模型在进行结果检验、衡量方法复杂度和自信度、token 预算控制、输出长度、输出多样性等方面如果做的不好，也会很影响可用性，特别是出现大量重复推理、无效推理时，负面体验是最强的。

总之，对于这些动辄号称是 “ 博士水平 ” 的各家大模型来说，我们只能说，在中国高考数学面前，你考个 985 没问题，但你要想考清北，除了 Gemini，其他可能都还得再多练两年。

现在，你知道你身边只靠单纯的高考成绩考上清北的人有多恐怖了吗？

（本评测基于2025年6月的模型版本进行，随着模型的持续更新，相关结论可能会发生变化。）

撰文：流大古

编辑：大饼

上一篇：燕塘乳业：吴乘云辞去副总经理职务

下一篇：让科技成果入户到田

大模型高考数学真实水平曝光：最后一题全体"滑铁卢"，看来AI想考清北也难

相关内容

热门资讯