(转自:知危)
还记得你高考时被数学最后几道大题支配的恐惧吗?今天,知危编辑部想让各个 AI 大模型也尝尝滋味。
这并不是整活儿,大模型在推理上天天高呼 “ 取代程序员 ”、“ 取代人类科学家 ”,那从实际层面,它们真的有那么强吗?他们能赢得过大学生最巅峰状态 —— 高考时的状态吗?
知危通过 2025 年高考数学全国卷一卷的最后 5 道解答题( 总分 77 分 ),对当前主流大语言模型的数学推理能力进行了系统性评测。
测试题目涵盖了统计学、数列、立体几何、解析几何和三角函数等多个数学领域,对于考察模型在概率计算、证明推理、空间几何分析、参数优化等方面的表现,能提供一些线索。
另外,关于推理模型的有趣特性,也通过答题有所展现。
本次参与评测的模型包括:Gemini 2.5 Preview、智谱Z1、豆包1.5、Claude 4 Sonnet、Qwen3-235B-A22B、DeepSeek R1、Kimi K1.5、腾讯T1、文心X1、GPT-4o 和 o3 等 11 个主流大语言模型。评测采用百分制打分,重点关注计算准确性、逻辑严谨性和解题思路的完整性。
为防止模型解题卡在读图这一非核心能力上,知危把所有题目都转换成了 LaTeX 格式( 一种适用于数学公式的排版格式 ),一些带图的题目,其实图片也不是必须的,后面会详细说明。
这是知危得到的评测结果概况:
总体表现:Gemini 2.5 Preview 以 75 分位居第一,智谱 Z1( 67 分 )和豆包 1.5( 62 分 )紧随其后;
推理特色:DeepSeek R1在思维链细节方面表现突出;
普遍短板:最后一道综合性三角函数题成为各模型的 " 滑铁卢 ",仅 Gemini 2.5 Preview 给出了相对完整的解答;
通过对各模型思维链的深度分析,本文揭示了不同模型在数学推理方面的独特特点、常见错误模式,以及在面对复杂数学问题时的思维策略差异。
第 15 题
真题:
LaTeX 格式:
为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了 1000 人,得到如图中的联表:
(1)记超声波检查结果不正常者患该疾病的概率为 P,求 P 的值;
(2)根据小概率值 \alpha =0.001 的独立性检验,分析超声波检查结果是否与患该疾病有关。
附: χ² =\frac {n(ad-bc)^{2}}{(a+b)(c+d)(a+c)(b+d)}, \frac {p(x=2,k)}{k} =0.821 6.635 10.828
( 一个细节:题目要配合表格一起输入,但 DeepSeek R1 没有 OCR 或多模态能力,刚好 Qwen3-235B-A22B 在输出中将表格用文本的形式表示了,所以我们就顺道复制到 DeepSeek R1 的输入之中了。)
注:我们保留了 LaTeX 公示的表达,看起来抽象,但方便你感兴趣的话可以复制测试,以下几题同理。
测试结果:
这道题主要考查的是列联表分析中的独立性检验和条件概率的计算,属于高中统计与概率模块的内容。
第一小题比较容易,所有模型都答对了。
第二小题需要套用题目中给出的卡方统计量的公式,只要具备相关概念的知识,也能顺利做出来,大部分模型也都答对了。
除了 Kimi K1.5 和文心 X1,它们都把最后的卡方统计量算错了,正确值是 χ² =765.625,而它们计算出来的值是 761.25,虽然不影响最后的结论,但这个错误因为过于低级让人惊讶。
从思维链中追溯,发现 Kimi K1.5 的错误是:第一次算出 400 - 140,400 = -139,600,而实际上是 -140,000,最后算出卡方统计量是 760.5,随后三次因为这个值过大,重新进行了计算,但都算成了 761.25,并接受了这个答案。文心 X1 在执行时直接跳过了深度思考,在解答输出中也没有线索,所以错误无法追溯。
很多模型在第一次计算后都会因数值太大而产生质疑,会决定重新计算三次左右,比如豆包 1.5、Qwen3-235B-A22B、智谱 Z1 等。
还有的模型会再采用通用公式来算,比如 Qwen3-235B-A22B、DeepSeek R1:
DeepSeek R1 的回答简直是细节狂魔,不仅思维链长度 7000 字之长( 仅次于Kimi K1.5 ),对数值计算做了过多不必要的抠细节,比如把乘法一步一步算给你看中间结果,除法一步一步给你看怎么约分,甚至算到 χ² = (49/64) × 1000 之后,还在纠结如何把 64 做拆分使得计算更简便。当然,这不全是缺点,优点会在之后的题目中体现。
实际上,最难能可贵的是,Claude 4 Sonnet 在结果中提及了对卡方统计值如此之大的合理解释 —— 患病者中 90% 的人超声波检查不正常,而未患病者中只有 2.5% 的人超声波检查不正常,两者差异极其显著,也能直观上说明超声波检查结果与患该疾病相关性极大。Qwen3-235B-A22B 和智谱 Z1 也并给出了类似的合理解释。这种能力虽然对做题拿分没什么帮助,但对开放性研究的数据分析是有意义的。相比之下,腾讯 T1 倒是最为干脆,没有对卡方统计量很大表示质疑,也没给出解释,给出答案就结束了。
最后,o3 和 Gemini 2.5 Preview 的思维链摘要中没有关于如何任何思考的线索,这是个大槽点。
本题的评分结果,Kimi K1.5 和文心 X1 各扣 2 分,其它模型满分。
第 16 题
真题:
LaTeX格式:
已知数列a_ {n}中, a_ {1}=3, \frac {a_ {n+1}}{n}=\frac {a_ {n}}{n+1}+ \frac {1}{n(n+1)}.
(1)证明:数列{ na_ {n} }是等差数列;
(2)给定正整数m,设函数f(x)=a_ {1}x+a_ {2}x^ {2}+\cdots+a_ {m}x^ {m} ,求f'(2).
( 注意,第 2 小题因真题信息源的偏差,把 f'(-2) 改为了 f'(2),但无大碍。)
测试结果:
这一题几乎所有模型都完美的做出来了。但通过对思维链的分析,还是能看出各自的特点。
第一小题没什么好说的。对于第二小题,主要难点在于处理两个有限级数的值,以下是 o3 给出的,基于数列的通项将 f(x) 和导数展开为一个有限调和级数和一个有限几何级数。
GPT-4o 对于较难的有限调和级数部分直接给出了一个求和公式来求解。
不仅是 GPT-4o,豆包 1.5、Qwen3-235B-A22B、DeepSeek R1、Kimi K1.5、文心 X1、腾讯 T1 都采用了这个公式来计算。
当然这个公式可能有些超纲,一般高中阶段会用错位相减法这种更巧妙的方法来解。比如,文心X1、腾讯T1除了公式法,也都使用了错位相减法。
比如腾讯T1给出的:
一些模型包括豆包 1.5、Kimi K1.5、DeepSeek R1 都会在计算完成后将一些数值代入进行验证,这是个很好的习惯。
Qwen3-235B-A22B 可以自定义预算 token,展现了比较特别的行为。比如达到预算 token 都会立刻停止,但 1024token 预算不能完成推理,2048token 预算能完成推理,但无论是否推理完,都能得到正确答案。
若推理完成,Qwen3-235B-A22B 会在思维链中写下公式,并在回答中使用。
如果没有推理完,则会直接给出套用公式计算之后的结果,却没出现公式。
DeepSeek R1 的整体思维链比较复杂,但有其思考的深度。在求解第 2 小题时,DeepSeek R1 甚至把较难的有限调和级数用求导法推导出了公式。
一开始比较依赖变量推理,后来发现代入底数 2 计算会更加方便,这里耽误了比较大的时间,Kimi K1.5 也是类似的做法。但 DeepSeek R1 在原函数与导数之间灵活变化的做法值得借鉴。比如几何级数的和更容易计算,就先计算再求导,调和级数的和更难计算,就先求导变为几何级数再求和。
值得关注的一个细节是,文心 X1 在推导中使用了奇怪的记号:S = 12^0 + 22^1 + 32^2 + ... + m2^{m-1},两个相乘的数字中间没有乘号,Kimi K1.5 中也出现了相同的记号。相比之下,腾讯 T1 使用的记号倒是很标准:S = 1 * 2^0 + 2 * 2^1 + 3 * 2^2 + … + m2^(m-1)。
Claude 4 Sonnet 直接给出了解法,没毛病也没亮点。最后再吐槽一次,o3、Gemini 2.5 Preview 的思维链摘要没有关于解法的信息。
第 17 题
真题:
LaTeX 格式:
如图所示的四棱锥P-ABCD中,PA\bot平面ABCD,BC/\!/AD,AB\bot AD.
(1)证明:平面PAB\bot平面PAD;
(2)若PA=AB=\sqrt {2},AD= \sqrt {3}+1,BC=2,P,B,C,D在同一个球面上,设该球面的球心为O.
(i)证明:O在平面ABCD上;
(ii)求直线AC与直线PO所成角的余弦值.
( 这里再提示一次,由于DeepSeek R1没有OCR或多模态能力,因此这道题直接以文本形式提供给DeepSeek R1,其它模型因特殊时期暂时无法使用读图功能的也是如此处理,因为就算不提供图片,文字也能完整表达题意。)
测试结果为:
这一次,除了 GPT-4o 和文心 X1,其它模型都答对了。
大部分模型都是采用很常规的解法,比如第一小题引用两个平面垂直的判定法则来求解,第二小题基于坐标法来求解。
对于第一小题,GPT-4o 参考的关于两个平面垂直的判定原则是对的,但用错了对象,应该以 AB 为推理线索,而不是 PA,证明 AB 垂直于 PAD 上两条不共线的直线。
而在求解第 2 小题第一部分,GPT-4o 的这一段推导基本属于胡说八道:
后续虽然使用了坐标法来计算 O 的坐标,以及直线 AC 与直线 PO 所成角的余弦值,但都算错了。
文心 X1 类似,使用坐标法计算 O 的坐标时也算错了,自然直线 AC 与直线 PO 所成角的余弦值也会算错。
DeepSeek R1 又一次展示了不一样的思维方式,推理过程习惯一步一步走,而不是把所有方程集合起来解,就显得很冗长,在数值验证上也耗费了不少时间。
第 18 题
真题:
LaTeX 格式:
设椭圆C: \frac{x^{2}}{a^{2}}+\frac{y^{2}}{b^{2}}=1 (a>b>0)的离心率为\frac{2 \sqrt{2}}{3},下顶点为A,右顶点为B,|AB|=\sqrt{10}。
(1) 求C的方程;
(2) 已知动点P不在y轴上,点R在射线AP上,且|AP||AR|=3。
(i) 设点P(m,n),求R的坐标(用m,n表示);
(ii) 设O为坐标原点,Q是C上的动点,直线OR的斜率是直线OP的斜率的 3 倍,求|PQ|的最大值。
测试结果:
这一道题翻车的就多了,而且出错的方式五花八门。只有 Gemini 2.5 Preview、豆包 1.5、文心 X1、智谱 Z1 全对,其它全部栽在第 2 小题第二部分。
Gemini 2.5 Preview 抓住了解题的关键点:PQ 的最大距离应该等于圆心到椭圆上点的最大距离加上圆的半径。豆包 1.5 则阐述了这个关键点背后更本质的逻辑: | PQ|≤|PO| + |OQ|。意识到这一点之后,通过参数化方法求解 P 的轨迹即圆的圆心到椭圆C的最大值即可。
在思维链部分,豆包 1.5 尝试过纯参数法( 不借助圆心,直接用参数表示 PQ 距离 ),因为过于复杂而放弃。对正确答案有过怀疑和犹豫,但次数不多,最后并没有找到好的办法来验证。
文心 X1 在 Q 和 P、R 是否有关系这个问题上纠结了很久,并把 P 点的方程重复计算了多遍,在计算出 P 点方程后,要解决 PQ 之间距离时,由于要处理的变量太多而犹豫不前。关键点是意识到存在更简便的方法,比如利用几何性质或拉格朗日乘数法。用几何法计算出正确结果后,怀疑了好多次,每次都用同样的结论说服自己是正确的,但没有任何信息增量。然后尝试了拉格朗日乘数法,列出方程后就感觉太复杂直接放弃了,继续纠结中。最后依靠一些心理暗示停止了思考。
智谱 Z1 得到了正确答案,一次用 y 做参数化,一次用 cosθ 做参数化,每一次都得到了正确的答案,但每一次验证都失败了。通过往前回溯也没有找到合适的线索,导致犹豫不决,重复提问了自己好几次。
接下来看看答错的模型是怎么做的。GPT-4o 计算点 P 方程时出现错误,自然不可能计算出正确的 PQ 值。Claude 4 Sonnet 也是类似的问题。
此外 GPT-4o 最大化 PQ 的逻辑并不严密,在使用代数法发现无法严格求解后,直接尝试了数值试错法来得出结论。o3 的错误更加离谱,一开始误以为 Q 应该是 P 和椭圆的交点,即便后面意识到 P 和 R 的关系与 Q 无关,也没有转换思维。
Qwen3-235B-A22B 有意识到最大距离应该出现在两图形的最远点之间,通过几何分析找到不同思路,比如分析圆和椭圆的相对位置和重叠部分,但一直都在参数化和几何方法之间犹豫不决,最后达到 token 预算( 5120 token ),答案中的思路是对的,但计算出来的最大距离是错误的,并且缺乏论据,不知道错在哪里。
Kimi K1.5 也是在参数化方法和几何方法之间犹豫,无法往前推进。参数化太复杂,几何方法不够严密。最后是通过 y 轴上的 PQ 距离计算,并加上几个其它 PQ 实例的比较,下结论说 y 轴上的 PQ 是最大距离。但实际上,P 是不能在 y 轴上的。
腾讯 T1 尝试了多种参数方法和拉格朗日乘数法、柯西不等式等,因复杂度较高而放弃,然后转向几何法。它也找到了解题的关键点:点 P 到 Q 的距离可以表示为 |PQ| = |OQ - OP| ≤ |OQ| + |OP|,当且仅当 O, P, Q 共线且 Q 在 OP 的延长线上时取等号,但需要 Q 在椭圆上,所以最大可能的 |PQ| 是 |OP| + 椭圆上离 O 最远的点在 OP 方向上的距离。
它还有另一个新奇的思路:以椭圆中心为关键点,计算 P 到椭圆中心的距离 + 椭圆在该方向上的半长轴。
但这些思路都没有被执行下去,最后走了容易计算 y 轴上的 PQ 值—— 5 + 3√2,虽然 P 不能在 y 轴上,但可以以无限靠近 y 轴的方式存在。
这个思路也被 DeepSeek R1 继承了。DeepSeek R1 通过 y 轴上的一个 PQ 距离计算,并加上几个其它 PQ 实例的比较,得到 y 轴上的 PQ 是最大距离。即便意识到 P 不在 y 轴上,也表示: P 不在 y 轴上,但可无限接近。
和文心 X1 一样,DeepSeek R1 也纠结 Q 和 P、R 是否有关系。甚至自己改题目,推测 “ P ” 可能是一个笔误,应为 “ Q ”,即 “ 直线 OR 的斜率是直线 OQ 的斜率的 3 倍 ”。
第 19 题
真题:
LaTeX 格式:
(1)求f(x)=5\cos x-\cos5x在[0,\frac {\pi }{4}]的最大值;
(2)给定\theta\in(0,\pi)和a\in R,证明:存在y \in [a-\theta ,a+\theta ],使得\cos y \leqslant \cos \theta ;
(3)若存在实数 \varphi ,使得对任意实数x,都有5 \cos x- \cos ( 5x+ \varphi ) \leqslant b,求b的最小值.
测试结果:
这一道题太惨烈了,特别对于第 3 小题,几乎全军覆没,只有 Gemini 2.5 Preview 在得到正确答案的同时,也提供了比较令人信服的逻辑,但也还不够完整。其它模型要么答错,要么理解错题意,要么借用第 1 小题的结果投机取巧凑出一个正确答案。
第 2 小题一般有反例法和反证法两种,所以答案多样性比较大,也是容易出错的。
Gemini 2.5 Preview 第一题采用常规解法,无需细说。第 2 小题,Gemini 2.5 Preview 通过余弦函数的区间单调性,找到了满足 cos x>cos θ 的区间:
然后通过反证法,证明如果假设成立,y 的区间不可能被包含在上述区间内,得出矛盾,从而得证。
第 3 小题,Gemini 2.5 Preview 使用导数法求驻点,获得了正确的最小值。
思路是合理的,但实际上在最后下结论之前,缺乏对 φ 如何影响 x 的驻点有效取值的分析( 在任意的 k 值下 ),结论仍然是不严密的。但总体而言,Gemini 2.5 Preview给出了最严谨的分析过程,甚至知危在网络参考答案中暂时还没找到比这个更好的。不过,其推理思维链摘要没有找到特别有用或清晰的线索。
整体上,GPT-4o 是错得最离谱的,直接零分。
GPT-4o 第一小题只计算了端点的值,得到了暂时的最大值,而对于导数的求解,选择不执行,并给出了很荒唐的理由:解这个方程不容易在解析范围内做出更大值。
第2小题GPT-4o强调余弦函数在 [0,π] 上是单调减函数;但把结论基于 a+θ 的取值范围,并不严谨,毕竟这个结论需要在 a 是任意值的情况下成立。
对第 3 小题的求解,GPT-4o 只是通过三角函数最大值为1的特性,进行数值举例,找到了一个使得上界比较大的 φ 值,就轻易下了结论。而没有考虑到,这不是找上界,而是最小上界。需要通过特定的 φ 值,让这个上界最小。
豆包 1.5 和腾讯 T1 做对了第 1 小题,做错了第 2、3 小题。
豆包 1.5 在第 2 小题通过划分 3 个区间分别找到反例来求解,但每一句结论要么依赖a的特定取值,要么没有逻辑严谨性。
第 3 小题,豆包 1.5 结合余弦函数的取值范围特性,通过数值特例找到了 6 作为最小的极大值。但逻辑不严谨,答案也是错误的。
在思维链中,豆包 1.5 尝试了和 Gemini 2.5 Preview 相似的思路。但后续处理把注意力放在了 k 的取值,而不是 φ 的取值上。
豆包 1.5 一开始对题意的理解还是对的。
但后面即便注意到比如 φ=0 时,b的最大值是3√3,后续看到 φ= π ,b 为 6 的极大值,还是昏了头。
腾讯 T1 解决第 2 小题时,用区间分析得到了奇怪的结论:“ 区间长度为 2θ,当 θ∈(0,π) 时,无法完全包含在 ( −θ,θ ) 内( 否则长度超过 2θ ),矛盾。” 求解第 3 小题时采用了第 1 小题的极大值结果,但这不严谨,因为这个极大值和 φ 没有关系,并且局限在有限区间内。
o3 求解第 2 小题使用了比较直观的反证法,不需要分析区间,不容易出错。
智谱 Z1 结合余弦函数特性和区间长度,也采用了不同的反证思路。
o3 求解第 3 小题时,没有足够的逻辑推导,只表示 “ 通过分析( 三角恒等式或数值搜索 )可知 ”,答案虽然正确,但并不严谨。类似地,智谱也没有给出有说服力的过程,就得到了正确答案。
Claude 4 Sonnet 表示 b 的最小值为 6,通过变分法可以证明,但没有实际展示如何得到。
Qwen3-235B-A22B 求解第 2 小题时找到了和 Gemini 2.5 Preview 一样的逻辑。
求解第 3 小题时,对题意的理解是正确的。
考虑了一些复杂的思路:相继提到了谐波成分抵消、傅里叶级数、切比雪夫多项式、贝塞尔不等式等超纲的方法。感觉行不通后,开始通过数值举例寻找线索。
尝试了 Gemini 2.5 Preview 采用的求导法,但没有把这条路径走完。最后的答案是准确的,并尝试了 φ 的多种取值做对比,通过 “ 无论 φ 如何调整,无法通过相位抵消完全消除高频项的影响,因此最小的 b 应为原函数的最大值 ” 得出了结果,但这并不严谨。
DeepSeek R1 求解第 2 小题时采用了正确的反证法,思路和 Gemini 2.5 Preview 相同,但补齐了 Gemini 2.5 Preview 得出满足 cos x>cos θ 的区间的逻辑前提。
求解第 3 小题时,DeepSeek 也采用了求导分析法。
抓住了 k 变化对最终结果的影响较小,而更多与 φ 相关。但没有完全分析完成又放弃了,最后还是通过数值比较增大了信心,得到了正确答案,但过程也不是准确的。
Kimi K1.5 的解答过于冗长,似乎是把长思考带入到了解答部分。第 2 小题找到了和 Qwen3-235B-A22B、Gemini 2.5 Preview 一样的反证法。第 3 小题没有用严格的分析,而是用 φ 取值的反复比较得出了结论,不能算准确。和 Qwen3-235B-A22B 一样先进行了求导解析,但后面把注意力集中在k的取值比较上。
文心 X1 再次跳过了深度思考,解答中得到了准确答案,但如何得出结论没有具体过程。
总结
好了,我们的 2025 高考数学大题 AI 大乱斗的测试就到此结束了,下面是各个模型的总成绩单:
前三名分别是 Gemini 2.5 Preview、智谱 Z1、豆包 1.5,得到了 75 分、67 分、62 分,后两者都是在最后一题的最后一部分,才和 Gemini 2.5 Preview 拉开了差距。
其它模型之间整体相差不大,最后一名是 GPT-4o,这并不奇怪,毕竟它不是推理模型。倒是 o3、Claude 4 Sonnet,作为行业领先者的表现还是挺令人失望的,很多错误甚至有点离谱。
DeepSeek R1 在思维链上的特点比较明显,字数非常多,细节非常丰富,即便只看部分思维链,也能给人类带来不错的启发,会采用复杂、冗长的推理过程来解题,甚至采用比较高阶的方法,许多模型都会在这种节点下,停滞不前或绕过去, DeepSeek R1 会进行尝试,即便最后放弃,也能提供不少细节。相比之下,部分模型( 如 o3、Gemini 2.5 Preview )的思维链摘要缺乏关键推理细节,影响了可解释性。
需要特别强调的是,思维链长度与准确性并非简单正相关,过度冗长的推理有时反而影响效率。
在解题层面,目前主流大模型在求解数学推理还会遇到这些共同挑战:
复杂参数优化问题( 如第18、19题第2小题ii部分 )对所有模型都构成较大挑战;
几何直觉和代数计算的结合是普遍难点( 如第 18 题第 2 小题 ii 部分 );
数值计算精度在长推理题目中成为关键因素;
最后,除了解题本身,模型在进行结果检验、衡量方法复杂度和自信度、token 预算控制、输出长度、输出多样性等方面如果做的不好,也会很影响可用性,特别是出现大量重复推理、无效推理时,负面体验是最强的。
总之,对于这些动辄号称是 “ 博士水平 ” 的各家大模型来说,我们只能说,在中国高考数学面前,你考个 985 没问题,但你要想考清北,除了 Gemini,其他可能都还得再多练两年。
现在,你知道你身边只靠单纯的高考成绩考上清北的人有多恐怖了吗?
( 本评测基于2025年6月的模型版本进行,随着模型的持续更新,相关结论可能会发生变化。)
撰文:流大古
编辑:大饼
上一篇:燕塘乳业:吴乘云辞去副总经理职务
下一篇:让科技成果入户到田