据微信公众号“中科院物理所”30日消息,近日,中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛,并用 DeepSeek-R1、 GPT-o1和 Claude-sonnet三个AI模型对竞赛试题进行了测试,其中DeepSeek-R1表现最好。
本次测试通过8段对话完成,第一段为开场白,介绍任务和格式要求。随后依次发送7道题目题干(部分题目含图片描述),AI依次回复,中间无人工反馈。随后,将4个模型的答卷分别发送给7位阅卷人,阅卷方式与“天目杯”竞赛一致。最终汇总所有题目得分,结果如下👇
结果点评
1.DeepSeek-R1表现最好。基础题(前三题分数拿满), 第六题还得到了人类选手中未见到的满分,第七题得分较低似乎是因为未能理解题干中“证明”的含义,仅仅重述了待证明的结论,无法得分。查看其思考过程,是存在可以给过程分的步骤的,但最后的答案中这些步骤都没有体现。
2.GPT-o1总分与DeepSeek相差无几。在基础题(二题、三题)中有计算错误导致的失分。相比于DeepSeek,o1的答卷更接近于人类的风格,因此以证明题为主最后一题得分稍高。
3.Claude-sonnet可谓“马失前蹄”,在前两题中连出昏招打了0分,但后续表现跟o1相当接近,连扣分点都是类似的。
4.如果将AI的成绩与人类成绩相比较,则DeepSeek-R1可以进入前三名(获特优奖),但与人类的最高分125分仍有较大差距;GPT-o1进入前五名(获特优奖),Claude-sonnet前十名(获优秀奖)。
测试人员表示,AI的思路真的很好,基本上没有无法下手的题,甚至很多时候一下子就能找到正确的思路。但跟人类不同的是,它们在有正确的思路后, 会在一些很简单的错误里面打转。比如通过看R1的第七题思考过程,就发现它一早就知道要用简正坐标来做,能想到这一步的考生几乎100%求解出了正确的简正坐标,但是R1似乎是在反复的猜测和试错,到最后也没有得到简正坐标的表达式。还有就是 所有的AI似乎都不理解一个“严密”的证明究竟意味着怎样的要求,似乎认为能在形式上凑出答案,就算是证明了。另外,AI如同人类,也会 出现许多“偶然”错误。比如在模拟测试时Claude-sonnet可以正确解出第一题的答案,但正式测试的那次它就偏偏做错了。
对此你怎么看
快来留言讨论吧
来源:综合自中科院物理所
上一篇:金森林热转印技术服务部