假如DeepSeek在溧阳参加“天目杯”理论物理竞赛……
创始人
2025-01-31 15:20:37

据微信公众号“中科院物理所”30日消息,近日,中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛,并用 DeepSeek-R1GPT-o1Claude-sonnet三个AI模型对竞赛试题进行了测试,其中DeepSeek-R1表现最好。

本次测试通过8段对话完成,第一段为开场白,介绍任务和格式要求。随后依次发送7道题目题干(部分题目含图片描述),AI依次回复,中间无人工反馈。随后,将4个模型的答卷分别发送给7位阅卷人,阅卷方式与“天目杯”竞赛一致。最终汇总所有题目得分,结果如下👇

结果点评

1.DeepSeek-R1表现最好。基础题(前三题分数拿满), 第六题还得到了人类选手中未见到的满分,第七题得分较低似乎是因为未能理解题干中“证明”的含义,仅仅重述了待证明的结论,无法得分。查看其思考过程,是存在可以给过程分的步骤的,但最后的答案中这些步骤都没有体现。

2.GPT-o1总分与DeepSeek相差无几。在基础题(二题、三题)中有计算错误导致的失分。相比于DeepSeek,o1的答卷更接近于人类的风格,因此以证明题为主最后一题得分稍高。

3.Claude-sonnet可谓“马失前蹄”,在前两题中连出昏招打了0分,但后续表现跟o1相当接近,连扣分点都是类似的。

4.如果将AI的成绩与人类成绩相比较,则DeepSeek-R1可以进入前三名(获特优奖),但与人类的最高分125分仍有较大差距;GPT-o1进入前五名(获特优奖),Claude-sonnet前十名(获优秀奖)。

测试人员表示,AI的思路真的很好,基本上没有无法下手的题,甚至很多时候一下子就能找到正确的思路。但跟人类不同的是,它们在有正确的思路后, 会在一些很简单的错误里面打转。比如通过看R1的第七题思考过程,就发现它一早就知道要用简正坐标来做,能想到这一步的考生几乎100%求解出了正确的简正坐标,但是R1似乎是在反复的猜测和试错,到最后也没有得到简正坐标的表达式。还有就是 所有的AI似乎都不理解一个“严密”的证明究竟意味着怎样的要求,似乎认为能在形式上凑出答案,就算是证明了。另外,AI如同人类,也会 出现许多“偶然”错误。比如在模拟测试时Claude-sonnet可以正确解出第一题的答案,但正式测试的那次它就偏偏做错了。

对此你怎么看

快来留言讨论吧

来源:综合自中科院物理所

相关内容

热门资讯

日本财务大臣警告称不排除支持日... 日本财务大臣再次警告,包括直接干预汇率在内的所有选项,都可用于应对近期日元疲软的局面。“我已多次声明...
11800元貂皮大衣退货变“油... 辽宁燕女士(化名)花11800元网购了一件貂皮大衣,试穿后觉得不合适,2天后通过平台发起退货。退货前...
祥和实业(603500.SH)... 格隆汇1月16日丨祥和实业(603500.SH)公布,公司与中铁十五局签订了《中铁十五局集团深圳建设...
投资者提问:十月中旬机构调研后... 投资者提问:十月中旬机构调研后过了三个多月没有新的调研吗董秘回答(扬杰科技SZ300373):您好,...
楚天科技:目前未与礼来或其子公... 投资者提问:最近,英伟达和礼来宣布共同成立人工智能联合创新实验室,旨在加速药物研发。目前,公司有和礼...