前不久,第十五届全国周培源大学生力学竞赛(个人赛)举行。设在中国矿业大学(北京)的“AI答题考场”,清华大学学生团队成员在誊抄AI生成的作答。中国力学学会供图
在前不久举行的第十五届全国周培源大学生力学竞赛(个人赛)中,北京市有一名特殊的“考生”。
为了这名“考生”,主办方特意在中国矿业大学(北京)设置“AI答题考场”,并拉起红色横幅。考场内有一台电脑、三名学生和一位监考老师。在答题过程中,还不时地有人来这里观看他们答题。
这三名学生并非考生——他们负责把答案誊抄到纸质试卷上,真正的“考生”置于那台电脑中。这位“AI考生”是由清华大学航天航空学院项目团队自主研发的人工智能力学求解系统——“GT-Mech”。
在这一国内顶级的力学赛事中,“GT-Mech”与来自全国500多所高校的30591名人类考生同时、同卷、同场进行同台竞技,最终成绩达到此次赛事前五名的特等奖水平。
“AI考生”如何获得准考证
“GT-Mech”团队核心成员、来自清华大学行健书院钱学森力学班的大四学生周懿介绍,清华大学航天航空学院多个课题组都关注着AI技术的发展,她也致力于探索AI在航天航空智能化方面的应用。但航天航空是一个复杂的系统工程,周懿苦于寻找切实可行的落地路径。
近几年随着生成式人工智能的迅速发展,不少高校师生开始关注该技术如何应用于科研和教育教学。“课题组的老师经常与我们交流讨论这些问题,比如现存的通用大模型解决本科生遇到的最难的问题,能达到什么程度?”这一提问在清华大学航天航空学院硕士三年级学生李润道心中埋下了一颗种子。
巧合的是,来自同一学院航天动力(维权)学与控制实验室的博二学生宋家隆上学期正好担任理论力学这门课的助教。随着今年年初DeepSeek的横空出世,他尝试使用市面上常见的大模型来解答理论力学的期末考试题,发现效果不尽如人意。
三人的困惑聚集重叠,又指向同一解法。清华大学助理教授程彬启示他们可以研发一款专门求解力学难题的AI系统。
这时,过完春节返校的他们,发现第十五届全国周培源大学生力学竞赛正在报名阶段。作为全国规模最大、影响力最大的顶尖力学赛事,“通常,物理学、航天航空等专业的本科生参赛,也难以取得高分,竞赛题目是非常难的。”宋家隆说。
三人想研发出专门求解力学难题的AI系统,并“真刀真枪”地上“战场”。但竞赛通知中明确写着:参赛对象为“在校大学生及研究生”。
AI系统能参赛吗?这一问题摆在了项目团队的面前。
青年总是勇于尝试。他们通过学校理论力学教研组联系到赛事主办方——中国力学学会,向其表示“正在研发一款用AI求解力学问题的系统,想要参赛”的愿望。
令他们感到意外的是,中国力学学会非常支持。“他们表现出对AI如何启发力学教育、力学发展的兴趣,希望我们去进行更多探索。”周懿说。中国力学学会给这名“AI考生”减免了120元的考试报名费。
为保证竞赛的公平,中国力学学会回复:作为一项新举措,AI系统的参与仅作为技术展示环节,目的在于探索AI技术在力学教育中的应用,其答题成绩不计入正式比赛评奖。不影响排名,不会占用学生的评奖名额。
从稚童到“超级学霸”,“AI考生”只用了两个多月
获得了“准考证”,接下来就是研发环节了。此时距离5月举行的个人赛,只有两个多月的时间。
此前,三人分别尝试用市面上现有的通用大模型来解答复杂的力学问题,但是正确率不高,只给出分析思路,不具体计算求解。“因为通用大模型的数据库里,力学知识的占比应该非常少,知识基础薄弱,对于复杂的力学难题,AI难以读懂题目的意思、理解具体的物理情景,所以是非常难做对题目的。”周懿解释。
相比于人工智能在化学蛋白质折叠、物理学机器学习等方面已获得的成功,它在理论力学及复杂力学问题上的探索,稚嫩得仿佛孩童。
三人聚在一起开始了新的探索。最初,他们的想法还是不断训练现有的生成式人工智能大模型,“团队为通用大模型补充了大量专业的力学知识资料和经典习题,进行专门的语料训练,收效依然甚微。”宋家隆说:“因为这些专业知识与通用大模型的语料库相比,简直是杯水车薪。”
但是,AI解题很大程度上是概率问题。李润道举例:“理论力学的问题与数学计算相似,但更复杂,需要理解题意、使用对应知识点,并将其按照逻辑顺序正确地排列组合,才能推导出正确答案。”
“通用大模型的解题过程比较机械,不会根据条件的变化选择合适的知识点去应用,就像是不那么聪明的学生。”他们甚至对AI的能力产生了怀疑,有些气馁。
该项目指导教师程彬适时提点了三人:“能不能让AI像咱们本科生一样,一步一步去思考解题呢?”
于是,他们尝试把一道复杂的力学问题,拆解成三五步甚至十几个步骤,每个步骤对应一个或几个知识点,将每个步骤分配给一个AI去解决,引入专门的“符号计算”引擎,并安排一个专门的AI来处理每步之间的排列组合和逻辑推导。
两个多月里,他们测试了几乎市面上所有的通用大模型,找出它们的“长处”。宋家隆解释:“我们并不是做了一个大模型,而是集合多个大模型研制出了专门的系统。”
在此基础上,他们还引入了检查纠错机制。回答结束后,系统自动从单位量纲、物理直觉、逻辑严谨性等角度,对题目条件理解、知识点应用、计算推导等环节进行检查纠错,若“报错”就会自动回溯修正。
经过两个多月的训练,“GT-Mech”系统像是集合了多位“学霸”所长的一位“超级学霸”,能达到一位清华力学专业优秀本科毕业生的解题水平。
“如果教与学都不改变,99%的学生都是AI的‘手下败将’?”
清华大学行健书院院长李俊峰得知项目团队的比赛成绩后,在个人社交媒体中转发信息时提出了一个问题:从“基本不会”到“高分获奖”的过程很短。如果我们的教与学都不改变,99%的学生都是AI的“手下败将”?我们要思考一下:在AI时代,力学该怎么教、怎么学、怎么考核?
作为教师的程彬,也对AI的极速迭代发展、应用于教学有所担忧。
因为人的学习曲线是一个厚积薄发的过程,尤其理论力学这类物理学基础知识,对于有志于科研的学生来说,更需打好扎实的基础。“但是随着今年年初DeepSeek火爆,我们发现很多同学十分依赖大模型的使用。甚至有数据监测到,有同学半夜三四点还在和大模型对话。”程彬表示。
他进一步坦言:“这一方面显示了AI大模型陪伴性、即时应答方面的优势,但另一方面,对于刚入学的学生,不理解AI技术边界和缺陷,过度依赖、迷信AI反而会影响他们打好基础和后续学习。”因此,“GT-Mech”目前还处于测试和小范围试用阶段。
“对于李俊峰教授的提问,我暂时也没有答案,还在探索,这个问题亟须每一位教师、社会各界共同思考。”程彬说。
相比于师长们的忧虑较多,年轻人更加乐观、充满期待。“AI还不够智能,不正说明你们的所学和工作不会被AI取代、有意义吗?”面对这一提问,三人的回答十分相似。
周懿表示:“我的目的是探索AI应用于航天航空智能化,从我的视角,我希望AI是一个辅助人类的工具,希望它能尽可能‘好用’。但当时我觉得它离‘好用’的标准有很远的距离,还应该不断地去训练它,让它能更好地辅助我。”
李润道认为:“从蒸汽时代、电气时代到信息时代,科学技术的发展解放了劳动力,让人类社会的生产力得到极大提升。现在,许多团体都在朝着研究通用人工智能的方向努力,我更希望AI在一些专业领域的进步,能够对人类的脑力劳动进行解放和生产力提升。”
宋家隆则谈到他们“航天航空智能化”的目标:“如果AI有朝一日能够从一些基础的脑力劳动开始取代人类,让他们专业地进行更深层的思考和创造设计,就能极大地方便科研人员。”
未来,他们并不想让“GT-Mech”止步于此。虽然“暂时不打算参加接下来举行的第十五届全国周培源大学生力学竞赛‘空间轨道设计’等团体赛”,但是他们还是计划将其不断研发、迭代、“达到航天航空专业在读博士生的水平”,让它也有可能去参加一些航天航空类竞赛。
这依然挑战重重,但“可以期待一下”,周懿表示。
来源:中国青年报