当大模型成为高考“尖子生”:靠的是什么?
创始人
2025-06-12 12:21:08
0

南方财经记者谭砚文  广州报道

2025高考已经落幕,这场千万学子的人生大考,也成了检验人工智能赋能教育的试金石。

“今年深度推理大模型在高考中的表现堪称亮眼,数学成绩已达到130分以上,而去年,大模型的高考数学成绩普遍只能达到四五十分。”一位大型科技公司人工智能工程师说。

今年,大模型在高考中表现优异,有个别表现出色的大模型,已能在满分60分的语文作文取得53分、总分150分的数学取得145分、满分20分的英语作文取得19.5分,展现出强大的综合实力。

一个大模型能成为高考尖子生,靠的是什么?

专家指出,大模型决战高考,不仅仅比拼的是“题库资源+生成式大模型能力”,人工智能技术能力维度只有足够多、足够广、足够垂直,才能真正赋能教育。

更重要的是,成为高考尖子生并非大模型进阶的终点,人工智能不仅懂考试,也懂教学,将为教育打开新的天地。

语数英高分尖子生

那个在高考语文作文、数学、英语作文中全部表现突出的大模型,是谁?

6月7日高考语文结束后,“全国一卷 难”的话题迅速被推上热搜。

但这难不住大模型。据某媒体6月7日高考语文结束当日进行的测评,讯飞星火大模型的一篇《以歌为刃破长夜 且将热血铸山河》,被曾参与省级“新课标新技术背景下课堂教学探索”系列重点课题的杨小晴老师、海南省名校校本教材编者曹越老师分别打出了52分、54分的高分,名列六款国内主流大模型测评第一。

这篇文章的“叫座”之处是采用了六段式结构,并且每段都有分论点、分析和论据。比如,文章的骨干部分分别以“个体的沉默往往是觉醒的前奏”“艺术的表达从来都是穿越荆棘的利刃”“文明的火种需要在代际传递中永续”牵引各段,紧扣“在逆境中坚守信念,用艺术或行动承担家国责任”的论点,层次分明,起承有序。

评分老师给出了“结构如交响乐章,选材如历史长卷,语言如金石掷地,是一篇兼具思辨性与感染力的考场佳作”的评价。

数学是对深度推理大模型的一场“硬核”检验。据某媒体6月7日高考数学结束当日进行的测评,7款国内外主流深度推理大模型中,讯飞星火表现突出,是唯二突破140分,即便在考生中也达到了“尖子生”标准。而在6月10日另一个自媒体博主进行的测评里,讯飞星火又取得了145分。

参加考试的讯飞星火大模型是在4月20日升级,版本较早,比同场考试的DeepSeek R1早了一个月,但在模型量级更小(70b)的情况下,依然取得了141分的高分。

英语作文与语文作文有一定的相似性,考察的都是语言理解和生成能力。在某媒体的测评中,北京市十一学校一分校英语老师韩宪昌、深圳中学英语教师赵文嘉对讯飞星火的作文分别给出了20分、19分的高分,位列第一。

语文作文的六段式结构体现了讯飞星火的谋篇布局能力,而在这篇英语作文里,讯飞星火的作品同样句式多样,结构精致。比如采用了比较巧妙的“twofold”结构,这在选词准确但句式不够丰富的大模型作文里显得独树一帜。

高分背后的技术秘密

在多项测试里,讯飞星火大模型纷纷拿下语文作文、数学、英语作文的高分,成为高考尖子生靠的是什么?

研究人员给出了详细解读。

语文和英语作文考验的是大模型的文本生成能力,但高考作文侧重的不是生成一篇文学作品,抑或一篇办公文稿,而是在精准分析题目基础上的作答。

在数据层面,“我们在对讯飞星火大模型进行预训练时,会注重从海量的通用数据中有针对性地挖掘有价值的数据。”讯飞星火研发人员说。

科大讯飞扎根教育已经21年,服务了全国5万多所中小学、1.3亿师生,这些数字背后,是科大讯飞对教育的深刻理解与实践沉淀。且科大讯飞深入各地,积累了海量区域化教育数据,能够精准理解各地考情差异。

在算法层面,写作文场景与生成其他文本的场景颇为不同,更加考验大模型的指令跟随能力。这是因为,在生成其他文本的过程中,用户会不断提问和提出要求,大模型从而得到特别具体、精确的提示(prompt);但写作文场景下,大模型得到的只有题目要求,且审题难度极高,学生的习作则差别很大,也就是说,一个理解难度高的题目对应着数以万计的差异化文本,这加大了大模型在训练时进行指令跟随的难度。

对此,“讯飞星火大模型基于‘机器思维链’的深厚基础,深度融合优秀教师的实践智慧,研发出以‘教学思维链’为驱动的教育深度推理大模型。”讯飞星火研发人员说。

这就能够理解,为什么在一众大模型作文中,讯飞星火能写出结构精妙的六段式结构。

“训练讯飞星火大模型的优质数据里,曾出现过这种结构的高分作文。深度思维链大模型理解了这样的优质数据,并通过不断地强化学习,学会了写出这种结构的高分作文。”

据介绍,科大讯飞在教育行业深耕21年,深度参与中考、高考、英语四六级考试、全国普通话水平测试、全国硕士研究生统一招生考试、全国翻译资格水平考试等重大考试服务,掌握中高考智能阅卷、口语评测、作文批改等同源技术。这也让星火对相关教育数据的清洗更加精准,沉淀下来价值更高的数据。

“深度思考+强化学习”的技术方案,也推动大模型今年在高考数学上普遍超过130分。

但为何讯飞星火大模型能取得140分以上的更高分?

“我们做了一些技术创新,包括算法上更加强调目标导向,即强调解题过程与答案的一致性;增加了评语模型,以提高大模型解题每一步骤的准确性,并避免用超纲解法答题;对知识点和解题思路进行了数据合成,从而提高大模型解题的泛化能力。”讯飞星火研发人员说。

值得注意的是,擅长深度思考并不必然擅长解数学题。一位数学自媒体博主对今年高考题目进行测评时发现,“一些大模型的推理思维链很长,而有的考题并没有那么复杂,所以导致它想着想着,就想歪了”。

如何将深度推理精准匹配高考答题?

讯飞星火首个推出了,基于快慢思考的统一模型训练推理方法,充分发挥快慢思考数据相互促进作用,实现基于系统指令控制模型是否深度思考。基于问题难度的大规模多阶段强化学习方法,在复杂推理、数学、代码、语言理解等场景全面提升模型效果及泛化性;同时强化学习动态更新算法,基于样本采样长度动态调整强化学习更新速度,进一步提升深度思考强化学习效率及效果。

答题还建立在一些底层技术基础上,比如OCR能力。只有更加准确地识别,才能让大模型更加准确地理解、更加准确地思考、更加准确地答题。科大讯飞的语音、图文识别技术则屡获国际大赛冠军。正是因为在图文识别、自然语言理解、智能评测等方面的突破,科大讯飞10年前率先在高考中参与了智能辅助评卷的探索。

人工智能赋能因材施教

当大模型能轻松超过绝大多数考生,成为高考尖子生,这是否会给广大学子带来焦虑和不安?

其实完全不会,高考的目的是考查学生的关键能力和核心素养,人工智能赋能培养学生关键能力和核心素养的表现,远远超过了在高考考场上的表现。

当人工智能具备深度推理能力,人工智能赋能教育正在从提升学习成绩升级到提升学业能力。一方面,人工智能实现了作业批改、学情分析、类题推送等方面的重大突破,从而帮助老师和学生更好地教与学、提升学业成绩;另一方面,人工智能基于问题链与思维链进行深度推理,通过苏格拉底式引导帮助学生真正掌握学习方法,做到因材施教。

“同学们,我现在将立方体的这一面填满红色,我们再一起看下这个立方体的展开图是什么样的。”在枣庄市第九中学的课堂上,数学老师王宁在AI黑板上画出一个立方体,点击“展开”功能,立方体随即动态展开,呈现出不同的平面图。“这种动态的展示,不仅让数学知识‘活’起来,让抽象的知识变得更直观,还能进一步激发学生的学习兴趣和探索欲望。”王宁老师笑道。

目前,AI黑板所属的讯飞智慧窗系列产品已在全国4.5万所学校使用,覆盖33个省级行政区、1000多个区县。

“我们正在和七年级16班的学生们一起上课,我们在讨论一件情绪商品,叫做情绪盒子,这是一种管理情绪的卡片游戏,请问星火你是怎么看待情绪盒子的呢?”

在合肥四十六中南校区的《改良“情绪商品”》项目化学习课堂上,王亚运老师通过星火教师助手提问,为学生们引入“第三方视角”的看法,同时通过“分组作答”“实物展台”“课堂讨论”等互动形式,给每位同学展示自己创意的机会。

只要真正用上人工智能,就能打消畏难情绪。成都英华学校以“人人拥有教育教学‘智能体’”为宗旨,组织开展首届教学智能体创建比赛,鼓励教师人人参与,通过讯飞星火大模型“喂养”属于自己的学科教学智能体。

成都英华学校的周老师设计了一节英语写作课,借助人工智能技术引导学生经历自主作文、自主修改、生生相互评阅后自主完善等学习过程。作文自评自改环节,AI作为教学助手在2秒钟内实现了对全班学生作文的检错和评改,完成了老师们平时2小时甚至更长时间的作文批改工作,并同步生成班级作文报告,学生的共性问题和个性问题一目了然。

“我们要有一桶水,才能倒出一碗水。”科大讯飞董事长刘庆峰表示,科大讯飞做教育绝非止步于解题批改的技术层面,而是要因材施教,要五育并举,要能激发人的创造力,要心理健康全面发展。高考提分只是起点,而非终点。大模型对教育的深层变革,在于让每个个体获得适配的学习方法,发现成长的乐趣,这才是技术赋能教育的终极意义。

相关内容

热门资讯

梳理罗帅宇事件 【#梳理罗帅宇事件#】6月13日(报道),实习医生罗帅宇在湖南湘雅二医院坠亡事件引发广泛关注。罗帅宇...
顾家家居两大股东全部股份遭冻结... 来源:环球网 【环球网综合报道】6月11日,顾家家居股份有限公司(简称“顾家家居”)发布公告,披露了...
腾势高管回应“圆规掉头磨胎”:... 6月13日,比亚迪腾势销售事业部总经理赵长江在微博发文,解释“圆规掉头”是否磨胎。赵长江表示,“圆规...
拟新增为新职业!家装行业老大难... 转自:全国总工会  “一早到施工现场巡查,跟进当天施工计划,全天监督施工进度,拍摄视频和照片上传至工...
“未来”啥样?雄安未来城市场景... 中新网雄安6月13日电 题:“未来”啥样?雄安未来城市场景体验周上的“黑科技”作者 裴国荣 韩冰 揭...
关于“韦神”的流量闹剧该落幕了 转自:中工网“大家好,我叫韦东奕,这是我的账号。”短短几天,北京大学数学科学学院助理教授、研究员韦东...
美参议员:以色列袭击伊朗是对中... 转自:上观新闻美国国会参议院军事委员会议员杰克·里德12日晚发表声明说,以色列对伊朗的军事打击是“鲁...
拉布布火爆海外,中国潮玩酷在哪 图片说明:2024年,荷兰阿姆斯特丹泡泡玛特门店外,顾客排队等候。(视觉中国)图片说明:拉布布本报记...
中交信科集团探索大模型赋能智慧... 转自:中国交通新闻网首届交通科技与产业创新发展大会于2025年6月12日至14日在苏州国际博览中心举...
三维化学跌2.00%,成交额8... 6月13日,三维化学盘中下跌2.00%,截至13:20,报8.31元/股,成交8367.95万元,换...
台风“蝴蝶”或紧擦海南岛西部北... 中央气象台6月13日10时继续发布台风黄色预警:今年第1号台风“蝴蝶”(强热带风暴级)的中心今天(1...
沪深两市成交额突破1万亿 预计... 转自:财联社【沪深两市成交额突破1万亿 预计全天成交近1.5万亿】财联社6月13日电,据财联社盯盘数...
Labubu仿冒工厂停工 (转自:科创100ETF基金)  近期东莞多家Labubu仿冒工厂突然停工,引发市场关注。调查显示,...
华光环能投资成立热力公司 人民财讯6月13日电,企查查APP显示,近日,桐乡华鑫热力有限公司成立,法定代表人为汤金锋,注册资本...
海峡阅读大会|AI短视频影展和... 转自:中国台湾网  这是12日举行的颁奖仪式。新华网发 (林晨歌 摄)  新华网福州6月12日电(肖...
南京玄武区开展“6・15”防范...     6月13日上午,以“守住钱袋子・护好幸福家”为主题的2025年玄武区“6・15”防范非法集资...
花旗:重申平安好医生(0183... 花旗发布研报称,在所有医疗服务提供者中,平安好医生(01833)具有最大的潜力,在中国医疗保健体系改...
约旦宣布临时关闭领空,暂停所有... 当地时间6月13日,约旦民用航空管理局宣布临时关闭约旦领空,暂停所有进出和过境航班。此举旨在应对当前...
社保卡里的钱能取出来吗?答案来... 社保卡有社保账户和银行账户账户里面的钱能否取出要分情况来看社保账户通常是指养老保险个人账户余额和医疗...
拜城县:初夏木耳喜丰收 乡村振... 近日,拜城县托克逊乡阔纳协海尔村黑木耳喜获丰收。一排排菌棒上毛木耳长势旺盛,肥厚光亮,煞是喜人,技术...