MMLU已死?「人类最后考试」登Nature:全球AI模型集体不及格!
创始人
2026-03-07 09:34:25

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:新智元)

新智元报道

编辑:KingHZ

【新智元导读】从高德纳震惊Claude解难题,到陶哲轩称GPT-5.2pro够发Nature数学博士……AI狂飙突进,却在 「人类最后的考试」上集体哑火:最高分不过50%,人类专家还有多大安全区?

AI新闻圈,两天一地震,三天一颠覆,让你目不暇接、眼花缭乱!

或有夸大的地方,但AI日新月异、有目共睹!

「算法分析祖师爷」高德纳见证了Claude解决了一道高难度算法题,发文连用两个「震惊」(shock)。

数学家陶哲轩宣布GPT 5.2 Pro解决了一个数学Erdos难题且完全与之前人类的解法不同,足以拿下数学博士学位了!

此前,更有Claude Code引发的Vibe Coding热潮。

至于各种长期存在的基准测试,AI取得优异成绩已不足为怪!

AI研究人员早已意识到问题:这些测试太简单了。

像大规模多任务语言理解(MMLU)这类曾被视为难度颇高的热门评测,如今已无法有效检验先进AI系统的真实水平

问题在于:AI模型发展得如此之快,基准测试正难以跟上其步伐,难以确保AI安全有效。

在MMLU等热门基准测试中,大语言模型的准确率现已超过90%,早已「饱和」。

「人类最后的考试」的新AI测试基准,或许能提供解决方案。

各大LLM在不同基准上准确率的对比

最近,这篇合作名单巨长的论文,正式登上顶刊Nature!

链接:https://www.nature.com/articles/s41586-025-09962-4

顺便提一句,Alexandr Wang还在Scale AI时,相关工作已发表在预印本平台Arxiv。

AI基准:测试,再测试

从性能和安全等角度来看,测试大语言模型有多种不同的方法。

例如,在发布前,AI开发人员会评估大语言模型被用于恶意目的的抵抗能力。

此外,还有一些独立组织对大语言模型进行评估,比如评估大语言模型被用于自主利用软件漏洞的风险。

然而,这些测试通常只涵盖狭窄的学科领域,或者只包含少量任务。

为了比较模型而创建更广泛、标准化基准的尝试包括MMLU,它使用大约16000道多项选择题来测试模型的通用知识和解决问题的能力。

但很快,过去那些曾经很难的考试,现在对AI来说已经变成了「送分题」。

为了弥补这一差距,近1000名研究人员组成的全球联盟创建了「人类最后的考试」(Humanity’s Last Exam,HLE。

该测试由AI安全中心CAIS和Scale AI的一个团队开发,包含由全球研究人员提交的3000个具有挑战性的问题,旨在成为衡量大语言模型能力的终极基准

这项基准测试覆盖面极广、挑战性极高、深深植根于人类专家知识,以至于当前最强的AI准确率也不足50%。

「人类最后的考试」共包含2500道问题,涵盖数学、人文学科、自然科学、古代语言以及高度专业化的子领域。

问题学科分布

这些题目非常专业:从翻译古代巴尔米拉铭文,到识别鸟类的显微解剖结构,再到分析圣经希伯来语发音的复杂特征。

每道题都经过了领先AI模型的测试。如果有任何系统能答对,该题就会被剔除。最终形成的是一项经过精心设计、恰好处于当前AI能力边界之外的考试。

从7万到提交的难题中,精挑细选出了其中的2500道题目

结果也证实了这一点。

早期结果显示,即使是最先进的模型也举步维艰:

新基准为何重要

德州农工大学计算机科学与工程系的教学副教授Tung Nguyen,他参与了问题的撰写和完善工作。

他贡献了2500道公开考题中的73道(贡献量位居第二),并且在数学和计算机科学领域撰写的题目数量最多。

最近,他分享了对「人类最后的考试」的思考。

「当AI系统开始在人类设定的基准测试中表现得极为出色时,人们很容易认为它们正在接近人类水平的理解力,」Tung Nguyen说道。

但HLE提醒我们,智能不仅仅是模式识别——它关乎深度、背景和专业化的知识。

这个考试的目的并非难倒人类。而是要精确、系统地揭示出AI目前——至少是现阶段——还无法做到的事情。

链接:lastexam.ai

Tung Nguyen表示,AI超越传统基准的问题远超学术层面。

「如果没有准确的评估工具,政策制定者、开发者和用户就可能误解AI系统的实际能力,」他说。「基准测试为衡量进展和识别风险提供了基础。

正如团队论文所指出的,虽然AI可能在为人类设计的考试中表现出色,但这些测试不一定在衡量「智能」。

尽管名字听起来有点「末日」感,但「人类最后的考试」并非意在暗示人类重要性的终结。

相反,它突显了仍有大量知识是独一无二地属于人类的,以及AI还需要走多远。

Tung Nguyen坦言:「这个名字有点半开玩笑的意味」。

重要的是背后的理念:

这是人类对AI的设置的最后一道难关。如果AI能通过这项考试,就意味着它达到了某种专业化的人类专家水平,而这在以前被认为是机器不可能做到的。

因为HLE涵盖了从核物理到古代史的所有领域,所以没人能通过单打独斗的通过整个考试。

然而,特定领域的人类专家可以轻松回答其专业领域内的问题,而AI在几乎所有类别上都失败了。

为什么AI还会失败?

原因在于AI擅长模式识别和总结已知数据,但它难以处理深度、专业化的背景知识。

HLE提出的问题需要多年的专门研究。在这些问题上,基于常见互联网数据的「猜测」行不通。

参考资料:

https://www.nature.com/articles/s41586-025-09962-4

https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/

相关内容

热门资讯

国家卫健委:截至目前已经有33... 十四届全国人大四次会议今天(7日)举行民生主题记者会。国家卫生健康委员会主任雷海潮介绍,“十四五”时...
“孩子一出生就自带口粮、自带工... 本文来自微信公众号“大象新闻”3月7日上午,民生主题记者会召开,教育部部长怀进鹏、民政部部长陆治原、...
两会记者会 | 教育部部长怀进... 让3月7日,十四届全国人大四次会议举行民生主题记者会,邀请教育部、民政部、人力资源和社会保障部、文化...
文旅部谈春节出游:更多老人买了... 十四届全国人大四次会议7日举行民生主题记者会。文化和旅游部部长孙业礼表示,今年的春节假期,文化和旅游...
疑似“王兴兴相亲帖”被发现,要... 近日,宇树科技创始人王兴兴被网友发现在相亲平台的相亲帖,相关信息迅速引发热议。其主页经过平台官方实名...