陈松蹊院士:统计学如何“丈量万物”?
创始人
2026-02-07 09:00:15

从古代治理的人口税收,到现代科研的规律探寻,有一门学科在时光长河中不断沉淀迭代。它孕育出贝叶斯模型这样的经典理论,衍生出蒙特卡罗算法这样的关键工具,用严谨的数理逻辑为无数领域的突破铺路,它便是统计学。在日新月异的AI时代,这门古老学科能否焕发全新生机,又将如何与AI深度交融、相辅相成?

《数据之上》第一期:对话中国科学院院士、清华大学讲席教授陈松蹊

当秦朝小吏在竹简上刻下户籍与田亩的数字;当达尔文在加拉帕戈斯群岛观察雀鸟喙部的细微差异;当罗纳德·费希尔在试验田里设计随机排列的区块,叩问产量的真相。人类文明对世界的理解,始于一场绵延数千年的、对万物的丈量 —— 统计。

统计远不止于我们印象中的数字堆砌与图表绘制,它是一种关乎秩序、证据与不确定性的底层哲学,是理性在混沌中绘制地图、在流变中锚定坐标的尝试。

本期茶思下午茶,中国科学院院士、清华大学讲席教授陈松蹊接受了专访。这位深耕统计领域的学者将带领我们追溯这门学科如何从国家治理的实用工具,演变为洞察自然规律、驱动科技革命、乃至审视社会结构的核心方法论。在他的叙述中,统计学不仅是 AI 赖以生存的数理根基,更是穿越时空的思维范式——让我们在数据的星河中,辨认出确定的规律,为不确定的世界,找到可以依循的光迹。

观点摘要:

1、即便在当下的国内,仍有一种根深蒂固的认知:一提到统计学,就会下意识联想到政府统计,想到国家统计局的相关工作。但事实上,统计学的范畴远不止于此。

2、如今在统计学乃至人工智能领域广泛应用的极大似然估计(likelihood theory)、方差分析等,也均由罗纳德·费希尔早年在农业实验站工作时期提出。

3、人们有时会忽略统计学的数理根基,但实际上,它恰恰是关键所在。统计学正是人工智能的重要基础。若缺乏这一基础,人工智能的可靠性、适用范围与可信度都会受到影响。

4、从学科发展角度来讲,应用场景对我们非常重要,我们需要让统计介入到各个领域。所以我的团队先从大气污染研究切入,现在也拓展到大气海洋、数据同化、医学、气候变化等领域,同时也在开展相关的数理统计方法的研究。我也希望通过这种方式来引导年轻人多做各领域的交叉落地研究。

以下为访谈文字实录:

问题1:

统计学的发展史中有哪些重大的研究突破?

陈院士:统计学的发展历史源远流长。从中世纪开始,包括中国秦朝,如商鞅当时便提出治国需有13个数据,比如户籍、土地、军队数量、财政收入等各个方面,这便是早期典型的政府统计。所以统计学最早是对政府来讲非常有用的,即便在当下的国内,仍有一种根深蒂固的认知:一提到统计学,就会下意识联想到政府统计,想到国家统计局的相关工作。但事实上,统计学的范畴远不止于此。

到了工业革命之后,尤其是从哲学领域来看,发源于英国的实证主义(Empiricism)逐渐兴起。这一哲学流派认为,任何科学研究过程中,都必须通过实证来验证理论的有效性。但从数学与物理学的发展路径来看则有所不同:理论物理的发展主要依赖数学工具,而我们数学的研究方式,是通过严谨的数学推理展开的,这是另一种核心研究范式。

然而在自然科学领域,如生物学、医学,其研究结论的验证高度依赖实证,最明显的就是达尔文进化论。也正因此,达尔文进化论对统计学发展意义重大,尤其是推动了人口遗传学和早期统计学的发展。

在后达尔文时代,达尔文的表弟弗朗西斯・高尔顿(Francis Galton),选择从种群进化的视角进一步验证达尔文的进化论。他发现了个子较矮的父母,其子女身高往往会略高;反之,个子较高的父母,子女身高则可能略矮。这种“趋中”特征能维持种群性状的稳定,避免某一性状因极端遗传走向“不自然”。这就是群体的均值回归现象,回归是重要的统计与AI方法。

弗朗西斯·高尔顿(Francis Galton,1822年2月16日—1911年1月17日)英国科学家、探险家和统计学家,他着重研究个别差异,从遗传的角度研究个别差异形成的原因,开创了优生学。

在高尔顿之后,卡尔・皮尔逊(Karl Pearson)继承了这一研究方向。就是他提出了“相关系数”,厘清“相关”与“因果”的核心区别,他是我们现代统计学的另外一个鼻祖。为自19世纪初兴起的“社会物理学”(即社会科学)思潮提供了重要工具。在统计方法层面,列联表(contingency table)以及众多常用X²检验方法,均由皮尔逊首创。他通过采集看似有争议的数据集(如酗酒是否对后代有不利影响),并进行统计分析,得到看似有争议的结论(父母酗酒对后代并无显著影响),引起公开辩论,在其中提升了大众对统计学与实证分析的了解。

卡尔·皮尔逊(Karl Pearson,1857年3月27日~1936年4月27日)是英国数学家,生物统计学家,数理统计学的创立者。

此后的罗纳德・费希尔(Ronald Fisher)同样关键,皮尔逊和费希尔都具备深厚的数学功底。皮尔逊本就出身数学领域,费希尔则接受过数学与天文学的本科训练。而在当时,统计学尚未发展成一门独立学科。直到 1911 年,皮尔逊在伦敦大学学院创立了全球首个统计系,才为这一学科奠定了独立发展的基础。因此,高尔顿、皮尔逊与费希尔,堪称现代统计学发展的核心奠基人。

在统计学教育领域,1911 年全球首个统计系的成立(由皮尔逊推动),正是为了回应实证科学对数据分析的需求,就是与刚才说到的实证主义哲学一脉相承,也印证了科学研究需依托正确的科学方法,通过实证数据分析得出科学的结论,这也是为什么近100多年来,统计学承接了科学实证的方法论,成为众多学科的必修课。

皮尔逊在19世纪末,具体年代应该是1890年左右,他撰写了一本书叫《科学的语法》(《Grammar of Science》)一书。这本书系统讲解了怎么分析数据,在当时对推动科学发展意义重大。

费希尔比皮尔逊晚30多年,他早年完成了一项非常重要的工作:孟德尔的遗传理论和达尔文的进化论,二者在当时看来存在一定矛盾,而费希尔通过严谨的统计分析,成功化解了这一争议,证明两者的核心逻辑其实是一致的。这项成果让他一举成名,彼时的他刚从剑桥大学毕业后到一所中学去教书。

罗纳德·费希尔(Ronald Aylmer Fisher,1890年-1962年),英国统计学家与遗传学家, 1909年入剑桥大学冈维尔与凯斯学院学习农业,后成为现代统计科学奠基人之一。其1925年引入的随机化原则形成了随机对照实验法,成为科学研究基础方法论。

凭借这个成果,费希尔顺利获得了到伦敦北郊英国农业部一个农业实验站的统计师岗位。那个实验站汇聚了生物学家、生物化学家与统计学者。他在实验站的工作主要聚焦于优良种子培育,这对农业高产解决粮食问题至关重要。当时的关键难题是:同一片土地上种子产量的差异,究竟源于种子本身的品质,还是地块肥力的高低?这类问题必须通过随机统计实验才能厘清,而费希尔在此期间做了非常重要的成就,包括随机化思想实验设计方法,包括如今在统计学乃至人工智能领域广泛应用的极大似然估计(likelihood theory)、方差分析等,均由他在这一时期提出。

他还撰写了《研究者用的统计学》(《Statistical Methods for Research Workers》)一书,初版于 20 世纪二三十年代,此后长期再版,直至 1990 年仍在印刷,前后共发行十余版。在近半个世纪,很多生物医学里边教的统计课程都是用的这本书,非常受欢迎,是一本科学的实证数据分析(统计分析)的好教材。

问题2:

大模型时代,统计学如何与AI协同发展?

陈院士:其实我们刚才谈到了这个问题,人们有时会忽略统计学的数理根基,但实际上,它恰恰是关键所在。因为如果你看当下的工程领域:现在修路、造桥都离不开力学这一重要根基。如果没有力学支撑,桥梁便会出现问题。这也同样适用于人工智能领域,统计学正是它的重要基础。若缺乏这一基础,人工智能的可靠性、适用范围与可信度都会受到影响。

尽管AI算法已经很先进,能力很强,但现代科学实证分析体系仍是统计学的。具体来讲,参数估计与模型精度确定,科学假设验证和不确定度量仍然是统计科学已经建立的体系,AI只是把其中的某些统计步骤(如建模、预测、识别)做得更强,但实证分析的科学框架仍是统计学的。

给大家讲两个在清华大学成立统计与数据科学系过程中的事情。在第一次校内论证会上,有许多位其他学院老师建议让他们的博士生修统计学硕士,这样他们的博士生数据分析能力能得到有效提升。

在第二次学校学术委员会的讨论中,有一位委员问道:“清华刚成立了AI学院,为什么还要成立统计系?”这时一个计算机委员回答道:“人工智能的许多算法是统计学的,统计学是AI的基础。”

任正非先生也曾经说过:人工智能就是统计学,也是计算机科学。实际上人工智能是由两个学科来共同承担的,一个是更工程化的,一个是更数理基础的。

其实这几年,我们一直在呼吁将统计学纳入基础学科范畴。我连续三年的政协提案都围绕这一方向,并取得了一些可喜的结果。教育部的相关领导,相关司非常支持我们。

也正因此,2024年统计学成功纳入“基础学科人才培养教材和课程 101 计划”(简称 “101 计划”),在当年11月开始布局启动这个项目。去年7月,我们在云南发布了统计学“101计划”13门课程大纲的白皮书,完整呈现我们“101计划”的整体设计。这对统计学学科建设和基础人才培养来说,非常重要。

*“101计划”是拔尖创新人才培养的一项筑基性工程,由教育部统筹,汇聚顶尖高校、顶尖师资、顶尖出版单位等各方资源,以课程、教材、教师和实践项目等基础要素建设,来带动教育教学系统改革。

哥伦比亚大学统计系的郑田教授也对这个非常感兴趣,想了解我们计划的课程设置与整体设计布局。她认为,我们可以作为引领国际统计与数据科学教育的切入点,因为这样的整体设计思路对包括美国在内国家相关学科建设有借鉴意义。

从目前情况来看,我觉得我们在统计学基础学科人才培养的系统性规划上,已走在了美国前面。

问题3:

在学科研究的视角下,我国统计学发展现状如何?

陈院士:和中国其他学科一样,近15年统计学的进步也非常快。我们梳理了过去十几年的研究发表数据,发现目前中国在统计学顶级期刊的发表量已位居世界第二,无论是Top 10还是Top 4的期刊,均是如此。

美国仍是第一,其占比接近50%;中国的占比则在 9%-11% 之间,持续上升,已超过英国、法国等欧洲国家,仅次于美国。要知道,这些年我们对统计学科的整体投入并不算多。从国家到各个学校的布局来看,设有统计系的顶尖院校数量有限,所以这个结果还是非常难得的。

去年在杭州举办的第三届统计与数据科学联合会议,从首届北京、去年昆明到这次的杭州,每届1800~2000名参会者中有差不多15%的来自海外。在现在的国际环境下,还是挺不容易的,这类国际交流对学科发展本身也至关重要。

从学科发展角度来讲,应用场景对我们非常重要,我们需要让统计介入到各个领域。我最初的研究方向是理论统计,而不是应用统计。但我回国后发现我们应该让统计深入地落地到实际场景中。所以我的团队先从大气污染研究切入,现在也拓展到大气海洋、数据同化、医学、气候变化等领域,同时也在开展相关的统计理论与方法的研究。

目前我的团队中,做纯方法与理论研究的成员的比例占三分之一,其余三分之二都是做交叉研究。所以我也希望通过这种方式来引导年轻人多做各领域的落地研究。

问题4:

请您给年轻的学者们推荐三本书

陈院士:这是个好问题。专业类的书籍有很多,理论类书籍我就不说了。但我觉得科普类书籍,可以看一下芝加哥大学 Stigler 教授写的《Statistics on the Table》,它聚焦统计学思想的发展史,清晰梳理了从高尔顿、皮尔逊到费希尔的完整发展脉络,书中还有非常丰富的案例。

另一本是《女士品茶》,这本书围绕“女士品茶”经典故事展开,核心讲解了统计学中 “随机化”(randomization)这一关键思想,既生动又易懂。

《女士品茶》(《The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century》)一书是美国统计学家戴维·萨尔斯伯格创作的统计学科普著作,全书以20世纪英国剑桥大学“女士品茶”实验为切入点,追溯统计学从方法论雏形到系统学科的发展历程。作品通过皮尔逊父子、费希尔等统计学家的理论交锋,串联起拟合优度检验、贝叶斯定理等概念的演进逻辑。

除此之外,我觉得也可以看一下,比如费希尔那本经典著作《Statistical Methods for Research Workers》,这本书里面有很多详细的统计学思想,主要是聚焦“统计学如何变革科学与生活”。

结语

陈松蹊院士带我们了解的远不止一门学科,更是一把跨越千年的“量尺”:从秦简上商鞅治国的户籍土地数据,到达尔文进化论背后种群观察的实证逻辑,这把量尺早就在丈量着文明的运转。

而当镜头聚焦这位深耕统计领域的学者自身,我们也看见了“丈量”的另一种力量:他从理论统计转向应用落地,带着团队从大气污染研究切入,拓展到大气海洋、医学、气候变化等交叉领域,让超50%的成员扎根实际场景,这恰是他所说“让统计介入各个领域”的生动实践。

或许这就是统计学的魅力:它从不只是数字与公式,而是帮我们丈量自然规律、科技边界、社会问题的底层逻辑,让每一次探索都有章可循,每一步前行都有据可依。

相关内容

热门资讯

重庆明确“十五五”城市治理方向...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:上游新闻)2...
重大转变!美军售不再“先到先得... 特朗普签令调整军售排序:不再“先到先得”,优先考虑防务投入更高的客户据路透社报道,白宫当地时间6日表...
雪、雨夹雪、结冰,甘肃多条高速... 截至2月7日7时30分,我省高速公路武威、兰州、定西、临夏、甘南部分路段小雪,陇南路段雨夹雪,其余路...
最新或2023(历届)甘肃中医... 最新或2023(历届)开学时间未公布,以下是该校历年开学注意事项,仅供参考:1、一般高校对外地新生都...
最新或2023(历届)兰州商学... 兰州财经大学陇桥学院于2000年3月经甘肃省政府批准成立,是国家教育部第一批确认的全日制普通本科层次...