转自:上观新闻
20世纪50年代,现代语言学的重要理论之一——依存语法诞生,其核心思想是通过分析词与词之间的依存关系(如主谓、动宾、修饰等)来揭示句子的结构模式和语义联系。
70多年后的今天,它从冷门变成“显学”,为人工智能(AI)处理自然语言提供了清晰的理论框架和实践工具。随着AI技术向“认知智能”发展,依存语法与深度学习的结合(如将语言学先验知识融入神经网络)成为提升AI语言理解能力的重要方向。
前不久加盟复旦大学的国际知名计量语言学和依存语法研究专家刘海涛,凭借在计量依存语法等领域的研究,连续11年入选爱思唯尔“中国高被引学者”榜单。
在“教机器说人话”的人工智能发展历程中,文科能够助力几何?汉语是不是AI研究的优势语言?初夏的一个上午,记者走进复旦大学外文楼5楼办公室,专访了身穿红蓝格子衬衫的刘海涛教授。
作为一个母语为汉语的中国人,我们很愿意听到对它的赞美。但作为观察人类语言系统规律的研究者,可能要更谨慎、客观地来看待。
周末周刊:您是一位语言学研究专家,研究内容是人类语言中关于句法的普遍规律,而这也可能成为开启人工智能的钥匙之一。DeepSeek崛起之后,有一种声音认为,汉语在研究人工智能的领域中是一种优势工具,能否站在语言学家的立场谈谈您的看法?
刘海涛:这个问题好像给我挖了个“坑”。我也注意到这个说法。作为一个母语为汉语的中国人,我们很愿意听到对它的赞美。但作为观察人类语言系统规律的研究者,可能要更谨慎、客观地来看待。
我查了一下这个说法的来源和根据。有趣的是,检索到的很多相关信息,在很不起眼的地方都标注着“内容由AI生成”。
他们的主要依据有三个:一是汉语相比其他拼音文字来说,文字比较独特。二是汉语是孤立语(特点是词的形态不会随词的语法功能变化)。三是汉语文本的信息熵大,即表达同样内容时,采用汉字的文本最短。
从语言科学的角度来讲,语言和文字不能混为一谈,字和词也不是一回事。从类型学的角度来讲,汉语也不是唯一的孤立语。作为孤立语言来讲,它们既有优点也有缺点,和其他类型的语言一样。
能不能扬长避短,充分利用这些汉语的优势构造出一个更好的我们所希望的人工智能,可能是更值得关注的。以我目前对于大模型的粗浅了解来看,目前广泛采用的大数据+深度学习的AI技术还难以充分利用以上三个特点。
而且,根据团队这些年来基于几十种语言真实语料进行的语言规律的发现和研究,我们看到汉语与人类其他语言之间的共性是多于个性的。因为人类语言的普遍性是由人的生物意义的普遍性来决定的。
不过,在汉语与人类其他语言的比较过程中,我们确实发现了汉语的一个特殊之处,这也是我们在这个方向坚持研究的驱动力之一。
哈德森开玩笑说:你把这个搞清楚了,肯定就名扬全球了。我说我不是很想名扬全球,但这个事情确实值得去搞清楚。
周末周刊:您所说的汉语的特殊之处是什么?
刘海涛:这可能要从依存语法中的一些基本概念说起。依存语法是建立在依存关系基础上的一个现代语法理论。这个理论的一个核心想法是,句子中的词不是孤立的,它和这个句子中的其他词是有关系的,我们把这种关系叫作词之间的依存关系。
比如,在“我吃了一个红苹果”这个句子中,“我”和“吃”之间有一个主语关系,“吃”和“苹果”之间有一个宾语关系。通过这样一些关系,我们就能把一个句子连成一个整体。
这种联系对于我们理解和生成语言的意义何在呢?依存语法的奠基人、法国语言学家泰尼埃讲过这样一句话:“造句就是在一群不定型的词之间建立起一个整体,成为一个整体的各种依存关系,从而赋予这一堆不定型的词以生命;反之,理解一个句子,就是要找出连接句子中各个不同词之间的所有依存关系。”
显然,人的语感单凭一个句子是形成不了的,而是需要许许多多的句子。计算机也是如此。为了发现人类使用语言的句法规律,我们需要千千万万个经过句法分析的句子。对一种语言中大量真实话语进行依存语法标注后的数据,就形成了句法树库。树库不仅是发现句法规律的重要资源,也是机器学习人类语言知识的宝贵源泉,而树库标注是人类语言知识外化的过程。
树库的重要性也可从普遍依存关系(Universal Dependencies)项目的发展看出,该项目可能是目前人工智能领域为数不多的需要语言学家参与的项目。截至2025年5月,该项目已有179种语言的319个可供人工智能领域使用的依存句法标注语料库(树库)。
有了树库,就可以对人类语言进行多层次多角度的分析研究,这种数据驱动的方法所发现的语言的概率性规律,有益于构建可解释的AI,因为大语言模型AI的本质差不多就是“建模自然语言的概率分布”。在我们研究的几十种语言树库里,小的大概有两三万词,大的有几百万词,如此不带感情地把人类的各种语言都抽象出来,就可以形成人类语言的趋势、规律和模式。
这种“抽象”,可以让我们更清晰地看到一种语言的“依存距离”。依存距离指句子中两个有句法关系的词之间的线性距离,其大小取决于间隔词的数量。上面这个例句中,动词 “吃”和宾语“苹果”之间间隔了“了”“一”“个”以及“红”这4个词,因此,它们之间的依存距离是4。
依存距离看起来简单,但实际上,涉及很多不简单的东西。比如,我们在说一句话的时候,说出来的词,怎么排序呢?如果语义密切相关的词相隔太远,这个词就很难找到和它语义直接相关的那个词,所以两个有关系的词一旦在句子中距离较大,比如超过四五个词,不仅你自己记不住,听话的人也难以理解。因此,人在说话时,由于受人类记忆容量的约束,会遵循一种“依存距离最小化”的规律。
所谓依存距离最小化就是指,在造一个句子的时候,我们把句法或语义上相关的词尽可能地靠得近一点,从而使它们之间的“依存距离”尽可能短。
大概在20多年前,我用20种语言的依存树库,发现了“依存距离最小化”可能是人类语言的一种普遍规律。有趣的是,在这20种语言中,汉语的依存距离最大。
当我把这个结果告诉同样是依存语法研究的专家、英国的哈德森(Hudson)教授时,他很激动。在我写的《依存语法的理论与实践》一书的序言中,他这样写道:“刘海涛的研究发现不同语言之间的依存距离是有明显差异的,这是一个极为重要的发现,应当激发更多的后续研究。为什么两种语言的工作记忆容量会如此不同?是不是因为汉语词语更容易记忆,所以以此可以激活更多的词语,或者因为说中国话的人有更大的工作记忆容量?”
后来哈德森开玩笑说:你把这个搞清楚了,肯定就名扬全球了。我说我不是很想名扬全球,但这个事情确实值得去搞清楚。
一系列后续研究表明,哈德森的这些问题不好回答,目前可以肯定的是,汉语的依存距离无论换何种语料都是大于英语的,尽管我们也发现了一些影响依存距离的因素,如汉语的虚词会增加依存距离等,但要回答“讲汉语的人是不是工作记忆就大”这类涉及语言会影响认知结构的重大问题,还需要更多学科的人来合作探究。
这个例子说明,有时候,我们从一个小切口入手,能够引出一些意想不到的东西,而这些东西可能比你原先想要研究的东西更重要。这可能也是科学研究的乐趣之一。
数据与智能的关系对于传统语言学而言,是非常陌生的一个话题。事实上,正是这种陌生使主流语言学与这个时代渐行渐远。
周末周刊:在您看来,人工智能中的“语言学元素”约占多少?语言学中的“AI元素”又是如何产生的?
刘海涛:毫无疑问,人工智能是一个涉及多种学科的交叉学科。在一本名为《大数据入门》的书中,提到了有助于构建AI的学科,其中包括计算机、数学、医学、心理学、工程和语言学。
应该说,在目前的数基智能中,在这几个学科中,起主要作用的是计算机、工程和数学。有一些学科,比如语言学,更多的是一种不提似乎说不过去的东西,是绕不开的。因为语言不仅是智能的窗口,也是这次数智革命的引爆点和人工智能破解人类软件系统的切入点。
但传统意义的语言学对数基智能的价值和意义很小,因为数据与智能的关系对于传统语言学而言,是非常陌生的一个话题。事实上,正是这种陌生使主流语言学与这个时代渐行渐远,也就有了“解雇一个语言学家,系统性能会更好一些”的说法。当然,也有诸如“每当你雇佣一位受过良好训练的语言学家时,你的树库就会更好一些”等更积极的说法。
换言之,人工智能一定是需要语言学的,但需要的可能不是脱离人类日常语言的语言学,而是能从大量日常语言材料中发现语言系统运作的统计规律的语言学,因为语言是一个由人驱动的概率系统。
总的说来,数据、概率、统计、系统、规律等可能是数智时代需要的“AI元素”。这样一来,语言学家需要尽快在自己的研究中引入这些“元素”。与其他语言学理论语法相比,依存语法从一开始就比较重视真实的语言、人们在日常生活中使用的语言。这可能也是它能够在数智时代焕发青春的一个主要原因,因为人工智能要面对的是人类使用的语言,而不是语言研究者们为了验证自己的假说或理论造出来的各种句子。
我关于“依存距离最小化”研究的文章,由于所采用的数据驱动的方法与当时认知科学习惯的方法有很大不同,因此发表之路很艰难,最终发表在2008年的《Journal of Cognitive Science(认知科学杂志)》上,如今已成为该刊被引用最多的文章。这说明,AI需要语言学,但需要的是与时俱进的语言学,需要的是能反映人类语言系统真实运作规律的语言学。
我曾问过DeepSeek这样一个问题:“依存距离最小化对于你理解和生成语言有帮助吗?”
周末周刊:当下有观点认为,语言学为AI提供“语言是什么”的认知框架,AI则为语言学提供“如何建模语言”的验证工具。两者将共同推动“类人智能”的突破,同时深化人类对自身语言能力的理解。如果让大语言模型来学习您的《依存语法的理论与实践》,它会更聪明吗?
刘海涛:通俗地讲,如果人工智能能用自然语言做人类用语言做的事,就可以认为它有了“语言智能”。当然,也有人认为计算机生成的只是数据,而不是语言。如果不是语言,《人类简史》的作者赫拉利也就不会担心说:“人工智能已经破解了语言,它现在可以开始创造文化……这意味着人工智能将能够改变人类思考、感受和行为的方式。”
实事求是地说,人工智能尽管与人的硬件不一样,但其产品(语言)已经与绝大多数人大致相当了,作为智人标志的语言能力,已被人工智能的研究者成功地移植到与人的硬件完全不同的硬件之中了。
语言数据为什么能涌现语言智能?我们整理出一个数据智能生成的链条:数据→模式→知识→网络→智能。其中,从数据到模式(规律)尤为重要,因为今天的数基AI系统就是从这样的海量文本中习得语言规律,并使用这些规律生成符合人类使用习惯的语言符号序列的,而传统的语言研究却对这一机理所知甚少。
我曾问过DeepSeek这样一个问题:“依存距离最小化对于你理解和生成语言有帮助吗?”它的回答是:“依存距离最小化对语言模型(如我)的理解和生成语言确实有重要影响,但这种影响与人类认知的机制有所不同。”最后,它总结道:“依存距离最小化原则间接提升了模型的性能,但其作用机制与人类认知有本质区别——模型是数据规律的‘镜子’,而非认知约束的‘产物’。”
有趣的是,在谈到大模型“学习”的本质时,DeepSeek说,大语言模型的“知识”来源于训练数据中的统计规律,模型会隐式捕捉其中的语言模式,如依存距离的分布规律。而关于人类语言依存距离的分布规律,最早见于我2007年在《Glottometrics》(一本计量语言学国际期刊)上发表的文章中。这也许说明数据驱动的语言研究是可以解释大语言模型的行为的。而将大语言模型隐式捕捉并使语言模式显式化,可能就是语言学家急需做的事情。
DeepSeek的回答也使我们想到这样一个问题,即计算机和人的硬件结构不一样,这样,像依存距离最小化这种由于人类认知约束而产生的语言特征,在计算机看来,就是一种人类语言的规律。因此,尽管机器没有像人类的工作记忆容量的约束,但它需要生成具有依存距离最小化特征的语言,否则,生成的就不是人的语言了。从这个意义上讲,无论是认知驱动,还是规律驱动,最终生成的文本具有共同的规律最重要,而其中人作为语言系统运作的驱动力和语言规律形成推动者是最重要的。
去年获得诺贝尔物理学奖的约翰·霍普菲尔德与杰弗里·辛顿在接受采访的第一时间都表达了对人工智能的担忧,尽管他们是靠这个得奖的。他们为什么担忧?因为将人工智能引入神经网络研究后,后者会有什么发展他们已经预计不到也控制不了了。也就是说,从数据到智能的这个链条中,一个人造黑箱出现了。
今天,我们语言学研究者的责任、语言科学家的责任就是要剖开这个人造黑箱,通过剖开人造黑箱的过程进一步了解我们自身智能发展这个天然黑箱,也有助于构建更安全的AI。这将是一个革命性的改变。所以我觉得我们的责任很大。
医理工科是研究人的“硬件”的,这些学科的进步,把人类平均寿命延长了很多;与此同时,我们对人类“软件”的了解有何进步?这是人文学者需要扪心自问的。
周末周刊:人工智能兴起以后出现很多惶恐和担忧。比如,家长、学生会想:学文科以后我会不会失业?传统文科会不会失去价值了?对此您怎么看?
刘海涛:我对人文学科的理解可能和多数人不太一样。我赞同任博德在《人文学的历史》一书中的观点:人文与科学没有本质区别,只是研究的对象不一样,二者都是探求模式与规律的。也可以说,人文的本质是研究人的“软件”的。
数基人工智能的成功,迫使我们这些研究人类“软件”的人反思:为什么用我们能理解的方式,机器做不好?为什么机器能这样做,我们却理解不了?
举一个语言学习的例子,人的语感是在大量的语言输入过程中形成的,输入得越多,语感就越好。狼孩没有语感,因为没有输入。这说明,语言不是个体的,而是集体的,交际和社会是将个人言语晶化为集体语言的熔炉。数基AI用非传统的方式快速复现了人获得知识的过程,从而使人类软件得以脱离人类生物学意义的硬件而运作。从这个意义上讲,大语言模型或许能提供一个前所未有的可供文科学者破解人类“软件”的标本。
破解人类“软件”,责任在人文学科的研究者身上。医理工科是研究人的“硬件”的,这些学科的进步,把人类平均寿命提高了很多;与此同时,我们对人类“软件”的了解有何进步?这是人文学者需要扪心自问的。我们所有的人文学科都应重视这件事。
正是由于我们对人类“软件”了解的缺乏,我们无法理解为什么AI可以在与人完全不同的硬件上产生不亚于我们人类水平的语言产品。我们急需解开数据涌现智能之谜,这既是挑战,更是人文学者千年不遇的机遇。这机遇也许会让人文研究者成为科幻小说里拯救世界的人。毫无疑问,世界需要文科,人类需要文科生,但文科需要改变。
周末周刊:这个改变主要在哪些层面?是学科分类,还是研究方法?
刘海涛:这种改变可能是全方位的,革命性的。从学科的角度讲,传统意义的文理分科等学科分类,可能会逐渐失去意义,转而以发现规律和解决问题为中心。也就是说,你研究的问题可以不一样,但所用的研究方法,可能并没有太大的区别。
在这种情况下,作为文科人,可能要学习一些目前理工科常用的研究方法,特别是数据驱动的研究方法,因为当前摆在所有文科人面前的最大问题是:数据为什么会涌现智能?对语言学家而言,这个问题具体化为:语言数据为什么会涌现语言智能?
当然,不是所有文科人都要改变,但是必须有人改变,必须先去做这件事情,因为,智能革命不会等待。
周末周刊:每年12月,您都会发布一篇题为“花格老刘的20××”的微信公众号文章,梳理团队一整年的学术故事,从2010年记录至今。为何自称“花格老刘”?对于10年后“花格老刘的2035”,有何畅想?
刘海涛:“老刘”是中国人常用的一个称呼,但这个世界上“老刘”实在太多了,于是就在前面加了“花格”两个字,因为我爱穿花格衬衣。
总的说来,无论我们高不高兴、愿不愿意,世界已经进入一个“人机智能共同体”的时代,而要形成人主导的“共同体”,我们必须对人工智能有更深入的了解,因为了解是形成“共同体”的基础。
为了让人工智能更好地服务于人类,而不是变成智人之上的人造“怪物”,语言学家需要行动起来,努力使“它们”成为“我们”的一部分,为建设更美好的数智社会和更高效的“人机智能共同体”贡献力量。也许这将是“花格老刘的2035”的主要内容。
【人物小传】
刘海涛
国际知名计量语言学和依存语法研究专家,复旦大学文科资深教授,教育部特聘教授,国务院政府特殊津贴专家,国家社科基金重大项目首席专家,连续11年入选爱思唯尔“中国高被引学者”榜单。2010年提出的“依存方向连续统”,被国际学界称为“刘—有向性”。
原标题:《汉语是不是AI研究的优势工具?复旦教授给出答案》
栏目主编:龚丹韵 题图来源:彭德倩摄
题图说明:刘海涛教授近影。
来源:作者:解放日报 彭德倩