转自:上观新闻
《钱锺书手稿集·中文笔记》及钱锺书中外文手稿
2003年,商务印书馆影印出版了《钱锺书手稿集》的头三卷,题为《容安馆札记》(此后十二年间又影印了68卷《中文笔记》《外文笔记》)。这是钱锺书在1953—1973年二十年间撰写的札记体论著,《七缀集》里的部分论文、《谈艺录》的补订和《管锥编》基本框架,都出于此。手稿正文外夹杂众多补白,又语涉多种文字,纷繁交错,常人难以辨识,就连目录都未能整理出来,故虽然钱锺书闻名于世,却一时少人问津。
2005年读博士时,我受《万象》杂志刊发刘永翔、刘铮、范旭仑等先生文章影响,对《容安馆札记》产生兴趣,深感这是一个富矿,若要开掘,还需下很大功夫;于是从中文系资料室借阅此书,开始对其中一些篇章誊抄整理,并在毕业后逐渐写成文章。之所以采用手写誊抄而不是录入电脑,是因为起初我还很喜欢钱锺书的书法,想要学习摹仿,也由此可以进一步熟悉他书写中西文字的一些习惯,还能再提高我释读手稿的能力。
后有旅美华人“犹今视昔”先生,在网上定期发布他对《容安馆札记》整理的电子文本,起初进展速度比较慢,且有不少问题;后来逐渐上手,显然是熟悉了钱先生的手写习惯和札记补白的规律,并且有不少热心的网友积极帮他校对文本,甚至提供一些查找相关电子文献的资源或方法。文本电子化便于检索,抄写在纸册上的常规作业完全无法实现这一步。“犹今视昔”先生坚持多年,终于完成了全部《容安馆札记》手稿的释文近300万字,无偿发布于互联网,嘉惠学林,功劳最大。后来有些学者的研究成果,包括硕博研究生的学位论文,对此多有借鉴。
我自己做钱锺书研究,也几乎都先进行《容安馆札记》的全文检索,这比人力的通读省力,由而可以在很多地方达到比较具有纵深度的思考起点。当然,我并不完全信任他人的整理文本,在论述中具体引用时还是会同时查对手稿的影印本原文。“犹今视昔”先生曾在微博与我通信,说起还有意愿去完成一个多元文本的数据库,在手稿释文中建立若干超链接。我的理解,这除了把释文和手稿原件直接对应起来外,至少可以关联起对于钱锺书旁征博引中西古今著作的原文段落乃至整部同版本书籍,也可以建立文本疑难字词的权威工具书解释,引用不同语种文字的重要译本,乃至图像和其他多媒体资源。
《钱锺书手稿集·中文笔记》及钱锺书中外文手稿
畅想一个手迹“标准件”的数据库
技术条件的时代进步的确是可以和人文学术研究的动态发展协调同步的。这种数据库的建设方式,其实就类似我们读书做学问的过程,包括了文献的汇集关联,字句的解释译述。我现在研究钱锺书的学术思想和读书意趣,特别关注个人阅读史的视角,借用书籍史、出版史、学术史和文学批评史几方面的方法进行考据辨析,所入手处大概与上述数据库的局部建设思路有些相当。出于对钱锺书读书笔记的喜爱,我于其所读书都极为渴望一睹真容,这包括公家图书馆里借阅的原件以及借书卡上的签字和日期,他本人的藏书以及上面的圈划批语。我并不奢求物品原件上的占有,往往能得到朋友们赐示的相关图片就很满足。此外,我的几位朋友,特别是热衷于近代文献与掌故学的宋希於先生,曾经谈到一个“标准件”数据库的概念,大概意思就是,在手稿研究中,把确认无误的、书写者盛年最成熟的或最具代表性的手迹,逐字建立单件的高清图像,以便于调用参考——这些也都是可以由数据库建设做到的。
大而言之,几乎一切人文教育都应该是如此开展的,譬如西方古典学界早已开始建设的珀耳修斯数据库(Perseus Digital Library),提供了古希腊罗马文学名著的原始文本和英译对照,原文逐字直接链接权威辞书,并且涵盖历史地图、哲学文献、考古资料(如钱币、雕塑图像)及艺术史内容,从而支持多维度研究古典文明,促进文学、历史、艺术等领域的交叉分析。这种设计架构,很类似于19世纪西欧人文中学里的古典语文学教育,当时很多古典名著的中学读本强调注释要丰富吸收学术界成果,并以图文并茂的方式,藉由一部经典使读者了解整个古典文化,旨在使人掌握读书门径,而非将发表创新论文作为第一目标。数据库建设可以将这个宗旨发挥到极致,也不妨呼应时代的需要。当前AI技术日新月异,假如建成手迹标准件的数据库,是否意味着最终实现手稿的智能识别和释读?就目前所见的一些技术,在这个方面实际效果并不理想。
更切实一点说,目前网络搜索+高校局域网资源的好处,在于即便没有现成的数据库,我们也能通过常规手段在自己电脑上获取所需的大多数文献资料。但令我深感费解的是,目前可以通过电脑、手机免费获取的常用AI软件,比如DeepSeek、豆包、Kimi等,都有一些解答问题时因处理中外文文献搜集方面能力不足而造成的缺憾。如果是提供了明确的题目,或是作者姓名和研究主题,豆包、Kimi都能较高效地迅速找到,其中Kimi的答案更为实用,提供了多渠道获取相关资料的链接,而DS面对同样问题却经常不能给出满意答复。我怀疑某些情况属于知识产权保护的问题,DS或考虑到“树大招风”,于是只能“装傻”。
这样一来,必须要在自己科研环境里提供与AI设备外接的相关数据库才行。而目前是无法考虑专门架设私有AI或单独服务器的企业级手段的,那样造价高昂,作为人文学科的“单打独斗”者完全无力承担。我直接咨询过DeepSeek,像《容安馆札记》这样近300万字的文本,在个人电脑上如何实现深度分析。DS答复说可使用目前市价大约一万三千元人民币的笔记本电脑(例如ThinkPad P1 Gen4,配置i7-11850H/32GB/RTX 3070),就能实现优化算法、分层处理等等。它还提供了一组实测数据,即所谓“处理《管锥编》第四卷(约35万字)耗时约18小时”后的关键指标:
自动识别典籍引用824处;
构建包含217个节点的概念网络;
生成交互式学术地图5幅;
内存峰值控制在22.3GB。
这听起来似乎可行。但是在我进一步要求下,DS展示了“自动识别典籍引用”的功能,可以迅速分析总结钱锺书多次引用的某部典籍的具体场合性质分析,比如引《周易》83次,“52次出现在阐释‘比兴’手法的章节,31次分布在讨论‘象数思维’的段落”(我怀疑数据不一定准确,仅是说明其有所作为而已)。概念网络图大概就是用节点代表概念,以连线表示关系的图示,节点大小表示概念重要性,连线粗细表示关联强度。除了学界已经注意的一些概念关联,还“识别出3个未被传统研究注意到的次要概念集群”,对此DS未展示其具体细节,在后续的追问中才给出很复杂的描述。我发现一个最大的问题是,DS此时展示的所有具体例证都无法在《管锥编》里查到,甚至为了体现交互式学术地图时编造说《管锥编》提到过蒋彝的《爱丁堡画记》。最后,在我揭穿它在整个展示中提到的引文全都是凭空捏造时,它答复说:
我的回应中存在编造引文的情况,这可能是因为在演示方法时,为了方便而假设了例子,但未明确说明这些是虚构的。
此后,我再三请求它根据实际文本说话,DS仍然时不时来一句诸如“该观点在1972年修订版中强化”这样的鬼话(《管锥编》初刊于1979年以后)。不管如何,即便是我们现在付得起高昂造价架设了私家服务器,派遣上专门的工程技术人员,就由上面DS为我“画饼”(接近引诱我去斥资搞设备建设)来看,目前阶段下的人工智能技术仍不令人满意。它也许可以提供给我们一些意想不到的研究视角和大批量分析处理《管锥编》文本的统计性数据,但对于我更关心的如何让学生们高效率地读书而言,这些高大上的智能挖掘根本起不到什么作用。
《钱锺书手稿集·中文笔记》及钱锺书中外文手稿
目前人工智能可为《管锥编》精读提供的帮助
在中文系学生们开始搞什么模态分析、词频调研这些超乎人工阅读能力所及的工作之前,能否先带领他们认真读一读《管锥编》中的具体段落?或者说,我们现在就应该准确地向AI技术开发人员表达出我们在人文学术特别是文学教育的方面,需要的帮助是什么?我认为挑选阅读难度最大的文本诸如《管锥编》,恰恰是最为合适的例子。我在系里面向硕博研究生开设了一门专书选读的课程,在每年春季学期带学生读《管锥编》,大致是挑选书中涉及修辞学、心理学、历史学和政教文化的一些主题,每次细读相关的代表性片段。
但这里出现了一个新的问题。《管锥编》是一部札记体著作,其性质与上面的《容安馆札记》有类似之处。之前,我使用AI软件阅读一些中外文电子书时确实受益很大,它可以非常迅速地总结并提供要点概述,其实是因为这些书籍都属于现代规范的学术著作,本身就自带引言、目录、章节总结性质的文字。而实际上,这些免费软件都无法读完一本20万字的书,它们大概扫描内容达到百分之五六十而已,做的根本就是类似“杀书头”这样的活儿。札记体著作不存在顺理成章的结构,各篇结构相对松散,因此DS在分析我给出的《管锥编》全书文本时就不再能驾驭全局,而只能根据不到内容前10%的部分,来进行总结。这样一来,学生们就无法通过AI用切实结合文本的方式检览相关主题,有些软件会像学生中某些“大聪明”那样,无视附件里它未读完的文本而“任意发挥”,这样危害当然更大。
AI能够超越钱锺书的学术成就吗
我们不要忘记,在八十年代,身为社科院副院长的钱锺书也是最先组织人员利用计算机建设古籍数据库的提倡者(参看郑永晓先生论文《钱锺书与中国社科院古代典籍数字化工程》)。他曾提到过“人工知能”,即今所谓“人工智能”。这不是他发明的译法,早在七十年代中期,国内科学界已经注意并摘译、介绍“人工智能”相关研究,就有此概念了(见1974年上海外国自然科学哲学著作编译组《摘译》第2期)。钱锺书积极迎接这一新事物,曾说“对新事物的抗拒是历史上常有的现象,抗拒新事物到头来的失败也是历史常给人的教训”(《论语数据库》序,1987年12月)。1989年5月,当《全唐诗》数据库发布,他致函院新闻发言人,更明确表达了对科技辅助人文学术工作的重视:
关于《全唐诗》速检系统的工作获得可喜的成果……作为一个对《全唐诗》有兴趣的人,我经常感到寻检词句的困难,对于这个成果提供的绝大便利,更有由衷的欣悦。这是人工知能在中国古典文学研究上的重要贡献。
实际上,人们或者就把《管锥编》这部征引了七八千种中西典籍的学术著作,看成是一种计算机数据库发达后可以超越的工作。从某个意义上说,从《容安馆札记》到《管锥编》,这样调取不同语种相关文献数据进行比对的做法,正可以看成是一种“人工智能”技术在未来突破人文学术已有成就的探索模式的真正代表。钱锺书倾其一生投身于读书治学,《管锥编》堪称其重要成果。这不禁让人脑洞大开,产生这样一种设想与怀疑:钱锺书是否早已预见到,AI技术在未来的某一天会超越他所取得的学术成就?虽说这只是大胆猜测,但如果该设想成立,那么或许就能解释,为何在《管锥编》问世后的二十年里,他并未动手写成计划里的续编——难道在他看来,再继续下去的意义已然不大了?身为人文学者和钱锺书研究者,我自然不愿意接受这种设想。《管锥编》里呈现的不止是技术性的中西学问陈列,更重要之处在于钱锺书从古今修辞语义问题背后来深切关注当下社会心理乃至人类精神之境遇的思考。AI技术提供的是解决基本文句理解障碍和思维逻辑梳理的答案,它不能为我们解答这些思考的根本原因。
有一位当代学者曾说:学术是为读书服务的,而不应该是读书为学术服务。我们现在也可以说,技术也应该是为读书服务的。无论如何,在AI技术胜任一切人文学术的这一天到来之前,先让它帮助我们读书,不是一件很有意义的事情吗?
(作者为中国海洋大学文学与新闻传播学院教授)
原标题:《张治 | 钱锺书也曾提到“人工知能”》
栏目主编:杨逸淇 文字编辑:李纯一 刘迪
来源:作者:张治