AI出手 破解“整理国故”百年难题
创始人
2025-05-09 23:20:29
0

1919年,胡适在《新青年》杂志上发起了著名的“整理国故”运动,旨在“研究问题、输入学理、整理国故、再造文明”。一个世纪过去了,整理古籍任务仍然艰巨。书卷浩如烟海,人才门槛高筑,无不令专家感叹:“想完成全部古书的整理,可能得300年。”

而当古老的文化载体遇见最年轻的技术手段,伟大的奇迹或许就会显现。在机器学习和成千上万志愿者助力下,一本本尘封的古书被一一翻开。

近日,“我用AI校古籍——我是‘校书官’古籍大众智能整理计划(2025年)”(以下简称“我是‘校书官’”项目)在武汉大学启动。该项目吸纳了上万名志愿者,预计将在一年内整理数千万字的古籍,并将整理结果在“识典古籍”平台上向大众免费呈现。

如果说修复和整理古籍是与时间赛跑,AI就好比戴宗的“神行甲马”,实现了整理速度的几何级提升。

从小作坊到流水线,整理速度提升20倍

华东师范大学古典文献学在读博士生刘帅曾经怀疑过AI。2017年他用过古籍整理软件,感觉其颇为鸡肋。然而,2024年9月,当听到“我是‘校书官’”项目借助“识典古籍”平台,一个月整理了5000多万字的古籍时,他震惊了:“我一年能整理几十万字就很了不起了。”

“识典古籍”整合了国内顶尖AI研发团队的开发能力和北京大学深厚的学术积淀。古籍整理被拆分成许多环节,主要包括文字识别、文字校对、结构整理、标点校对等。这些环节借助AI,大大节省了人力。

打开“识典古籍”平台,上传一张古籍图片后,光学字符识别(OCR)技术将对图片中的人名、地名、书名、时间和职官,平台可以自动标记。对于OCR不确定的字,会用不同颜色标记出来,便于定位这些文字,然后参照底本修改。在文字精校环节,可以匹配两套不同的文本,在文字校勘环节,可以比较差异、撰写数字校勘记……

北京大学数字人文中心副主任杨浩做过测试,AI自动标点准确率超90%,翻译古文也达到专家水平。“古籍标点是一大难点。”刘帅说,如今他遇到疑问,就会去对照“识典古籍”的自动标点——有点像围棋爱好者向AlphaGo学棋。

杨浩说,传统的古籍整理以出版为目的,正确率要求极高,相应门槛也高,即便古籍专业的学生也经常出错,难以独立承担项目。大部分项目都是一个专家负责一种书,从头做到尾,因此效率很低。

现在有了机器学习,AI在阅读大量人类成果后,对古文具备了相当的“语感”。在“我是‘校书官’”项目中,AI先初步整理古籍,逐字校对,再由大众志愿者来校对,最后把难点提交给专家。“AI改变了工作流程,分包制度降低了门槛,传统的手工作坊变成流水线工厂了。”刘帅说。

AI的应用让对古籍感兴趣的人都可以参与进来。“我是‘校书官’”项目依托“识典古籍”平台,由全国22所高校承办,现已有数以万计的学生报名,许多人的专业可能与古籍无关。在去年的“我是‘校书官’”项目中,志愿者按水平被分为大众组和进阶组,前者负责粗校,后者负责精校。大众组已粗校整理了1643部古籍,进阶组精校整理了共计2451万字。

2024年9月,刘帅也参加了“我是‘校书官’”项目,头一个月初步整理出200万字的古籍,这是过去速度的20倍。接下来他每天抽出两三个小时,一个月就整理完一部49万字难度颇大的古籍,而且整理质量很高。整个项目3个月,刘帅校点、标注、排版、审阅的书一共191种,总字数达500万以上。

辨识“庐山真面目”,正确率节节攀升

把古籍从图书馆库房搬到电子资源平台,实现整理速度几何级提升,主要归功于AI“识古”的智慧——它能读出黯淡缺损的古书,或解读晦涩难辨的符号。

以前,古书很难数字化。传统的文字识别软件是为打印材料设计的。对于识别古书,机器经常“傻眼”:一个字往往有不同写法,字体风格不一样,书中还有并非汉字的笔画符号。另外,古书经常有折痕和破损缺字,墨迹黯淡,这也是为什么各大图书馆的古籍数字化多年来进度缓慢、严重依赖人工的重要原因。

培育专业“识字匠”往往需要多年时间,但有了机器学习,一些有难度的辨识工作,可由AI代劳。

国际上,AI复原庞贝古卷的成就,让人们对其潜力充满信心。公元79年被火山灰掩埋的赫库兰尼姆莎草卷轴已经碳化,无法展开。通过CT影像,人们得到了卷轴上微弱的墨水痕迹图像,但仍然无法识别。3位年轻人通过机器学习技术,从图像里推断出超2000个字符,连起来是一段与伊壁鸠鲁哲学有关的文字。这一消息2024年发布后,让国际古典学界非常兴奋。

AI辨识那些尘封已久的破旧古籍,有点像AI修复老照片。2024年,“我是‘校书官’”项目采用AI技术修复上千年前的敦煌古卷《汉书·刑法志》。AI学习了原版古籍的文字、笔画风格和页面纹理,把缺损文字按原来的字体、色彩、背景修复还原,最大程度确保与原古卷一致。另一个AI项目则补全了残缺的《兰亭序》清晰样貌,其笔画细节遵照王羲之的技巧风格。

“我们设置了‘追溯原本’功能,有疑问的话可以一键找到原文进行人工比对、校准。”抖音集团企业社会责任部古籍项目产品负责人王宇介绍,他们正在针对识别手写字、异体字、复杂版式、插图等精进算法,力求不断提升正确率。

全国高等院校古籍整理研究工作委员会副秘书长吴国武说,提高AI水平还需要更优质的训练数据。比如,一些已有的整理本,版权在整理者、出版社。“要想提升AI辨识力,需进一步建立共享合作机制,促进数据的开发与利用。”

目前,国内已有针对甲骨文整理识别的AI项目:通过阅读现存的海量甲骨文图像,AI整理出几千个甲骨文字符,并在不同甲骨文材料之间找到联系,为解读工作提供基础。

实际上,越是鲜有人问津的生僻符号,越适合AI展露身手。我国少数民族先后创制和使用过30多种古文字,国务院公布的六批《国家珍贵古籍名录》中,收录了少数民族古籍1133部,国家图书馆收藏的民族古文献就有18个文种,共34000多册件。这些古籍的数字化和整理工作更缺专业人才,也更需要AI的加持。“这些材料的数字化与整理,今后有望大量依靠AI来完成。”王宇说。

加快人才培养,让古籍走出“高阁”

国家古籍保护中心调查结果显示,我国现存20多万种古籍,存世50万个版本,古籍数量达3200多万册。我国从20世纪80年代就开始尝试古籍数字化,但受技术、资金、版权等因素限制,海量文献中实现数字化的不超过八万种,而且许多书只是完成了初步的影像扫描,真正实现文本数字化的不足四万种。

吴国武告诉记者,目前全国范围内专业从事古籍整理的人员仅有一万人左右。

海量古籍面前,现有的整理方式如同愚公移山。古籍整理专业人才匮乏,生产力低下,一直是阻碍“整理国故”进程的世纪难题。

百年前胡适痛感,古籍缺乏系统性导致“一般青年,对于中国本来的文化和学术,都缺乏研究的兴趣”,这一问题至今未得到很好解决。古籍研究仍是冷僻的学问,许多古籍从未向大众开放。

2022年,中共中央办公厅、国务院办公厅印发的《关于推进新时代古籍工作的意见》明确提出,推进古籍数字化。全国古籍整理出版规划领导小组印发的《2021—2035年国家古籍工作规划》则将“国家古籍数字化工程”列为四项重大工程之一,对相关工作进行详细规划。

“使用AI完成古籍整理的前期基础工作,效果很好。”吴国武把AI视为合作者,而不是简单的工具。在他看来,AI的加盟让全民得以了解甚至参与古籍整理这件事,可以说是广植“整理国故”的沃土。

例如,“识典古籍”平台已免费上线超16000部古籍资源,累计吸引上亿人次了解和阅读古籍,为1300余个外部团队的古籍整理工作提供帮助。这已成为文献学界近年来最瞩目的大事。

2024年底,著名的古籍整理工程《儒藏》与“识典古籍”平台展开合作。《儒藏》是新中国成立以来最大规模的儒学典籍整理工程,旨在收录自先秦至清末的所有儒学文献,预计总体达到10亿字。它没有采取相对容易的影印方式,而是志在整理出便于现代人阅读的文本,这给参与项目的学者带来了难以想象的工作量。引入AI后,影印文献的整理标注将大大加速,相关整理成果也会公布在“识典古籍”平台上,实现全民共享。

“AI可以帮学者快速定位到需要的材料,还支持同时比对10个以内的校本,让专家把宝贵时间都用来干技术含量高的活儿。”王宇介绍。同时,“我是‘校书官’”项目的进阶组志愿者,也有机会与《儒藏》工程的专家团队交流。这个以在校生为主的项目,或许能使他们中的一些人未来走上“整理国故”的专业道路。

AI的加盟也创新了古籍整理人才培养模式。吴国武介绍,目前高校里古典文献专业大多开设了数字人文相关的交叉培养课程;有7所高校已经申请了数字人文的本科专业,古籍整理也是重要方向。“交叉融合专业培养出来的人才,未来有望填补古籍专业大模型的人才缺口。”

去年以来,国内许多著名图书馆、博物馆也积极引入AI技术,保护和挖掘自己的馆藏古典资源。国家图书馆藏现存最早版本的元大德三山郡庠刻本《通志》、首都图书馆藏《皇朝礼器图》、浙江图书馆藏文澜阁《四库全书》……一系列珍贵典籍,将通过AI的修复,重光临世。

相关内容

热门资讯

热度破7700,全员狠人,我断... 文案|一十三编辑|苏打水今年的国产剧市场上,存在感最强的莫过于都市剧。前有《滤镜》融入科幻元素,剧情...
一场针对“取消文化”的真相博弈 没人能比英国编剧更懂“冷幽默”。《道格拉斯被取消了》,这部去年6月首播的四集迷你剧,最近突然在豆瓣火...
5月10日追剧日历,8部长剧有... 【电视剧更新概述】8部长剧有更新,电视剧《绝密较量》今日停更?想了解热播剧更新动态,请关注我哦~《我...
66岁逆龄男神演华人总探长,成... 由李灿琛担任监制兼主演的剧集《无惧》,近日亮相内地优酷剧集片单中,有望在今年内开播。而该剧云集不少香...
CentOS报警系统搭建指南:... 构建高效CentOS报警系统实践指南 在服务器运维领域,确保稳定性和安全性至关重要。CentOS作为...
这才是颖儿的赛道‼雌心勃勃的劲... 越看《六姊妹》越喜欢颖儿饰演的何家艺,她争强好胜、永不服输的样子我爱亖了!就算在逆境也不内耗,反而逆...
原创 上... 各位老铁,我是帮主郑重。二十年看遍商海沉浮的老炮儿,今儿咱们来拆解微软这场价值千亿的"职场地震"——...
汪小菲给钱求和,却被S妈拉黑,... S妈的示弱是假象?葛斯齐再次出马,下场戳穿S妈的“真面目”,她哭诉联系不到汪小菲,做不了大S遗产和子...
自卑恨嫁女vs冷面霸道军官,不... 我可太爱郭啸天了,好希望郭啸天可以和金玉有一个好的结局,但是没有关系,但是咱们已经脑补郭啸天和朱八姐...
水饺皇后:从青岛到香港,一碗水... 五一小长假,一部名为《水饺皇后》的电影正在影院热映。马丽饰演的臧健和,用一双冻裂的手和一口热气腾腾的...
全明星阵容,差点被AI换脸毁了... 欧豪、张佳宁、何冰主演的电视剧《刑警的日子》终于播出了,刚上线收视率就收获2.8,热度也在不断攀升。...
《执法者们》港剧套路受检验,尾... 德塔文电视剧景气日报2025-05-09电视剧当日景气TOP10TOP10排名淮水竹亭(东方淮竹37...
《凤凰台上》剧情好精彩,任嘉伦... 近日,由任嘉伦、彭小苒主演的古装剧《凤凰台上》发布了首版预告片,其中所曝光的剧情看点和制作水准,让人...
何冰来也不行? 《刑警的日子》开头十几分钟,就能咂摸出滋味来。服化道、演员演技、故事节奏等等,都在及格线之上。服化道...
给《亲爱的仇敌》演技最好的10... 前言今年的国产都市剧实在太给力了!先是一部“老年爱情题材”《我的后半生》炸翻影视圈,虽然狗血但也揭露...
一线女星私生子瓜,孟子义,窦骁... 1:一线女星有私生子的瓜?今天有账号爆料称内鱼有知名作品的某一线女星跟了大佬,悄悄怀了大佬的孩子,以...
《执法者们》《夺命提示》演员重... 《执法者们》《夺命提示》演员重复率高,韩马利丁子朗新剧又演母子由邵氏兄弟与内地视频平台联合制作的全新...
演公主成名,嫁总裁当夫人,50... 一石激起千层浪,没想到多年过去这个话题还有这么多人关注,一大早就看到#金巧巧回应说不适合演农村人#登...