“互联网档案馆”告急:互联网时代的公共记忆终将消逝?
创始人
2026-05-06 13:55:07

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:澎湃新闻)

公元前323年,曾经睥睨天下的亚历山大大帝猝然离世,他所建立的横跨欧非亚三洲的大帝国旋即陷入继业者的内部倾轧之中;为了收拾群龙无首的残局,亚历山大曾经的部将托勒密公元前305年在埃及地区宣布称王,并决意在尼罗河三角洲附近以亚历山大所命名的港口城市奠定统治根基,使其比肩雅典成为地中海世界最耀眼的学术中心。在举朝不计成本的努力之下,亚历山大图书馆建成,数十万卷书籍和文献得以留存和管理,欧亚非地区许多科学家、哲学家和文学家的主要著作被收集起来。然而,随着托勒密王朝的日益衰败,这座图书馆也卷入了战火之中,屡次成为侵略和袭击的目标,并最终在罗马帝国皇帝狄奥多西一世要求禁止一切异端的敕令下被破坏殆尽。

亚历山大图书馆

亚历山大图书馆的毁灭,被视作是全球文化史上最为惨重的浩劫之一;在后世欧洲的文化想象中,它的消亡逐渐成为“失落知识圣殿”的象征。自文艺复兴时期以来,这座曾经汇集古代世界智慧的中心成为欧陆思想家们想象与仰慕的对象,重建堪比亚历山大图书馆的知识典藏的梦想自此展开,从未断绝。随着科学技术的发展和传播介质的简化,数字技术的问世让人们第一次看到了希望的曙光;而1996年,在万维网面对公众开放不过三年以后,一位名叫布鲁斯特·卡利(Brewster Kahle)的美国电脑工程师创立了非营利机构“互联网档案馆(Internet Archive)”,以“普遍获取一切知识”为使命收集全世界的信息并将其在网络上进行永久保存,这一举动得到了“亚历山大图书馆得以复兴”的赞叹。

随着这一雄心勃勃的项目走入它为普罗大众服务的第三十个年头,互联网档案馆通过电子留档的形式保存了浩如烟海的书籍、音频、视频、软件程序、图像、文献和特色服务项目,已经成为了学术研究者、调查记者、档案管理员和无数普通人必不可少的网络工具。在互联网技术被大型资本集团垄断的现实下,这一平台作为屈指可数的坚持奉行Web 1.0时代“以内容为中心的自由传播”精神的平台,依靠着全世界图书馆的捐赠、慈善机构的贡献和无数志愿者的维护毅然挺立。尽管如此,伴随着版权管理规则的收紧和生成式AI平台对信息环境的冲击,互联网档案馆正在面临着自创立以来最为严峻的威胁和挑战。

2022年4月19日,在埃及亚历山大拍摄的亚历山大图书馆内景。新华社 图

为了尽可能保存全世界公开可访问网页的历史快照,互联网档案馆会通过自动运行的爬虫脚本访问网页,并将自己所阅览的内容抓取并存入自己的数据库中,在自己管理的“时光机(Wayback Machine)”网站上存放,供公众阅览和检索。这一服务在方便普通人查询的同时,网站上海量原始、免费的信息更被亟需海量公开可访问资料来训练大语言模型的 AI 企业视作取之不尽的聚宝盆。出于对AI大模型系统性利用互联网档案馆的数据进行训练从而损害自身盈利模式、危及舆论信息环境安全的担忧,自2026年1月以来,《纽约时报》、《卫报》、管理全美数百家本地报纸的《今日美国》集团陆续宣布将会通过robots.txt规则、访问限制和其他技术手段阻拦互联网档案馆的爬虫抓取页面,以避免其受版权保护的内容在未经允许的情况下成为AI模型的训练资料。在此之前,网络论坛平台Reddit已经宣布,为了避免论坛数据成为AI模型的训练资料,他们将会对互联网档案馆的爬虫加以封杀。

随着这些限制的升级和发酵,三家网络自由倡导组织与一百余名传统和独立媒体的记者编辑在四月初发起了一项联名公开信签署活动声援互联网档案馆,大力肯定其公共价值。在信中,署名者对互联网档案馆的工作进行了毫不吝惜的赞扬,并表示这份记录的保存关乎新闻业子孙后代的传承,是确保这些信息对于公众触手可及最重要甚至是唯一的工具。在社交媒体上,公开信署名者之一的独立记者大卫·西罗塔(David Sirota)将互联网档案馆誉为“纯净互联网的永恒阳光”,将阻拦访问的行为比作“将亚历山大图书馆付之一炬”。另一位公开信的署名者,科技博客Techdirt的创始人麦克·马斯尼克(Mike Masnick)也表示,为了避免数据被AI抓取而封锁互联网档案馆的信息访问权,是“我们急于惩罚AI公司的过程中,对服务于所有人的公共资源的摧毁”。

如今五十多岁的西罗塔和马斯尼克都是从年轻时就开始关注技术发展并使用互联网进行内容创作的美国媒体人;他们的身份和经历让他们从这一技术诞生的时候开始,亲身见证了互联网时代的发展和兴衰,也因此对封锁互联网档案馆访问权会对公共知识传承与历史记忆权利造成何种影响,抱有格外强烈的警惕。该机构当前面临的挑战,既体现了互联网及其服务在历史演进与解读过程中的跌宕起伏,也折射出在这个充满不确定性且资本权力野蛮扩张日益加剧的时代,信息自由和历史记忆风雨飘摇的危险处境。

互联网档案馆与记忆的政治性

师从“人工智能先驱”马文·明斯基(Marvin Minsky),1982年毕业于麻省理工学院的卡利,在成为互联网档案馆的创立者之前,曾是科技行业发展创新的佼佼者,开发了互联网上首个发布和分布式搜索系统广域信息服务器(WAIS)和网站信息数据分析平台Alexa,在这两项业务被收购之后身价千万。尽管声名显赫且事业有成,他一直怀揣着成为图书档案管理员的梦想,这在一定程度上源于他读到罗伯特·宾克利的故事——这位被誉为“数字人文界鼻祖”的历史学家在1930年代将大量书籍制成微缩胶片并复制传播,旨在向美国农村地区以更为便利的方式推广知识。

自互联网作为基础设施投入运行以来,网页缺乏可追溯性便一直成为了许多人最为头疼的问题。无论是遭遇人为删除还是服务器停运,曾经可访问的信息都可能轻易变成一页“404错误”页面,且不留任何物理痕迹。根据皮尤研究中心的调查数据,从2013到2023年的十年间,在他们抽样调查的540万个网页之中,有38%的网页已经失效,而有25%的网页已经彻底消失。依靠着互联网档案馆的保护,这些已经消失的网页的数量才由25%降低到10%。通过将网址信息置于它存在时的语境中以供不做评价的浏览,互联网档案馆的作用不仅限于帮助用户获取内容信息本身,更成为保障信息真实性与完整性的重要结构性支撑。

随着网页存档工作的成功,自1990年代末开始,卡利将互联网档案馆业务范围向各类不同的媒介扩展,致力于为寻求各类不同信息的人们提供综合的查询和阅览服务。通过与全球各地的图书馆、档案馆、博物馆、政府机构、历史学会、文化遗产组织、各类机构、收藏家和协会合作,互联网档案馆迄今为止已经存储了约1万亿个网页、5600万本书籍和文本、1300万个音频文件、1500万个视频、530万张图片和130万个软件程序。当现实世界中的档案保护工作在错综复杂的世界局势中面临日益严重的武装冲突和资金短缺的威胁,互联网档案馆已成为存储这些无价信息最直接可及的渠道,有时甚至是其仅存的归宿。

对于许多职业的核心工作而言,互联网档案馆是一项不可或缺的公共工具。调查记者用它来去查询过往的内容来核查信息和对权力问责;律师和检察官用它来建立网站在特定时间所发布内容以作为法律证据;研究人员用它来查阅常规途径难以甚至无法获取的资料;档案管理者用它来重建过去的规划和城市生活来复原历史发展的脉络。在接受采访时,来自不同行业的专业人士都异口同声地指出,互联网档案馆的服务至关重要,是他们的研究得以继续的命脉。在缺乏资金、原始资料已消失、被修改、地理上无法获取、绝版或技术过时的情况下,互联网档案馆的服务至今无法被替代。

从这种角度上说,互联网档案馆真正的作用并不只限于它所承载的信息和它为服务对象提供的便利,而在于它让信息拥有了可以被记忆的途径,从而为这些记忆提供了被赋予价值和意义的基础条件。在媒介数字化的时代,记忆已经远远超越了大脑内部活动这种单纯的个体生理行为,而是以技术为支撑、以公共参与为底色,将那些散落、易逝、易被篡改的数字痕迹,转化为可被回溯、可被共享的集体记忆。荷兰媒介研究学者何塞・范戴克(José van Dijck)在《数字时代的媒介化记忆》一书中指出,记忆和媒体都不是被动的载体,人类始终在通过各类媒介搭建叙事、分享记忆、构建公共认知空间;互联网档案馆不仅加速了这一进程,更有效地拆除了记忆生产与传播的壁垒 —— 它兼具档案的留存功能与公共参与属性,以中立开放的平台收纳多元信息、呈现原始痕迹,由此打破了由官方、精英单一主导的传统记忆载体的叙事霸权。

对当今许多人而言,互联网是一个由资本主义食物链顶端的几家市值多到无法想象的巨头企业所主导的,无处不在却又有些令人生畏的存在。然而,回顾历史,Web 1.0时代创建的服务本是旨在通过便捷的方式,让信息共享与创作变得更加公平且普及的平台。万维网的发明者蒂姆·伯纳斯-李(Tim Berners-Lee)曾回忆道,他创造万维网的初衷是构建一个基于公共标准、去中心化的信息共享互动世界,而那个年代的互联网从业者对持续互动、平台垄断和算法驱动的关注远不如现在这般强烈。

加利福尼亚大学洛杉矶分校(UCLA)社会与遗传学研究所教授克里斯托弗・凯尔蒂(Christopher Kelty)指出,互联网的问题并不在于技术本身,而在于其背后的社会与政治构想:原本促成它成功的开放性,参与性,去中心化表达等曾被视为促进自由与平等的理念,在平台资本主义垄断的语境中借助旧有的政治特权所加以曲解异化,转而服务于权力集中与经济控制之中,最终使得它变成了如今这副数据被平台收集与变现,信息和真相可以被随意操纵,用户从消费者变成被消费的内容的模样。作为依旧以免费存储和分享知识为宗旨的信息平台,互联网档案馆的存在宛若定格于Web 1.0时间中的活化石,在如今的社会生态环境中凤毛麟角。

AI与版权:互联网档案馆的危机时刻

互联网档案馆之所以成为众矢之的,恰恰因为它坚守着Web 1.0时代那种把知识尽可能开放、复制、共享的伦理;而今天主导互联网的平台和版权秩序则越来越把信息看成需要被圈定、管控和变现的资产。在他们的认知中,如果一家有影响力的实体的原则未能按照他们制定的游戏规则“与时俱进”,那么它就可能对自己对这些资产的持续垄断的威胁,就会成为他们利用法律手段直接攻击的目标。在21世纪初,多家提供音乐流媒体、电视广播或软件服务的在线平台因版权纠纷被起诉至破产,彻底终结了Web 1.0时代之后,版权持有者开始逐渐将目光转向了互联网档案馆。

根据《美国法典》第17编第109(a)条规定的首次销售原则,美国图书馆在分发范围有限的情况下,依法有权分发其拥有的书籍实体副本,这被视为合理使用,从而使图书馆能够履行其最基本的功能:出借书籍供人们阅读。建立在为图书馆设置的合理使用的基础上,互联网档案馆为其藏书开发了一套受控的数字借阅系统,这些藏书通常来自其合作图书馆制作的复印件。该系统依托数字版权管理技术,防止受版权保护的作品被未经授权下载,且仅允许一名用户通过候补名单同时借阅一本书进行阅览。按照他们的主张,在受控数字借阅模式下,对这些实体藏书进行数字化并按“一本实体对应一份数字借阅”的方式出借应被理解为图书馆职能在数字时代的延伸。

当地时间2025年12月11日,加拿大,一部智能手机屏幕上显示着互联网档案馆的标志。视觉中国 图

问题出现在2020年3月新冠疫情期间。当时各图书馆关闭,互联网档案馆放宽了限制以鼓励更多人访问其存档书籍,允许多名用户同时借阅一本书,并为此推出了一项名为“国家紧急图书馆”的服务。几个月后,由美国出版行业协会所支持的四家大型出版商对互联网档案馆提起诉讼,认为“国家紧急图书馆”及其借阅服务违反了合理使用原则。他们主张,由于互联网档案馆本身并不是书籍的持有者,因此无权在线以自身的名义出借数字副本。

尽管这起诉讼仅涉及 127 本与出版商版权相关的图书,但是作为全世界最大的数字副本档案,互联网档案馆的管理者们深知这起诉讼的余波将远远不会是这几本书那么简单;在案件的口头辩论开始不久以后,互联网档案馆的高级政策顾问在新闻发布会上表示,这些出版商并未给出互联网档案馆的借阅行为直接给他们的销售产生经济损害的有效证据。在诉讼过程中,美国东北大学一位经济学家提交的专家评估报告指出,大多数图书的主要销售额产生于其商业生命周期的早期,而许多图书的前五年销售额就占其总销售额的90%,但互联网档案馆通常在图书早已过了销售高峰期后才进行数字化处理,因此该借阅计划并未对出版商的图书销售造成实质性损害。

尽管如此,2023年3月,纽约南区地区法院裁定出版商胜诉;2024年9月,第二巡回上诉法院维持原判,认定互联网档案馆的全书扫描及免费在线借阅行为不构成合理使用。三个月后,互联网档案馆公开表示,他们将不会向最高法院申请复审,并同意在借阅系统中移除被出版集团点名的书籍,总数超过五十万本。在诉讼尘埃落定以后,卡利曾在采访中感叹,相比于广泛鼓励数字化副本传播,以公共教育为名义对电子借阅行为进行版权豁免的欧洲、印度和中国,美国的图书管理体系已经不再像之前那样领先世界。

除了书籍外,互联网档案馆还收录了数十万份由收藏家和机构捐赠的旧式78转唱片。由于这种录音介质及其播放设备早已绝版,互联网档案馆主张,对其进行数字化处理旨在为研究人员和后世保存历史,这与该机构保存书籍的初衷如出一辙。尽管互联网档案馆表示,从商业流媒体单次播放成本的角度来看,这些歌曲的播放次数产生的收益微不足道,但拥有部分录音版权的多家唱片公司仍就歌曲数字化一事提起诉讼,索赔金额超过七亿美元。尽管这起诉讼在未作出最终实体裁决的情况下达成了保密和解,但数千份唱片公司声称仍在市面上流通的数字化录音也因此被永久下架,这些录音在互联网档案馆上已无法进行播放或下载,从而避免与官方流媒体服务形成竞争。

正在版权问题已成为对互联网档案馆持续运营稳定性的严重威胁的同时,AI公司广泛利用互联网档案馆的数据进行模型训练的做法也引起了新闻和社交媒体平台的担忧,从而导致了他们在今年所作出的封锁决定。当记者询问他们为何这样做时,这些平台的发言人不约而同地表示,他们并非专门针对互联网档案馆,而是出于阻止未经授权的信息抓取行为,保障自身知识产权的普遍原则。

这些行为已然成为平台与人工智能公司之间冲突这一更大趋势的一部分:《纽约时报》集团以“通过隐藏爬虫非法复制网站内容”为由起诉了OpenAI和Perplexity,并指控他们生成的内容与网站的原文不符,属于“AI幻觉”;而一名法官在听证后裁定,允许14家主要新闻出版商联合起诉另一家人工智能初创公司Cohere,理由是该模型生成的内容“数量和质量上均与原内容相似”。在美国各地,来自各类出版商和创作者的一百多起诉讼指控AI公司大规模侵犯知识产权,并以此来对自己的模型进行数据训练。尽管他们认为这种侵权并非蓄意为之,但他们相信,正是互联网档案馆免费集中保存信息的机制成为了这种侵权行为的“后门”。

互联网档案馆所发挥的关键作用赢得了多个领域的广泛支持,从而催生了今年四月呼吁各大媒体平台不要限制爬虫的联名信。在这些人看来,它的持续存在让它早已超越了自己的功能本身,作为Web 1.0时代的绝唱,演变为自由开放的信息环境精神的象征;也正是因为如此,以西罗塔为代表的记者们才会发出警告,互联网档案馆的消失将会让奥威尔在《1984》中那句“谁控制了过去,谁就控制了未来”的预言一语成谶,从而让对权力的有效问责变成一纸空文。

互联网档案馆的未来会在何方

目前,随着网页保存工作的命运悬而未决,双方都在努力寻求一个有效的折中方案。为了持续吸引公众的关注度,互联网档案馆的发言人在近期多次公开阐述其服务的意义,强调其作为非营利性服务机构继续运营的必要性,并特别强调目前尚无其他非营利组织能以同等规模和速度进行信息保存。然而,新闻界并非所有人都对此举印象积极,有人直言该组织是在有预谋地公开扮演受害者角色,通过否认自身的主体性来博取同情,却不为它的服务所造成的现实问题提供有效的解决方案。

前《卫报》科技主编查尔斯·亚瑟(Charles Arthur)在他的个人博客上指出,在与选择直接起诉AI公司窃取知识产权不同,没有一家新闻机构对互联网档案馆发起过任何意义上的诉讼或者要求索赔。在AI模型所生产的“幻觉内容”仍然在持续对新闻媒体的营收和内容生态造成持续的威胁时,互联网档案馆并没有通过正式修改robots.txt的屏蔽规则,来彻底切断AI公司使用互联网档案馆的数据的渠道。当亚瑟询问“时光机”主管马克·格雷厄姆(Mark Graham)为什么不直接修改规则时,他并没有收到任何回应。时至今日,无论互联网档案馆的工作依然对无数人多么重要,但是它本身并没有和这些新闻机构谈条件的实际筹码,只能依靠联名公开信和社交媒体呼吁这类公关活动才能持续赚取关注度和获得善意,却对于自身存在对新闻机构产生的威胁充耳不闻。

就连互联网档案馆自己也承认,自己的工作并非十全十美:在资源约束、反爬虫拦截、登录墙与付费墙阻隔、深网内容无法触及,以及大量仍可访问的网页因发现不及时沦为 “濒危网址” 的多重局限下,在网页持续消亡、平台限制不断收紧以及内容生产机制发生变化的背景下,它所能保存的,不过是一个始终处于流失与补救之间的历史切片。

如今的互联网档案馆似乎走进了自己亲手编织的一个“死结”当中:它在互联网资本早已筑起高墙的年代,固执地认为只要有足够多的使用者和足够积极的名誉,就可以度过一切困难和挑战。诚然,它利用自己的公共价值和利益,成功地避免了自己因为侵犯书籍和音乐作品版权而可能带来的灭顶之灾;但在这场与新闻机构的政治中,他们并非唯一的受害者,他们也不应该将自己表现为毫无反抗能力的受害者,将话语权和决策权主动送给了已经面临着多重争议的AI集团们。

互联网在它出现的三十余年中,硬件设施的进步让它已经成为了无处不在而必不可少的基础设施,从而帮助人们克服了技术上获取网络的困难,然而硅谷垄断集团的崛起却让主流互联网选择了遵守过去的游戏规则,让自由的分享变得越来越困难。记忆不是中性的,记忆是对过去的回溯和意义赋予,是选择记住什么、遗忘什么的权力实践,是抵抗历史被篡改与未来被平庸化的最后堡垒。

在一个弱肉强食的时代,对于这种捍卫自由分享和记忆权利的事业的同情本身虽然能引发情绪上的积极共鸣,却不可能真正解决它迫在眉睫的问题。Web 1.0时代的理想终究未能兑现,但作为新时代的“亚历山大图书馆”,互联网档案馆必须采取更加决绝的决心与举措去守护自己所保存的那些数据和信息,对AI依赖所产生的泛平庸化和惰性说“不”,才能够不让它和那些坚守事实真相,相信记录历史有价值的人们感到失望无助。

相关内容

热门资讯

最新或2023(历届)清华大学... 招生专业类与招生计划 最新或2023(历届)我校领军人才选拔招生录取人数不超过教育部核准...
最新或2023(历届)北京大学... 报名方法  本次选拔实行网上报名,请考生登录网上报名系统(点击进入),按网上要求注册、填写各项申请信...
北大清华自主招生计划发布 取消...  继3月5日北大清华公布自主招生简章后,近日,北大清华又公布了其“校长推荐”计划。其中,北大的“中学...
奥赛竞赛作为自主招生评判标准是...  近日,全国政协委员、安徽省教育厅副厅长李和平做客人民网,畅谈高校自主招生时表示,自主招生是对偏才、...
北京最新或2023(历届)新增... 近日北京教育考试院公布了今年的高职自主招生实施办法,其中显示,最新或2023(历届)全市共有27所院...