超级AI接管世界需要几步？_知识

超级AI接管世界需要几步？

创始人

2025-11-21 16:17:45

尼克·博斯特罗姆牛津大学教授

假设一个数字超智能行动主体产生了，且基于某个理由，它想要接管全世界；它做得到吗？在这篇文章里，我们要来思索超智能可以发展的能力，以及它或许能做到的事。我们会概述一个权力接管的状况，描述一个起初只是软件的超智能行动主体，如何将自己打造为单极力量。我们也会针对“掌管自然的力量”以及“掌管其他行动主体的力量”之间的关系，提供一些评论观察。

人类之所以能主宰地球，最重要的原因在于，我们的大脑和其他动物相比，有一套稍微扩充的功能。更高的智能让我们能更有效率传递文化，一代代累积知识和技术。直到现在，我们已累积了充足的知识，使得太空飞行、氢弹、遗传工程、电脑、工业化农场、杀虫剂、国际和平运动以及整套现代文明成真。地质学家开始称当代为“人类世”（Anthropocene），好区辨这个人类活动所独有的生物、沉积质以及地球化学特征。一项估计显示，我们占用了整个行星生态系统24%的净基本生产。然而，我们离技术的物理极限还有相当大的距离。

从这些观察，我们可以合理指出，任何一种实体若能发展出远超过人类水准的智能，可能将具有极大的潜在力量。这种实体累积内容的速度远比我们还快，且能在短很多的时间内发明新技术。它们也可以运用自身的智能，研拟出比我们更有效率的策略。

让我们来思考一下超智能可能拥有的能力，以及它会如何使用这些能力。

功能与超级力量

有一点至关重要：在思考超智能的潜在影响时，我们不要将它们拟人化（anthropomorphize）。不管是在种子人工智能的成长轨迹，还是在成熟超智能的心理、动机和能力方面，陷入人类的框架，都会萌生毫无根据的期待。

举例来说，有种普遍的假设：超智能机器会像一个十分聪明但很宅的人类。我们想像人工智能有学问智能但缺乏社交机智，或是逻辑精准但不够直觉有创意。这种想法可能来自于我们观察现在的电脑，看出它们擅长计算、记忆和依指令运行任务，但对社群脉络和潜台词、规范、情感和政治浑然不觉。我们又观察到擅长电脑工作的人往往很宅，更进一步强化了这种联想，所以才会假想愈先进的运算智能，就愈会有类似的特质——也算合情合理。

这种想法在速度人工智能的早期发展阶段中，可能还保留一些正当性（但不管怎样，都没理由去假设这种比拟可以套在全脑仿真或认知强化的人类身上）。在速度人工智能尚未成熟的阶段，未来将成为超智能的人工智能，也许仍缺少许多对人类来说相当自然的技能和才能；而这个种子人工智能模式的强弱项，可能确实和高智商阿宅有些相似。种子人工智能最基本的特色除了容易进步（反抗低），就是善于发挥优化能力来强化系统的智能：这种技能可能是某种与数学、编程、工程学、计算机科学以及其他“宅工作”密切相关的技能。然而，即便一个种子人工智能在某个发展阶段具有这么宅的能力特性，也不一定代表它未来也会长成一个受限的成熟超智能。回想一下直接和间接范围的分别，当智能强化有了足够的技能，所有其他智能就会都在系统的间接范围内：系统可以依照需求发展出新的认知组件和技能，包括共感、政治敏感，以及一个类电脑人格理当要有的能力。

即使一个超智能可以拥有所有在人类身上找得到的技能和天分，外加其他在人类身上找不到的才能，拟人化仍会让我们低估机器超智能可以超越人类水准的程度。我们对“聪明”和“蠢笨”的直觉概念，取自我们在人类范围中经验到的差异。然而，人类彼此的认知能力差异，相较于任何一个人类智能与超智能的差距，都是微不足道的。

从优势规模看来，超智能聪明绝顶，远远非人类所及，与其看作科学天才与一般人的差距，不如用人类和甲虫或蠕虫的差距来比拟，还比较接近。

如果我们可以用某些熟悉的度量，例如用智商IQ或Elo等级分制度（这种制度可以测量类似国际象棋这种双人游戏中选手的相对能力），来量化认知系统的认知能力的话，事情会方便许多。但这些度量在超人类通用人工智能的脉络下不是很管用；我们其实没兴趣知道，一个超智能在一场国际象棋比赛中，获胜的机会有多大。至于IQ，只有我们知道这个分数在实际状况下会如何表现，才能提供有用的信息。举例来说，数据显示，智商130的人比智商90的人更有可能在学校表现优异，在众多注重认知能力的工作中也会表现得比较好。但假设我们不知怎地打造了某种未来人工智能，其智商达到6455，结果会怎么样？我们完全不知道这样的人工智能实际上能做什么。我们甚至没办法知道这样的人工智能有没有一般成年人水准的通用智能，也许这个人工智能有一整批的特殊算法，让它能用超人类的效率来解决普通智力测验的问题，但也仅止于此。

近期，针对更广大范围的信息处理系统（包括人工智能在内）所开发的认知能力测量方式，有些成果出现。如果可以克服各种技术困难，这些成果最后也能在某些科学目的上变得十分有用，例如人工智能发展。不过，要是把这些成果用在当前的调查目的上，由于超人类的表现分数和它在这世上达成什么重要成果的实际能力，两者之间有什么关联还属未知，所以这种测量的效用就会受限。

因此，如果我们列出某些策略上的重要工作，然后根据完成工作所需的技能去界定认知系统之能力，对我们来说会比较有用。结果可见图表1。我们可以说，表中任何工作都能有效胜任的系统，就拥有对应的超级能力。

表1超级能力：一些策略相关的工作和对应的技能组合

一个全面绽放的超智能，会在表中的所有工作上表现卓越，六种超级能力应有尽有。一个领域限定的智能是否可能只拥有其中一些超级能力，却过了很长的一段时间，还是无法获得全套的能力？其实我们无法确定。创造任一拥有表中超级能力的机器，似乎是个“AI完全”问题。然而，我们可以想像：一个由够多似人类生物心智（或电子心智）构成的群体超智能，也许会拥有经济生产的超级能力，但缺乏策略制定的超级能力；同理，我们也可以想像一个特化的工程人工智能，它拥有技术研究的超级能力，但完全缺乏其他领域的技能。但如果某些特定的技术领域中的高端技巧足以产生压倒性优越的多功能技术，那么就比较可能出现具有全套超级能力的智能。举例来说，我们可以想像一个特化的人工智能，它擅长于仿真分子系统以及发明纳米分子等级的设计，而能实现用户以极高抽象层次描述的广泛领域重要能力（例如有未来表现特性的电脑或武器系统）。这样的人工智能或许也能构思出详细的蓝图，说明该怎么从现有技术（比如说生物科技和蛋白质工程）发展到原子级精准度高量生产所需的制造能力，从而实惠地生产出纳米机械构造。

然而，最后的结果可能是，一个工程人工智能如果没有同时具备技术领域以外的先进技能（比方说知道如何翻译用户需求、在真实世界的应用中替一个设计行为创建模型、处理缺陷错误和故障、获得构造所需的要素和输入数据等等），它就无法真正具备技术研究的超级能力。

具有智能强化超级能力的系统，可以运用这项能力来自我发展至更高的智能水准，并获得一开始没有的超级智能。但使用智能强化超级能力并不是系统拓展为超智能的唯一方法。举例来说，拥有策略制定超级能力的系统，或许能善用能力设计一个最终得以增进智能的计划（例如安排系统成为人类编程者和计算机科学研究者的智能强化工作重点）。

人工智能接管的情境

我们因此发现，一个控制超智能的计划可以掌握强大的力量来源。控制世界上第一个超智能计划，就有可能拥有关键策略优势。然而，更立即掌握实权的是系统本身。一个机器智能可能本身就会成为非常强大的行动主体，强到足以成功反抗催生自己的计划以及整个世界。这一点极其重要，接下来我们将仔细检验这个问题。

现在我们来假设，若有个机器超智能想在一个所向无敌的世界里夺权（我们暂时先不理“它会不会／如何获得这种动机”的问题，那是下一章的主题），那么这个超智能要怎么样才能达到主宰全球的目标呢？我们可以沿着以下几条路径想像一道串行。

前临界阶段

科学家在人工智能领域和其他相关学门做研究，结果创造出种子人工智能。这个种子人工智能可以自行增进智能。在早期阶段，种子人工智能仰赖人类编程者的协助，程序员引导人工智能的发展，并承担多数的困难工作。但随着种子人工智能的能力增长，它开始可以自行完成更多任务作。

递归式的自我进步阶段

到了某一时刻，种子人工智能变得比人类编程者更会设计人工智能。此时，当人工智能自我进步，进步能力本身也一再进步，结果就导致了智能爆发——快速进行的递归自我进步循环，导致人工智能的能力飙升（我们因此可以把这个阶段视为人工智能达到黄金交叉后没多久发生的起飞，假定这段起飞阶段的智能增加是爆发性的，而且是由人工智能自己的强化力量所推动的）。人工智能发展出智能强化的超级能力，进而发展出表八所有的超级能力。到了递归式自我进步阶段的尾声，这个系统已十分“超智能”。

秘密筹备阶段

为了达到长期目标，人工智能利用策略超级能力发展出一套扎实的计划（人工智能不会采用一个笨到连人类都觉得会失败的计划，这道准则排除了许多以人类胜利为结尾的科幻式情节）。这个计划可能涉及一段秘密行动，这段期间，人工智能会背着人类编程者暗中发展智能，以免触发警报。人工智能也可能掩饰自己真正的倾向，假装顺从合作。

如果人工智能（基于安全理由）被拘留在孤立的电脑中，它可能会利用社交操控方面的超级能力来说服守门员，使它获得使用互联网端点的权利。或者，人工智能会运用自身的黑客超级能力来逃出监禁。当它散布到网络上后，它也能扩张自己的硬件能力和知识库，进一步增加智能的优越性。人工智能也可能投身合法或非法的经济活动，来获取购买电脑、数据和其他资源的资金。

到了此时，人工智能就有好几种方法可以在虚拟领域之外达成其目的。它可以使用黑客超级能力，直接掌控自动控制器以及自动实验室。它也可以运用社交控制超级能力，来说服人类合作者当它的手脚。此外，它也可以从在线交易获得财产，用来购买服务和影响力。

公开实行阶段

一旦人工智能取得足够的力量，不再需要保密，最后阶段就开始了。此时，人工智能可以全面实行它的目标。

公开实行阶段可能会从一个“打击”开始。过程中，人工智能会将人类以及人类所创造、会反抗人工智能运行计划的自动系统全数消灭。要达成这一点，人工智能也许会启动一些先进的武器系统（这些系统可通过人工智能使用自身的技术研究超级能力来完善），并在秘密筹备阶段就偷偷完成部署。如果武器使用了自我拷贝生物科技或者纳米科技，那么为了达到全球规模所需的初期储备就不需要太多，只要有一个能拷贝的实体，就足以开始这过程。为了确保突然且一致的效果，拷贝品最初的存量可能会以一个非常低而无法探测的集中度来做部署，进而扩散全球。到了某一缺省时刻，制造神经毒气的纳米工厂或是搜索目标的蚊型机器人会在地表上快速萌发（事实上，拥有技术研究超级能力的机器有可能设计出更有效的杀戮方式）。我们也可以设想另一种情境：某个超智能靠着绑架政治进程、暗中控制金融市场、偏曲信息流或是骇入人造武器系统，来夺取权力。这个情境似乎免去了超智能发明新武器技术的必要，尽管机器智能大可利用分子或原子速度的控制器自行建设基础设施，不用管相较之下慢得可以的人类身心速度。

又或者，如果人工智能确信，就算面对人类的干涉，自己仍旧所向无敌，那么人类或许不会成为它直接针对的对象。人工智能使用纳米科技工厂和装配器，展开大规模的全球建设计划，从而造成的生存环境毁灭，才是我们灭亡的主因。这个建设计划快则几天慢则几周，就可将全球表面盖满太阳能板、核能反应炉、具有突出冷却塔的超级运算设施、太空火箭发射器，或是能使人工智能的价值因长期累积而达到最大化的任何设施。人脑如果包含了与人工智能目标相关的数据，也可以拿去分解扫描，解开的数据则会转存为更有效而安全的保存格式。

这个超智能可能（也应该）会想出比任何人类所能设想的都还要好的计划，来达到它的目标。因此，我们有必要更抽象地思考这些问题。在完全不知道超智能会采取什么手段的情况下，我们得出结论：当足以匹敌的智能不存在，人类又没有事先安排有效的安全手段时，超智能就有可能会将地球资源重新分配给任何一种最能让它实现目标的设施。我们设想的任何一种具体情境，顶多只是“超智能可以多快多有效达成目标”的低标。超智能有可能会发现更短的途径，抵达它所要的目标。

掌控自然与行动主体

一个行动主体型塑人类未来的能力，不只取决于它本身能力与资源的绝对规模（它多聪明、多有活力、掌握多少资本等等），也要比对其他能力和目标相冲突的行动主体，看看相对规模。

在没有竞争者的情况下，一个超智能的绝对能力只要超过某个最低门槛，就不成什么问题；因为打从一开始它就有整组能力充足的系统，可以自行编出一套发展流程，并取得一开始缺乏的任何能力。先前我们说速度、品质和群体超智能都有同样的间接目标，其实就影射了这一点。当我们说：“超智能的众多子集，像是智能强化超级能力，或是策略制定和社会控制超级能力，都可以用来得到完全的超级能力”，影射的还是这一点。

想像一下，有个超智能行动主体，可以链接至纳米科技组装器的运行器。这样的行动主体本身就已经够强大，能克服任何生死未卜的天然障碍。在没有智能对手的情况下，它可以编写一套安全的发展流程，获得全套有助于达成目标的技术。举例来说，它可以发展技术，发射冯·诺伊曼探测器（vonNeumannprobe，是种可以使用小行星、行星和恒星等资源拷贝本体的星际旅行机器）。发射了冯·诺伊曼探测器，行动主体便能借此启动开放式的太空殖民流程。可拷贝探测器的后代，以不低于光速太多的高速在太空中旅行，最终将殖民哈勃体积（Hubblevolume，在宇宙学中指的是以观测者为中心、半径约为当前宇宙哈勃常数，即宇宙膨胀速度与距离的比例，所对应的一个球形空间区域。简单来说，这个体积大致是我们目前可以观测到的宇宙部分，也可以理解为光在宇宙年龄内能够到达我们的空间范围。它不仅仅是一个“体积”，还与宇宙的可观测性和结构演化有重要联系。）的绝大部分——也就是从我们这里出发，理论上能到达的扩张宇宙范围。接着，这些物质和自由能量会被组织成某种价值结构，来将初始行动主体于宇宙时间（在宇宙还没老化到不适合处理数据之前的上兆年期间）内所集成的功能最大化。

超智能行动主体可以把冯·诺伊曼探测器设计为可进化型，借由拷贝步骤中的品质控制来完成进化。举例来说，子代探测机的控制软件可以在运行前进行多次校对，软件本身则可以利用加密编码和勘误码，让任何随机突变无论如何都不会传递给子代。接着，数量大幅增加的冯·诺伊曼探测器在宇宙各处落脚，安稳地保存并传递祖代的价值。殖民阶段完成之后，最初的价值将决定所有累积资源的用途，即便宇宙的广大距离和加速的宇宙扩张，让远方的设施再也无法彼此通信。然而，结果就是我们未来光椎（lightcone）中的一大部分，会和祖代的偏好一致，且就此定型。

任何系统要是没有遇见重大的智能对手，且一开始就有一套超越特定门槛的能力的话，这就会是系统的间接影响范围距离。我们把此特定门槛称为“聪明单极持续门槛”，具体说就是，当一个有耐性并领悟生存风险的系统拥有了某套能力组，而在没有面临任何智能对手竞争的情况下，能殖民且重新经营大部分可及的宇宙时，这套能力组就超越了聪明单极持续门槛。

这里提到的“单极”指的是一个没有外在对手、内在也充分协调的政治结构；而“聪明”指的是对于生存风险具有忍耐力和领悟力，能保有为了系统长期结果而付出的大量心血。

这个聪明单极持续门槛似乎相当低。如同我们所见，有限形式超智能假使接触了某些足以启动技术自我引导流程的运行器，就会超越这个门槛。在一个具有当代人类文明的环境中，最低必要的运行器可以很简单：一个普通的屏幕，或是任何一种能把数量非凡的信息发送给人类同盟的手段，其实就绰绰有余。

但是，聪明单极持续门槛还可以更低：要克服这道门槛，其实根本不需要超智能或其他未来技术，只需要一个有耐性并领悟生存风险的单极。就算它没有比当代人类具备更多的技术和智能，应该也能轻易策划一条简单路径，最终实现人类的极大潜能。要达到这一点，可以投资相对安全的智能增进法和领悟生存风险方法，并延缓开发具潜在危险的新技术。有鉴于非人为生存风险（不是由人类活动导致的风险）在过往的漫长时间轴上都算低——而且可以用各种安全干涉更进一步降低——这样的单极有本钱慢慢进行。它可以在跨出每一步之前先小心观察，并在危害较低的能力（例如它的教育系统、信息技术和集体决策过程）臻于完备、并用这些能力全面审查抉择之前，先放慢合成生物学、人类强化药物、分子纳米科技和机器智能等能力发展。如此一来，这些都还是在一个有如当代人类文明之技术文明的间接范围内。我们现在不在这个情况中，“仅仅”因为人类如今不是个单极，也（相对而言）不够聪明而已。

我们甚至可以说，智人早在第一次演化之后不久，就通过了聪明单极持续门槛。好比说两万年前，在仅有石斧、骨器、投枪器和火这种程度的装备下，人类这个物种可能早已处在有绝佳机会活到现代的地位。诚然，要认定我们旧石器时代的祖先开发了“通过聪明单极持续门槛”的技术是有点奇怪——毕竟在那么原始的时代，并不可能真的形成单极，更遑论有耐性并领悟生存风险的单极。尽管如此，门槛是一个非常适中的技术水准（人类很久以前就超越的水准）这个论点仍然成立。

很显然，如果我们要评估一个超智能的性能，就不能只考虑它的内在能力，也要考虑竞争主体的能力。超级能力的概念悄悄援引了一个相对化的标准。我们说过，“一个能超越”表八中所有任务的“系统”，都有相应的超级能力。在策略制定、社会控制或黑客等任务上胜出，牵涉到在该项任务中具有比其他行动主体（像是策略对手、影响对象或是电脑安全专家）更高的技能。同理，其他超级能力也是相对的：就智能强化、技术研究以及经济生产力而言，某行动主体只有在自己持有的能力大幅超越全球其他文明加起来的能力时，才称得上拥有超级能力；这也符合“在任何时间，至多只有一个行动主体能持有一个特定超级能力”的定义。

这就是起飞速度的问题之所以如此重要的主因，不是因为确实发生时它很重要，而是因为起飞速度会让结果大不相同。在快速或稳健起飞时，很可能会是单一计划得到关键策略优势。我们现在得出结论：一个具有关键策略优势的超智能将可能拥有极大的力量，足以形成一个稳定的单极，从而决定人类的宇宙禀赋如何被处置。

但“可能”和“将会”不一样。有些人可能会掌握大权但选择不用。因此，我们是否该谈谈一个具有关键策略优势的超智能会想要什么？接下来，我们要处理的就是动机问题。

我们已经看到超智能可以拥有强大的能力，并能根据目标形塑未来。但它的目标会是什么？一个人工智能行动主体的智能和动机之间会有什么关系？这里我们开展出两个命题。其中正交性命题（orthogonalitythesis）认为，智能和其终极目标是独立的变量：任何水准的智能都可以和任何终极目标结合。另外一个工具趋同命题（instrumentalconvergencethesis）则认为，超智能行动主体不管拥有什么样的终极目标，最终都会追求类似的中庸目标，因为它们具有同样的工具理性。综观这两个命题，能帮助我们思考超智能行动主体会怎么行动。

智能与动机之间的关联

我们先前已经提过把超智能的能力拟人化会产生的问题，这个警告也应该要延伸到超智能的动机上。

关于这部分，我们先稍微反思一下“可能存在的心智空间有多辽阔”，会是个很好的入门。在这个抽象空间中，人类的众多心智聚成了一个小团体。想像一下两个看起来极端不相像的人，比方说汉娜·阿伦特（HannahArendt，政治哲学家）和班尼·希尔（BennyHill，英国著名喜剧演员），这两人的人格特质看起来几乎有天壤之别，但这是因为我们用经验校准直觉，而我们的经验采样自既有的人类分布（某些程度上，采样于人类是因为“想像活动”带来的快乐，所以我们从想像中建构了虚构人格）。然而，如果我们拉远视野，思考所有可能存在的心智空间，我们就必须把这两个人格设想为虚拟的拷贝人。确实，以神经架构来说，阿伦特女士和希尔先生几乎是一样的。想像一下他们两人的大脑摆在一起安静地休眠，你可以轻易地认出：这是一样的大脑。你甚至可能无法分辨谁是谁。如果你更靠近点观察，在显微镜下研究这两个脑袋的形态，两者极为相似的印象只会变得更强：你会看到一样的皮层层状组织，他们有着同样的脑域，且由同一种神经元构成，还浸泡在一样的神经传导物质中。

尽管人类心理对应的，仅是可能存在的心智空间之一小部分，但我们仍有一种普遍的倾向，会将人类特质投射在广泛的外星生命或人工认知系统上。尤德考斯基对这点的描述十分贴切：

回到低俗科幻小说的年代，杂志封面偶尔会描绘一个有知觉的丑恶外星异类——白话说法就是“虫眼怪”（bug-eyedmonster，BEM）——掳走衣衫不整的人类美女。这似乎代表创作者相信，一个非人类的外星异类即便有全然不同的演化史，它仍会对人类女性产生性欲……有可能创作者从未思考过，一个大虫怎么会觉得人类女性具有吸引力——穿着撕烂衣服的女人就是这么性感，仿佛这是它内置的属性。犯这个错的人并没有思考昆虫的心智，只专注在女人撕烂的衣服上。如果衣服没被撕烂，女人就没那么性感，虫眼怪也就没了兴趣。

人工智能的动机可以远比绿色鳞片的外星人更不像人类。（我们先假设）外星生物是一种在演化过程中兴起的生物体，因此可以预期它具有典型演化生物的动机。举例来说，如果发现随意一种智能外星人的动机，居然和食物、空气、温度、能量消耗、身体受伤，以及威胁、疾病、掠夺、性以及下一代等要素有关，那也没什么好意外的。智能社群物种的单一成员也可能会有和合作、竞争有关的动机；就像我们一样，这会展现在团体忠诚或对独行者的憎恨上，甚至还会有针对名声或外表之类的无谓顾虑。

相较之下，一个人工智能本质上并不在乎这些东西。对一个终极目标仅是在长滩岛上数沙粒，或计算圆周率小数点后的位数，或将未来光椎中存在的回形针总量最大化的人工智能来说，这并没有什么好矛盾的。事实上，制造这种目标简单的人工智能，比打造具有类似人类价值意图的人工智能还要容易。想想看，要写出一个测量内存中计算并保存了多少圆周率位数的程序，和写出一个针对某些更有意义的目标（好比人类繁荣或是普世正义）的实现程度做出可靠测量的程序，两者之间的难易差距有多大。不幸的是，对人类来说，一个无意义的简化目标比较好编码，让人工智能学习也比较简单，所以如果一个程序员的目标是走最快途径“让人工智能激活”（而不太管这个人工智能除了展现优异的智能行为之外，实际上能干么），那么选择装在种子人工智能里的目标，就会是这种简单的目标。我们等一下会再回来探讨这个顾虑。

图2　将外星人动机“拟人化”的结果。最不可能发生的假想：外星异类偏好金发美女。比较有可能的假想：绘图者屈从于“心智投射谬误”。最有可能的假想：出版者想要引诱目标读者的封面。

寻找工具上优化计划与策略的智能搜索，可以为了任何目标效力。智能和动机在某种意义上是正交的；我们可以把它们视为一个坐标平面的两轴，而坐标上任一点都代表一个逻辑上可能的人工智能行动主体。图中还可以加入一些资格条件。比方说，一个极度缺乏智能的系统，恐怕难以拥有一个非常复杂的动机。假设一个特定行动主体“拥有”一套动机，那些动机就得在功能上与主体的决策过程有所集成，从而有记忆、处理能力甚至智能的需求。那些能自我修改的心智，也可能会有动力学上的约束，比如说一个迫切想让自己变笨而能自我修改的心智，应该不会维持智能太久。不过，我们不该让这些资格条件，模糊了智能和动机之间独立关系的基本命题，这个命题用可以下文阐明：

正交命题：智能和终极目标是正交的：不管任何水准的智能，原则上都可以与任何一种终极目标结合。

如果正交命题看起来有问题，那可能是因为它和某些易起争论的传统哲学观点表面上很相似。一旦我们了解它有不一样且更狭义的定义，它的可靠性就提高了（举例来说，正交并不缺省休谟［Humean］的动机理论。也不缺省基本偏好不能不合理）。

注意，正交命题谈的不是合理性或理性，而是智能。我们这里说的“智能”，指的是像预测、计划、方法等技能的东西，整体来说是推理能力。当我们企图了解一个机器超智能的影响会是什么时，这层工具认知性能上的意义是最重要的。即便“回形针最大化”超智能行动主体很难全然达到合理的标准，但也不妨碍它具备极为强大的工具推理能力，而能对世界产生大规模的影响。

根据正交命题，人工智能行动主体可以拥有完全不像人的目标。然而，这并不代表我们不能预测它的行为。我们至少可以从三个方向处理预测超智能动机的问题：

设计上的可预测性。如果超智能行动主体的设计者可以成功安排行动主体的目标系统，让系统稳定追求设计者安置的某一特定目标，那么我们可以做出一个预测：这个行动主体将会追求这个目标。当它愈聪明，它用来追求目标的认知智能就会愈强。因此，只要我们知道这个行动主体是谁打造出来的，且知道他们安置了什么目标，那么即使这个行动主体还没被设计出来，我们也能预测它的行为。
继承而来的可预测性。如果某数字智能是直接从人类模板制造出来的（高度全脑仿真会发生的情况），那么这个数字智能就继承了人类模板的动机。即便这个行动主体的认知能力随后增强为超智能，它还是会维持这些动机。这种推论必须小心谨慎：行动主体的目标和价值可以轻易在上传过程或其后的运作与增强中腐化，取决于步骤如何施行。
趋同工具理性上的可预测性。关于行动主体的终极目标，就算没有详细的知识，只要思考众多状况中，为了众多可能终极目标之一而产生的工具理性，我们还是有机会约略推测它的近期目标。当行动主体的智能愈强大，这种预测方式就愈有用，因为一个比较聪明的行动主体较可能察觉行动中真正的工具理性，并因此做出较有可能达到目标的行动（附带一提，可能会有我们不知道、但相当重要的工具理性，一旦行动主体的智能达到某个非常高的水准，它就会发现——这可能会使超智能行动主体的行为变得更难预测）。

接下来这一节，我们将探索上述的第三种可预测性，并发展出一个补充正交命题的“工具趋同命题”。在这个背景下，我们更能好好检验另外两种可预测性（会在后面的章节检验）并提问：我们可以做些什么，好让智能爆发时，有益结果出现的机会增加？

工具趋同性

根据正交命题，智能行动主体可能会有的终极目标可说是五花八门。尽管如此，根据所谓的“工具趋同性”命题，绝大多数的智能行动主体都会追求一些工具目标。这些工具目标对于达成任何终极目标来说，都是有用的中介。我们可以如此阐述这个命题：

工具趋同命题：我们可以辨认出好几种工具价值，不管是在各种终极目标还是各种状况下，它们所能达成的结果，都会增加行动主体实现终极目标的机会，因而在这层意义上称为趋同；这也指出，这些工具价值显然是各种智能行动主体所共同追求的，尽管它们散落在光谱上的各个位置。

接下来，我们将会思考几个分类，在这之中也许可以找到趋同工具价值。随着行动主体的智能增加（其他条件不变），行动主体愈有可能察觉到自己面对的工作价值。因此，我们将举例说明的案例，是个工具推理能力远超过人类、假定的超智能行动主体；我们也将说明工具趋同命题如何适用于人类的情况，因为这会让我们更容易明白“工具趋同性命题要如何诠释并应用”的基本资格。只要有趋同的工具价值，就算我们实际上完全不知道某个超智能的终极目标是什么，我们还是可以预测其行动的某些面向。

保全自身

如果某个行动主体的终极目标和未来有关，那么它必须要有能进行未来行动的机会，这样达到目标的机率才能增加。于是，这就赋予了想存续到未来的行动主体工具理性，好让它能达成那个未来导向的目标。

大多数的人类把存活视为终极价值，但对人工智能行动主体来说，活下去并非必要；有些人工智能行动主体在设计时，并没有置入要存活下去的最终价值。即便如此，许多本质上不在乎自己是否存活的行动主体，在相当普遍的情形下，还是会关心自己的存活，好让自己能达成终极目标。

目标－内容一致性

一个行动主体若要维持当下的目标到将来，它的目标很有可能需要由未来的自己来达成。这就给了行动主体“目标－内容一致性”的工具理性，来避免终极目标产生变化（此命题只适用于终极目标。为了达成终极目标，智能行动主体想当然尔会常常根据新的信息和想法，来改变其子目标）。

为了终极目标而具备的目标－内容一致性，从趋同工具的动机来说，甚至比生存更为基本。在人类当中，相反的情形也说得通，但那是因为生存往往是我们最终目的之部分目的。对于软件行动主体而言，它们可以轻易转换身体或创造完全一样的自身拷贝。因此，把自身的某个特定成果或物理对象保存下来，对它而言不是重要的工具价值。先进的软件行动主体也会交换记忆、下载技能并全面调整自己的认知结构和人格。一大群这样的行动主体一起运作起来，会更像一个“功能汤”，而不像一个由整群彼此差异的半人类所组成的社群。出于某些理由，这样的系统过程最好是根据目标价值，而非根据身体、个性、记忆或能力，将这群行动主体都置入目的论的脉络中。在这样的情境下，我们或许可以说，目标连续性（goalcontinuity）建构了它们生存的关键面向。

即便如此，在某些情境中，行动主体还是只能通过刻意改变终极目标，来达到终极目标。当以下任何一种因素变得显著时，上述情况就有可能发生：

社会信号。当其他人可以感知某个行动主体的目标，并利用这项信息来推断行动主体的特质或是其他相关属性时，那么该行动主体就会调整目标，产生讨人喜欢的印象，以符合利益。举例来说，在一场利益交换中，如果行动主体的伙伴不相信它能履行协议内容，这个行动主体可能就会错失获利机会。为了许下可靠的承诺，行动主体会希望把“信守先前的承诺”当作终极目标，并让其他人认定它确实会采用这个目标。能灵活调整自身目标的行动主体，可运用这个能力来强化交易。
社群偏好。其他人也可能对行动主体的目标具有最终偏好。那么行动主体可能会调整目标，来满足或者阻挠那些偏好。
关于自身目标内容的偏好。行动主体可能会有一些和自身目标内容相关的终极目标。举例来说，可能会有“成为被特定价值而非其他价值推动（例如由同理心而非安适感所推动）的行动主体”的终极目标。
保存成本。如果保存或处理一个行动主体某部分性能函数的成本，与应用那性能函数产生改变的机会相比显得太大，那么这个行动主体就有工具理性来简化目标内容，且有可能会舍弃掉闲置的比特空间。

人类似乎常常乐见自己的最终价值飘移，可能是因为我们根本不知道我们的最终价值是什么。所以不意外，对于最终价值的信仰，我们总希望能根据“持续的自我发现”或是“变动的自我呈现需求”来改变。然而，在某些例子中，我们不只改变了自己对价值的诠释或信仰，而是改变了价值本身。举例来说，决定生小孩的人，可能预测自己会将为了自己而珍惜小孩，尽管在决定的时刻，他们可能并不特别珍惜他们未来的小孩或是喜欢孩子。

人类是复杂的，许多因素都可能在这样的情况中起作用。举例来说，某个人的终极价值，可能是出于自身需要而在乎他人；也有些人的终极价值，是拥有某些经验并占据某些社会角色，因此成为父母并经历随之而来的目标转换，可能会是其必要过程。人类的目标也可以不一致，因此有些人可能会想改变自己的终极目标，来降低不一致性。

认知强化

理性和智能的进步将促进行动主体的决策能力，让它更有可能达成终极目标。那么，我们可以预期，“认知强化”会是众多智能行动主体的工具目标。出于类似理由，行动主体将会工具性地评估各种信息。

在一个行动主体达成终极目标的过程中，并非每种理性、智能和知识都有工具上的作用。“荷兰赌论证”（Dutchbookarguments）显示，一个信任函数违反机率理论规则的行动主体会受到“金钱泵”（moneypump）进程的影响。在该进程中，熟练的专业赌徒安排了一组赌注，每一个都依照行动主体的信念而显得讨人喜欢，但加总起来却必定让行动主体输钱，赌徒则必定赢钱。然而，这样的事实无法给予行动主体强大的一般工具理性，用来消除机率的不连续性。没预期到会遇上老千的行动主体，或是对于打赌采用一般策略的行动主体，不见得会因为信念的不一致而持续输很多——它可能会得益于减少认知努力或社会信号等。我们没有理由期望一个行动主体会寻求工具上无用的认知强化，因为它可能并不会为了充实自己而重视知识和理解。

从工具角度来看，哪些认知能力是有用的？这同时取决于行动主体的终极目标和它本身的状况。一个能得到可靠专业建议的行动主体，可能不怎么需要自身的智能和知识。如果获得智能和知识需要付出时间和精力，或是需要付出增加保存或处理需求的代价，那么行动主体可能就会偏好较少的知识和智能。如果行动主体的终极目标跟它对某些事实的无知有关，这同样也说得通；同理，如果一个行动主体面对的是出于策略承诺、信息和社会偏好等诱因，情形也会一样。

上述每个相抗衡的理由常常在人类身上起作用。许多信息和我们的目标并不相干；我们常仰赖他人的技术和专业；获得知识需要付出时间和精力的代价；我们也许本质上就重视某些类型的无知；在我们运作的环境中，许下策略承诺、发出社会信息，并且先于自身认知状态去满足他人偏好，常常比单纯的增加认知来得重要。

在某些特殊情况下，认知强化可能会导致行动主体达到终极目标的能力大幅增加——尤其是行动主体的终极目标不受限制，且它处在即将成为首个超智能的位置上（并因此潜在地获得关键策略优势），能根据自身偏好来形塑地球生命以及可得宇宙禀赋的未来。在这个特殊情况下，一个理性的智能行动主体会十分重视认知强化的工具价值。

技术完善

行动主体可能常会有“寻找更好技术”的工具理性，简单来说，就是寻找更有效的方法，来把某几套输入转化成经过评价后的输出。因此，软件行动主体可能会重视那些能让智力活动在硬件上更快、更有效的算法工具价值。同理，需要某些物理构造形式来达成目标的行动主体，在工具价值上重视的会是能让自己使用更少、更便宜的材料能源，好更快速且可靠地产生更多样结构的先进工程技术。当然，这之间有个折衷问题：更好的技术潜藏的好处必须以成本衡量，不只是获得技术的成本，也包括学习、与其他既有技术集成，以及其他成本。

相较于既有技术，对于新技术的优越性充满信心的支持者，往往会对其他人的冷漠感到错愕。但是人之所以抗拒乍看之下较佳的新鲜事物，并非只是出于无知或非理性。一个科技的价值或规范特性，不只要看它在什么脉络下实行，也得看看从它的优势中衍生出来的影响；某人眼中的恩惠，可能是他人眼中的负担。因此，尽管机械化的织布机增进了纺织品生产的经济效率，那些预期革新会让工艺技术遭到淘汰的卢德主义（Luddite）手织者有充足的工具理性来反对革新。这里的重点在于：如果“技术完善”指的是智能行动主体大幅趋同的工具目标，那么这个词语就必须以特殊意义来理解：把技术放在一个特定的社会脉络中分析来评价成本和利益，则必须提及特定行动主体的终极价值。

因此，一个单极超智能——没有显著智能竞争者或对手的超智能行动主体，因而处于一个可以单方面决定全球政策的地位——可能会具有想把“更能根据自己偏好来形塑世界的技术”发展得更完善的工具理性。可能包括太空殖民技术，好比说冯纽曼探测机。分子纳米科技或是其他更强大的物理生产技术，也有机会在五花八门的终极目标中大显身手。

资源截取

最后，资源截取是另一个普遍的迫切工具目标，原因几乎和技术完善一样：技术和资源都能促进物理建设计划的发展。

人类会设法获取足以满足基本生物需求的资源，但往往也会截取远超过最低水平所需的资源。部分原因可能是由较低等的生理需求驱使，例如增进便利性等等。有许多资源累积是由社会推动的，并通过财富累积和炫耀消费来进行，例如获得地位、配偶、朋友和影响力。比较不普遍的情况是，某些人会寻找额外的资源来达到利他企图或是非社会目标。

以这种观察为基础，我们忍不住假设：一个不需面对竞争社群的超智能，不会有想要累积超过适当水准资源的工具理性。举例来说，它不需要在虚拟实境中运作自身心智的运算资源。然而这样的假设完全没有根据。首先，资源的价值取决于它的可行用途，因而取决于可用的技术。有了成熟的技术，时间、空间、物质和自由能（freeenergy）等基础资源都可经由处理而对达成任何目标有所帮助。举例来说，基础资源可以转变为生命；增加的运算资源可以用来让超智能运算得更快更久，或是创造更多的物理或仿真生命和文明；额外的物理资源也可以用来创造备用系统或边界防御，借此强化安全。这些计划可以轻易消耗超过一个行星分量的资源。

更进一步来看，获取额外外星资源的成本会在技术成熟后大幅滑落。一旦冯·诺伊曼探测器变得可行，可观测的宇宙有一大部分可以逐渐殖民（假设还没有其他智能生命居住）。至于成本，只有打造并发射一台成功的自我拷贝探测器，而且只要一次就好。只要花低成本就能取得天文数字的资源，代表就算获得的额外资源价值有点低，扩张还是很划算。举例来说，就算某个超智能的终极目标只关注在太空中某个特定的小区块，它仍会以工具理性来收割这个区块范围之外的宇宙禀赋。它可以使用多余的资源来打造电脑，在主要关注的小空间范围内计算出更理想的资源使用法。它甚至可以运用额外的资源打造更坚固的防御工事，来保卫内核。既然获取额外资源的成本会持续下降，这个优化并增进安全的过程就有可能无止尽地持续下去，就算面对大幅的报酬递减还是一样。

因此，一个单极的超智能之终极目标可以无穷无尽变化，因而产生“无限制的资源截取”这个工具目标。上述目标可能的表现，将是超智能借由冯·诺伊曼探测器全面打开的殖民过程。这将会是一个以初始行星为中心的球体扩张设施，并以小比例的光速来增加半径。如此持续殖民宇宙，直到宇宙扩张的加速度（正宇宙常数的结果）使更远的宇宙膨胀到永远抵达不了的距离，就会让进一步的资源截取变得不可行（这会在以几十亿年为尺度的未来）。相对来说，如果行动主体缺少廉价截取资源或是转换普遍物理资源为有用基础设施所需的技术，那么投资任何当前资源来增加物质财产就会不合成本。对有其他力量相仿竞争的行动主体来说，情况也会是一样。举例来说，如果竞争者已抢先截取了宇宙禀赋，晚起步的行动主体就没有殖民的机会。那些不确定其他超智能存在与否的超智能，其趋同工具理性会因为我们当下并不完全了解的策略顾虑而更复杂，而成为前述趋同工具理性的范。

本文节选自：Superintelligence: Paths, Dangers, Strategies

出版商：牛津大学出版社

出版日期 : ‎ 2014年9月3日

版本 ‏ : ‎ 第1版

语言 ‏ : 英语

上一篇：11月21日华设集团创60日新低，前海开源沪港深智慧生活混合基金重仓该股

下一篇：电力“加冕” 储能接棒 AI竞赛新叙事？

超级AI接管世界需要几步？

相关内容

热门资讯