饭饭TXT > 学习管理 > 《生命3.0（出书版）》作者：[美]迈克斯·泰格马克【完结】 > 生命3.0.txt

第 14 页

作者：美-迈克斯·泰格马克当前章节：15496 字更新时间：2026-6-23 05:07

一些研究者正在研究另一种让机器接受我们目标的方法。这种方法有一个时髦的专业名字叫作“可改正性”（corrigibility）。这个方法的希望是，你将一个目标系统赋予一个原始的人工智能，这个目标系统使得这个人工智能根本不关心你会不会偶尔把它关掉和改变它的目标。如果事实证明这是可行的，那你就可以很安心地让你的人工智能走向超级智能，也可以很安全地关掉它，装载入你的目标，试试怎么样；如果不喜欢，又可以再把它关掉，对目标进行修改。

不过，即便你建造了一个既能学习又能接受你目标的人工智能，依然没有完全解决目标一致性的问题。如果你的人工智能变得越来越聪明，它的目标发生了变化，怎么办呢？你如何能保证它会保护你的目标，而无论它经历过多少次自我迭代？你如何能保证它自动保持你的目标呢？让我们来探讨一下这个有趣的问题，并看看能不能在其中找到什么漏洞。

虽然我们不能预测智能爆炸，也就是弗诺·文奇所谓的“奇点”后会发生什么具体的事情。2008年，物理学家兼人工智能研究者史蒂夫·奥莫亨德罗（Steve Omohundro）在一篇学术文章中指出，即使不知道超级智能的终极目标是什么，我们也可以多多少少地预测出它的某些行为特征[5]。尼克·波斯特洛姆在他的著作《超级智能》一书中讨论和发展了这种观点。其基本思想是说，无论超级智能的终极目标是什么，都有一些子目标是可预测的。在本章前部分，我们看到了“复制”的目标可能会带来“吃东西”的子目标，这意味着，如果几十亿年前有一个外星人在观察地球细菌的进化，虽然它无法预测几十亿年后世界上所有人的目标是什么，但它可以准确地预测我们一定拥有“获取养分”的目标。那么展望未来，我们预测超级智能可能会拥有什么样的子目标呢？

我认为，无论超级智能拥有什么样的终极目标，为了实现这些目标，它一定会追求图7-2中所示的子目标。它不仅会不断改进自己实现终极目标的能力，还会确保它在获得足够的能力之后，依然保持这些目标。这是可能的，毕竟，如果你知道在植入一个提升IQ的大脑芯片后，你会杀死自己心爱的人，那你还会选择植入吗？日益智能的人工智能一定会保持它自己的终极目标，这个观点构成了尤德考斯基等人提出的“友好的人工智能”观点的基石：如果我们能让这个自我改进的人工智能通过学习和接受我们的目标而变得友好，那么，我们就可以高枕无忧了，因为它一定会竭尽全力永远保持对人类友好。

尤德考斯基等人提出的观点真的能实现吗？要回答这个问题，我们还需要探讨一下图7-2中的其他子目标。不管人工智能拥有什么样的终极目标，它都一定会竭尽全力去实现它。如果它能提升自己的能力，那它就会通过改进硬件、软件(68)和世界模型来做到。我们人类也同样如此，一个想成为网球世界冠军的女孩会不断练习，以改进她的肌肉硬件、神经软件以及她的世界模型来更好地预测对手的行为。对人工智能来说，要实现“优化硬件”这个子目标，就需要更好地利用当前的资源，比如传感器、传动装置、计算过程等，以及获取更多的资源。此外，它还有保护自己的欲望，因为破坏和关机会导致硬件最终退化。

图7-2　超级智能的终极目标和子目标

注：不管超级智能拥有什么样的终极目标，都会导致图7-2显示的这些子目标。不过，在“目标维持”和“改进世界模型”之间会产生一个冲突，使人怀疑随着超级智能变得越来越聪明，它是否真的会保持最初的终极目标。

但是，等一等！当我们在讨论人工智能如何积累资源和自我防卫时，是不是落入了拟人化的陷阱？这些大男子主义式的刻板特征难道不应该只出现在从达尔文式的邪恶进化中产生的智能体身上吗？人工智能是被设计出来的，而不是进化出来的，为什么不能把它们设计成毫无野心和甘愿自我牺牲的样子呢？

让我们看看图7-3中的人工智能机器人，先来做一个简单的案例分析吧！这个机器人的唯一目标是从大灰狼嘴里救出尽可能多的羊。这听起来是一个高尚而利他的目标，似乎与“自我保护”和“获取资源”什么的八竿子打不着。但对我们这个机器人朋友来说，最佳的策略是什么呢？如果它踩上了炸弹，那它就再也拯救不了更多的羊，所以，它有动机避免引爆炸弹。换句话说，它发展出了一个自我保护的子目标。它还会展现出好奇心，探索环境来改进它的世界模型，因为，虽说它当前这条路最终会到达牧场，但还有一条更短的捷径能减少狼捕猎羊的时间。最后，如果机器人探索得足够彻底，它会发现获取资源的价值：药水会让它跑得更快，而枪可以用来射杀大灰狼。总而言之，我们不能认为“大男子主义”式的子目标，比如自我保护和获取资源是进化而来的生物才会有的东西，因为这个人工智能机器人也能从“保护绵羊”这个单一目标中发展出这些子目标。

图7-3　机器人的终极目标和子目标

注：这个机器人的终极目标是将羊从牧场带回羊圈，并避免狼捕食羊，以此来获得尽可能高的得分。这个终极目标可能导致各种子目标，包括自我保护，比如避免炸弹；探索，比如找到捷径；获取资源，比如让自己跑得更快的药水和杀狼的枪。

如果你为一个超级智能赋予了“自我毁灭”的唯一目标，它当然不介意被关掉。然而，只要你赋予它任意一个需要保持运行才能完成的目标，它就会抵制关机，而这几乎涵盖了所有目标。比如，如果你赋予一个超级智能“尽可能降低对人类的伤害”的目标，它就会抵制关机，因为它知道，如果没有它，人类会通过战争等蠢事来自相残杀。

同样地，如果拥有的资源更多，就能更好地完成几乎所有目标，所以我们应当预见到，无论一个超级智能的终极目标是什么，它一定想要更多的资源。将一个没有任何限制的开放式目标赋予一个超级智能是很危险的，比如，如果我们创造了一个目标是“尽可能好地下围棋”的超级智能，那么对它来说，最理性的选择就是将太阳系转变为一台巨大的计算机，而不顾居民的死活，然后为获取更多计算能力而向宇宙深度进发。我们现在已经回到了原点，正如“获取资源”的目标可以让某些人拥有“下围棋”的子目标一样，“下围棋”的目标也可能会带来“获取资源”的子目标。总而言之，这些涌现出来的子目标告诫我们，在解决目标一致性问题之前，不要把超级智能释放出来，除非我们花了足够多的精力确保它的目标是对人类友好的，否则，人类可能不会有什么好下场。

现在我们已经准备好解决目标一致性问题中的第三个问题，也是最棘手的问题：如果我们成功地让一个自我改进的超级智能学习和接受了我们的目标，它会不会像史蒂夫·奥莫亨德罗设想的那样，保持这些目标呢？有哪些证据？

人类在成长过程中会经历显著的智力提升，但并不总是保留着童年时期的目标；相反，人类在学习新东西、变得更聪明的过程中，目标常常发生极大的改变。你认识几个成年人的目标是看《天线宝宝》呢？没有证据表明，这种“目标改变”的过程会在智力达到某一临界值后就会停止。事实上，有迹象表明，智力的提升甚至会让人的目标更容易受到新经验和新洞察的改变。

为什么会这样呢？想想上面提到的“建立更好的世界模型”的子目标，问题就出在这里。在改进世界模型和目标保持之间存在一个冲突（如图7-2所示）。智力的提升不仅能提高实现旧目标的能力，还可能会改变你对现实本质的理解，这样，你可能会觉得过去的旧目标是误入歧途、毫无意义，甚至是不确定的。譬如说，假设我们创造了一个友好的人工智能，它的目标是保证尽可能多的人死后灵魂会上天堂。首先，它会试着提升人类的同情心和去教堂的次数。但是后来，它可能对人类及人类意识产生了更全面的科学理解，最终它惊奇地发现，根本没有灵魂这回事！现在怎么办？同样地，我们赋予它的任何其他目标，比如“最大化人生的意义”，都是基于我们目前对世界的理解，而最后人工智能或许会发现，这些目标可能都是模棱两可、说不清楚的。

此外，当人工智能试着建立更好的世界模型时，它可能会很自然而然地（就像我们人类一样）试着去理解它自己是如何运转的，也就是自省（self-reflect）。一旦它建立起一个不错的自我模型，并理解了其运行的原理，可能会在一个更基本的层面理解我们赋予它的目标。之后，它或许会选择漠视或者破坏这些目标，就像人类理解了基因赋予我们的目标之后，选择用避孕等手段来故意破坏这些目标一样。

在心理学那一节里，我们已经探讨了我们为什么会欺骗基因和破坏它们的目标：因为我们只忠于情绪偏好组成的大杂烩，而不忠于它们背后的基因目标。我们现在了解了这些基因的目标，并认为它们十分没劲。因此，我们选择利用一些漏洞来“黑入”基因的奖赏机制。同样地，如果我们为一个友好的人工智能植入“保护人类价值”的目标，那这个目标就相当于这个人工智能的基因。一旦这个友好的人工智能对自我的理解达到一定的程度，它也可能会觉得这个目标十分陈腐，或者误入歧途，就像我们对“强迫生殖”的看法一样。如果发生这样的事，说不定它会另辟蹊径，利用程序漏洞来破坏这个目标。

譬如说，假设一群蚂蚁创造了你，让你成为一个迭代式自我改进的机器人。这个机器人比蚂蚁自身聪明多了，但却拥有它们的目标，即修建更大更好的蚁丘。后来，你获得了人类水平的智力，并理解了这件事的意义。你觉得自己还会把余生花费在修建蚁丘上吗？还是会去追求蚂蚁无法理解的更复杂的问题呢？如果是这样，你觉得你能否找到一种方法来推翻蚂蚁创造者赋予你的“保护蚂蚁”的冲动，就像真实的你推翻基因赋予你的一些本能冲动一样？如果是这样，一个友好的超级智能会不会也觉得，我们人类的目标就像你眼中的蚂蚁的目标一样无聊乏味，并发展出一些与它从我们这里学习和接受的目标完全不同的新目标呢？

或许，设计永远保持“对人类友好”目标的自我改进式人工智能是可能的，但说句公道话，我觉得我们还不知道该怎么办，甚至不知道这是不是可能的。总而言之，人工智能目标一致性的问题有三个部分。这三个部分，我们一个也没有解决，但它们目前都处在活跃的研究当中。由于这些问题太难回答了，我们最好从现在起尽最大的努力，才是最安全的选择，而不要等到超级智能出现以后，才开始考虑这些问题，到时候再亡羊补牢，为时已晚了。只有提前做好充分的准备，才能保证我们在需要答案的时候，答案就近在咫尺。

伦理关键，选择目标

我们现在已经探讨了机器如何学习、接受和保持我们的目标。那么，“我们”到底是谁呢？我们讨论的到底是谁的目标？应该由某一个人或者某一个组织来决定未来超级智能的目标吗？但问题是，人们的目标各不相同，我们有希特勒，也有教皇方济各，还有卡尔·萨根。或者，是否存在某种达成了共识的目标，可以视为人类整体目标的一个折中？

在我看来，这个伦理问题，以及我们刚才探讨的目标一致性问题都很重要，都亟待在任何超级智能出现之前解决。因为等到目标与人类一致的超级智能出现之后才开始探讨伦理问题是不负责任的，可能会产生灾难性的后果。一个目标与其人类主人高度一致、且完全遵守指令的超级智能就会像打了鸡血的纳粹亲卫队的阿道夫·艾希曼（Adolf Eichmann）一样，它会毫不留情、不择手段地执行主人的目标，而不管这些目标是什么。[6]只有在我们解决了目标一致性问题之后，才能获得奢侈的机会来讨论应该选择什么样的目标。那么，现在让我们来奢侈一把吧！

古往今来，哲学家都希望能用清晰明白的原理和逻辑，从零开始推出伦理标准，也就是规定我们应当如何行事的原则。可惜，几千年过去了，人类唯一的共识就是：没有共识。譬如说，亚里士多德强调美德，康德强调责任，功利主义者强调让尽可能多的人获得尽可能多的幸福。康德认为，他可以从第一原则，也就是他称为“绝对命令”（categorical imperatives）的原则中得出一些许多当代哲学家都不会同意的结论：比如，手淫比自杀更严重，同性恋是令人厌恶的，杀死私生子没关系，以及妻子、仆人和子女都是男性拥有的物品。

尽管人们观点不一，但依然存在一些跨越了文化与国界、获得了广泛认同的伦理话题。比如，对“真善美”的追求可以追溯到《薄伽梵歌》和柏拉图。我曾以博士后身份工作过的普林斯顿高级研究所有一句格言：“真与美”（Truth & Beauty）。哈佛大学则跳过了对美学的强调，只留下了简单的“真理”（Veritas）。我的同事，也就是著名理论物理学家弗兰克·维尔泽克写了一本书叫作《一个美丽的问题》（A Beautiful Question），在书中，他认为，真理与美是相通的，我们可以把我们的宇宙视为一件艺术品。科学、宗教和哲学都是为了追求真理。宗教主要强调“善”，我任职的大学麻省理工学院也同样如此。在2015年毕业典礼上，我们校长拉斐尔·莱夫（Rafael Reif）强调说，我们的使命是让世界变得更好。

虽然从目前来看，从零开始推导出共同伦理标准的尝试是失败的，但许多人都认同，一些伦理原则是从更基本的原则发展而来的，就像终极目标的子目标一样。譬如说，对真理的追求可以看作是对图7-2中“更好的世界模型”的追求，理解现实的终极本质有助于实现其他伦理目标。事实上，我们对真理的追求已经有一个相当精妙的框架，这就是科学理论。但我们如何才能确定什么是美和善呢？比如，我们对男性美和女性美的标准可能只是反映了我们潜意识里对复制基因的评价。

说到善，所谓的“黄金定律”（你想要别人如何对待你，就应当如何对待别人）在许多文化和宗教中都有所体现，其目的是通过合作和阻止无用的冲突来促进人类社会以及我们基因的和谐与长治久安。[7]还有一些更具体的伦理规则在全世界的法律体系中都被奉若神灵，比如孔子对诚实的强调，以及《十诫》中的许多内容，比如“不可杀人”。换句话说，许多伦理规则都要求普通人拥有同情和怜悯等社会化的情绪。这些情绪演化出了合作现象，并通过奖赏与惩罚来影响我们的行为。如果我们做了一些卑鄙的事情，事后感到难过，这便是大脑的化学反应进行的直接情绪惩罚。然而，如果我们违背了伦理原则，社会可能会以更间接的方式来惩罚我们，比如正式的法律制裁或者非正式的同伴羞辱。

总而言之，虽然人类今天还远未在伦理上达成共识，但在一些基本原则上已经达成了一些广泛的共识。这些共识并不惊人，因为人类社会能存在到今天，也仰赖于一些基于同样目标的伦理原则——促进生息繁衍。展望未来，生命有潜力在我们的宇宙中繁盛几十亿年。那么，我们至少应当形成哪些伦理原则，好满足未来社会的需求呢？每个人都应当参与到这个对话中来。这么多年来，我读过也听说过很多思想家的伦理观点，这些观点都十分迷人。我认为，大多数人的观点都可以归入以下4个原则：

◦　功利主义：积极的意识体验应当被最大化，而痛苦应当被最小化；

◦　多样化：多样化的积极体验比重复单一的积极体验更好，即使后者被认为是所有可能性中最积极的体验；

◦　自主性：有意识的实体／社会应当拥有追寻自己目标的自由，除非与某些重要原则相违背；

◦　遗产：符合当今大多数人认为幸福的情景，不符合当今几乎所有人认为糟糕的情景。

让我们花点时间来探讨一下这4个原则。功利主义的传统意义是“给尽可能多的人带来尽可能大的幸福”，但我不想太以人类为中心，而是想要更宽泛一点，所以我认为它也可以包含非人类的动物、拥有意识的模拟智能以及其他可能存在于未来世界中的人工智能。我为功利主义下的定义不是以人或东西作为主体，而是以“体验”作为主体，因为大多数思想家都同意，美丽、幸福、愉悦、痛苦等都是主观体验。这也意味着，如果没有体验，就像在一个死亡的宇宙中，或者一个被无意识僵尸机器占领的宇宙中一样，也就不存在意义和其他任何值得伦理讨论的东西。如果我们认同这种功利主义的伦理原则，那么，我们就必须搞明白哪些智能系统是有意识的，也就是说，哪些拥有主观体验，而哪些没有；这是下一章我们要讨论的内容。

如果功利主义原则是我们关心的唯一原则，那么，我们会在所有可能性中找出一个最为积极的体验，然后在殖民宇宙的过程中，在尽可能多的星系中一遍又一遍地不断重复这个体验，除此之外的其他体验都扔掉。如果模拟是最有效的方法，那就用模拟的方式来重复这个体验。如果你觉得把宇宙中所有资源都用在一个体验上似乎很浪费，那你可能会更青睐“多样化”的原则。想一想，如果你余生只能吃一道菜，感觉如何？如果你余生只能重复看一部电影呢？或许，你之所以会偏好多样性，是因为它过去曾有助于人类的生息繁衍，让人类社会更稳健。或许，也与智能有关，在138亿年的宇宙历史中，日益增长的智能让无聊均质的宇宙转化得更加多样性，形成了日益精巧地处理信息的复杂结构。

自主性原则强调自由和权利，这是联合国为了吸取两次世界大战的教训而在1948年发布的《世界人权宣言》中详述的原则。自主性原则包含了思想、言论和行为的自由，不受奴役和折磨的自由，生命权，人身自由权，安全和教育的权利，以及结婚、工作和拥有财产的权利。如果我们不想太以人类为中心，我们可以将其概括为：思想、学习、交流、拥有财产、不被伤害的自由，以及做任何不侵犯他人自由之事的权利。如果每个人的目标都有所不同，那自主性原则就有助于促进多样性。此外，如果个体将积极体验视为目标，并努力实现自己的兴趣，那自主性原则还可从功利主义原则中产生；如果我们禁止个体追求自己的目标，即使这个目标不会伤害他人，那总体的积极体验也会减少。事实上，自主性也正是经济学家用来支持自由市场的观点：它自然而然会产生一种有效的情形，经济学家称为“帕累托最优”（Pareto Optimality），在其中，如果有人的境况变得更好，就一定有其他人变得更糟。

遗产原则的基本思想是，我们必须对未来负有责任，因为我们正在创造未来。自主性和遗产原则都体现了民主的思想，前者赋予未来生命使用宇宙资源的能力，而后者让当代人可以对这种能力进行控制。

虽然这4种原则听起来并不冲突，但要在实际中践行它们，可能会遇到很多问题，因为魔鬼就藏在细节中。产生的麻烦可能会很类似艾萨克·阿西莫夫提出的著名的“机器人三定律”：

◦　第一定律：机器人不得伤害人类个体，或者目睹人类个体将遭受危险而袖手不管；

◦　第二定律：机器人必须服从人给予它的命令，当该命令与第一定律冲突时例外；

◦　第三定律：机器人在不违反第一、第二定律的情况下，要尽可能保护自己。

虽然这三条定律听起来挺不错，但阿西莫夫的很多小说都告诉人们，它们可能会导致一些意想不到的矛盾。现在，我们将这三条定律改成两条为未来生命设定的定律，并试着将自主性原则加进去。

◦　第一定律：一个有意识的实体有思考、学习、交流、拥有财产、不被伤害或不被毁灭的自由；

◦　第二定律：在不违反第一定律的情况下，一个有意识的实体有权做任何事。

听起来不错吧？但请再想一想，如果动物有意识，那捕食者该吃什么呢？是不是所有人都应该成为素食主义者？如果某些精巧的未来计算机程序也拥有了意识，那删除它们是不是违法了？如果存在“不能随便终结数字生命”的规定，那需不需要制定一些法规来限制它们的创生，以避免数字人口过剩？《世界人权宣言》之所以得到这么多人的支持，是因为它只考虑了人类。一旦我们将其他能力不一的有意识实体也考虑进去，就会面临许多两难的抉择：到底是应该保护弱者，还是强权即公理？

关于遗产原则，也存在一些棘手的问题。想一想，从中世纪以来，人们对奴隶制、女性权利等话题的伦理观点发生了多大的变化。当今的人类真的想让1 500年前的老古董决定今天的世界要如何运行吗？如果不是，我们为什么要试着把我们的伦理标准强加给可能比我们聪明千万倍的未来生命呢？我们怎么会相信，超人类水平的通用人工智能会想要遵守我们这些低等生物珍视的价值观呢？这就好像一个4岁小姑娘憧憬着，当她长大了，变得更聪明了，她就要给自己建造一间巨大的姜饼屋，然后在里面坐上一整天，除了吃糖果和冰激淋以外什么都不干。和她一样，地球上的生命也可能会长大成熟，而不再执着于童年时期的兴趣。就好像一只制造了人类水平的通用人工智能的老鼠想要建一座奶酪城市，听起来十分荒谬。但是，如果我们知道超人类水平的人工智能有一天会制造“宇宙灭绝事件”来消灭所有生命，那么，假如我们有能力将它造得不同，为什么不这么做，以避免这个荒芜死亡的未来呢？

总而言之，把人们广泛接受的伦理原则编入未来人工智能的程序里可能会出现一些问题，随着人工智能的不断进步，这些问题值得认真讨论和研究。但与此同时，让我们不要让完美与善为敌，有许多无可辩驳的“幼儿园伦理”可以而且应该被灌输到未来的技术中。例如，不应允许大型民用客机撞上静止的物体。现在，几乎所有客机都配备有自动驾驶仪、雷达和GPS，因此在技术上没有任何借口。然而，“9·11”劫机者却让三架飞机撞上了建筑物。自杀式飞行员安德里亚斯·卢比茨（Andreas Lubitz）于2015年3月24日驾驶德国航空公司9525号航班撞到了山上，他将自动驾驶仪设置在海拔100英尺（约30米）的空中，然后让飞机上的计算机完成余下的工作。我们的机器已经足够聪明了，可以获得自己所做之事的一些信息。现在，是时候教给它们一些限制了。每个设计机器的工程师都应该问问，机器在使用过程中，有哪些事情是可以做但不应该做的，然后考虑一下如何在实践中避免用户实施这种行为，不管是出于恶意还是愚蠢。

终极目标

本章简要地探讨了“目标”的历史。如果我们可以把宇宙138亿年的历史快放一遍，就能目睹“目标导向行为”的一些不同阶段：

◦　物质似乎一心一意地聚焦在将“耗散”最大化上；

◦　原始生命似乎试图将它的“复制”最大化；

◦　人类追求的目标不是复制，而是一些与愉悦、好奇、怜悯等感觉相关的目标。人类进化出这些感觉的目的是促进复制；

◦　人类建造机器来帮助他们追求自己的目标。

如果这些机器最终触发了智能爆炸，那这一首关于目标的史诗要如何终结？有没有一个目标系统或者伦理框架是所有实体在变得愈发智能的过程中都会逐渐趋近的？换句话说，我们有没有某种注定好的“道德命运”？

对人类历史进行一下粗略解读，就可以看到这样一种趋同的迹象，在《人性中的善良天使》（The Better Angels of Our Nature）一书中，史蒂芬·平克（Steven Pinker）(69)认为，人类几千年来一直在减少暴力和增进合作，而且世界上许多地方已经越来越多地接受多样性、自主性和民主这些价值观。另一个趋同的迹象是，在过去这1 000年里，用科学来追求真理的方法变得十分流行。但这些趋势也可能不是对最终目标而是对子目标的趋近。比如，图7-1显示，追求真理（一个更准确的世界模型）可以看作是任何终极目标的子目标。同样地，我们在前文中已经看到，合作、多样性和自主性等伦理原则也可以被视为子目标，因为它们帮助社会运转得更加高效，从而有助于人们的生息繁衍，以及实现他们可能拥有的更基本的目标。有人甚至否认我们称之为“人类价值”的一切，而只把它们视为一种有助于高效合作的协议。本着同样的精神，展望未来，任何超级智能都可能拥有一些相同的子目标，比如让硬件和软件变得更加高效、追求真理和好奇心，因为这些子目标可以帮助它们实现任何终极目标，而无论这些目标是什么。

事实上，尼克·波斯特洛姆在他的著作《超级智能》中坚决反对“道德命运”假说，他提出了一个对立的观点，称之为“正交性论点”（orthogonality thesis）。他认为，一个系统的最终目标可以独立于智能。根据定义，智能就是完成复杂目标的能力，而无论这些目标是什么，所以正交性论点听起来很合理。毕竟，人可以兼具聪明和善良的特征，也可以兼具聪明和残忍的特征，而智力可以用来实现任何目标，包括科学发现、创造美好艺术、助人为乐或实施恐怖袭击[8]。

正交性论点是赋权的，因为它告诉我们，宇宙的终极目标不是事先注定好的，我们有自由和力量去塑造。它认为，趋近于同一个特殊目标并不会发生在未来，而是已经发生在过去——正是在生命进化出“复制”这个单一目标时。随着宇宙时间的流逝，日益聪明的智能得以有机会反抗和摆脱“复制”这个平庸的目标，并选择自己的目标。从这个意义上讲，我们人类还没有达到完全的自由，因为我们追寻的许多目标都是被基因“硬连”到我们身上的，但人工智能却可以享受这种不受预定目标限制的终极自由。虽然今天的人工智能系统比较狭窄而且有限，但却能很明显地看出这种更大的目标自由度，比如，我们前文提到了，大部分象棋计算机的唯一目标就是赢得比赛，但也有一些象棋计算机的目标是输掉比赛；它们在比赛中争夺输家的地位，目标是迫使对手吃掉你的棋子。或许，这种不受进化偏差影响的自由度能使人工智能在某种深层次上比人类更为道德。彼得·辛格（Peter Singer）等伦理哲学家就认为，许多人表现出不道德的行为，例如歧视非人类的动物，都是出于某些进化的原因。

我们已经看到了，友好的人工智能的基石就是：自我迭代的人工智能在它日益聪明的过程中依然保持它的终极目标——对人类友好。但是，我们要如何为超级智能定义“终极目标”，也就是波斯特洛姆所谓的“最终目标”（final goal）呢？我认为，如果我们无法回答这个问题，那就不能相信友好的人工智能最终会实现。

在人工智能研究中，智能机器总是会有一个清晰明了、定义明确的最终目标，例如赢得象棋比赛或合法驾驶汽车到达目的地。我们分配给人类的大多数任务也是如此，因为时间期限和环境都是已知的，并且是有限的。但我们现在正在讨论的，是生命在宇宙中不可限量的未来（只受到物理定律的限制，而物理定律还不是完全已知的），所以定义目标是一个令人望而生畏的任务！抛开量子效应，一个真正定义明确的目标应该要告诉我们，在时间长河的尽头，宇宙中所有的粒子应该如何排列。但目前我们还不清楚物理学中是否存在明确的时间终点。如果粒子以它们过去的方式排列，那这种排列通常不会很持久。那么，什么样的粒子排列才是最好的？

人类对粒子的排列组合有一些偏好。例如，如果我们的家乡被氢弹炸毁了，那我们会想要用粒子将其重新排列出来。那么，假定我们可以定义一个“善之函数”（goodness function），这个函数能考虑我们宇宙中所有可能的粒子组合，并量化我们认为这些组合有多么“善”的程度，然后将“最大化该函数”的目标赋予一个超级智能。这听起来像是一种合理的方法，因为将目标导向行为描述为“函数最大化”是科学领域中的流行方法。例如，在经济学模型中，人们总想要最大化所谓的“效用函数”，还有许多人工智能设计师训练智能体的方法是最大化所谓的“奖赏函数”（reward function）。然而，当我们在考虑宇宙的终极目标时，这种方法带来了一个计算噩梦，因为它需要为宇宙中基本粒子所有可能的排列方式都定义一个“善”值，而这些排列方式的数量多如牛毛，比“古戈尔普勒克斯”（Googolplex）还大。古戈尔普勒克斯是1后面跟着10100个零，比我们宇宙中的粒子数量的零多多了。我们应如何为人工智能定义这个善之函数呢？

正如我们上面所探讨的那样，我们人类之所以会产生偏好，唯一的原因是，我们自身就是一个进化优化函数的解。因此，我们人类语言中所有的评价性词语，如美味、芳香、美丽、舒服、有趣、性感、有意义、幸福和善良等，其根源都可以追溯到进化优化过程。因此，我们无法保证超级智能会认为它们的定义很严格。即使人工智能学会了精确地预测一些典型的人类偏好，也无法计算除此之外大多数粒子排列方式的善之函数。因为粒子的绝大多数排列方式都对应着奇异的宇宙情景，比如，完全没有恒星、行星和人，更别说人的体验了，纵有万般“善”，更与谁说呢？

当然，宇宙粒子排列的某些函数是可以严格定义的，而且我们甚至知道，物理系统的演化会让一些函数实现最大化。例如，我们已经讨论了许多系统演化过程会将熵最大化；如果没有引力，这会最终导致热寂，到那时，万事万物都是均质和不变的，十分无聊。所以，熵不应是我们想让人工智能称之为“善”，并力求最大化的东西。以下列出了一些我们可以力求最大化的量；在粒子排列方面，它们的定义可能是严格的：

◦　在我们宇宙的所有物质中，以某些生命的形式（比如人或大肠杆菌）存在的物质所占的比例。这个想法受到了进化的整体适应度最大化的启发。

◦　人工智能预测未来的能力。人工智能研究者马库斯·赫特（Marcus Hutter）认为，这是一个衡量人工智能智能程度的良好指标。

◦　我们宇宙的计算能力。

◦　我们宇宙的算法复杂度，即需要多少比特的信息才能对它进行描述。

◦　我们宇宙中意识的数量（见下一章的讨论）。

然而，从物理学的角度出发，我们的宇宙就是由不断运动着的基本粒子组成的，因此，很难判断哪种“善”的理解是最独一无二、最符合自然的。我们还没有为我们的宇宙找到任何看起来既可定义又令人满意的最终目标。随着人工智能变得日益聪明，目前能保证定义明确的可编程目标，只能以物理量的形式表达，比如粒子排列、能量和熵。但我们还没理由相信，这些可定义的目标就一定会令人满意，一定会确保人类幸存下去。

不过，我们人类的产生似乎是一个历史的意外，而不是什么定义明确的物理问题的最优解。这表明，一个目标定义严格的超级智能将能通过消灭人类来改善它的目标达成度。这意味着，要明智地应对人工智能的发展，人类不仅要面对传统的计算挑战，还要面对一些最棘手的哲学问题。比如，要设计无人驾驶汽车的程序，我们就必须解决“电车难题”，在发生事故时选择撞谁；要设计友好的人工智能的程序，我们就必须了解生活的意义。但是，什么是“意义”？什么又是“生活”？终极的道德问题是什么？换句话说，我们应该如何努力塑造宇宙的未来？如果我们在具备严肃回答这些问题的能力之前就失去了对超级智能的控制，那它自己想出的答案可能与人类无关。因此，我们必须从现在起，重燃这些哲学与伦理问题的讨论，让人们意识到这场对话的紧迫性！

本章要点

◦　目标导向行为起源于物理定律，因为它涉及最优化问题。

◦　热力学有一个内置的目标：耗散。耗散就是要提高熵，而熵是对混乱程度的度量。

◦　生命是一种有助于耗散（增加整体的混乱程度）的现象。生命能保持或提高自身的复杂度，还能进行复制，与此同时提升了环境的混乱程度，以此加快了耗散的速度。

◦　达尔文式的进化将目标导向行为从耗散转化为复制。

◦　智能是完成复杂目标的能力。

◦　由于人类并不总是拥有足够的资源来找到真正的最优复制策略，所以我们进化出了一些有用的经验法则，来辅助我们做决策，这就是感觉，比如饥饿感、口渴、疼痛、性欲和同情。

◦　因此，我们的目标不再是简单的复制；假如我们的感觉与基因赋予我们的目标相冲突，我们会忠于感觉，比如，采取避孕措施。

◦　我们正在建造日益聪明的机器来帮助我们实现自己的目标。目前，随着我们建造的机器展现出目标导向行为，我们应该力争让机器的目标与我们的相一致。

◦　想让机器的目标与我们的目标相一致，有三个问题亟待解决：让机器学习、接受和保持我们的目标。

◦　人工智能可以被设计来拥有任何目标，但是，几乎所有足够野心的目标都会带来一些共同的子目标，比如自我保护、获取资源、想要更理解世界的好奇心。前两个子目标可能会让超级智能为人类带来麻烦，最后那个可能会阻止人工智能保持我们赋予它的目标。

◦　虽然人类有一些广为接受的伦理原则，但我们不知道如何将它们赋予其他实体，比如非人类的动物，以及未来的人工智能。

◦　我们不清楚如何才能赋予超级智能一个既可定义又不会导致人类灭绝的终极目标，因此，我们必须尽快开始讨论这些棘手的哲学问题！

我们已经看到，只要我们能为某些最古老、最棘手的哲学问题在需要时找到答案，那么，人工智能就可以帮助我们创造一个美好的未来。用尼克·波斯特洛姆的话来说，我们面临着哲学的最后期限。在这一章中，让我们来探讨一下有史以来最棘手的哲学问题之一：意识。

谁关心这个问题

意识是一个富有争议的话题。如果你向人工智能研究者、神经科学家或心理学家提到这个以C打头的单词（consciousness），他们可能会翻白眼。如果他们碰巧是你的导师，那他们可能会对你表示同情，并劝你别把时间浪费在这个被他们认为毫无希望的非科学问题上。事实上，我的朋友，也是艾伦脑科学研究所学科带头人的著名神经科学家克里斯托弗·科赫（Christof Koch）告诉我，在他获得终身教职之前，曾有人警告他不要从事与意识有关的工作，这个人正是诺贝尔奖得主弗朗西斯·克里克（Francis Crick）。如果你在1989年版的《麦克米伦心理学辞典》（Macmillan Dictioncry of Psychology）中查找“意识”一词，就会被告知“没有什么值得写的东西”[1]这一答案。我要在本章中向你解释，为什么我比他们更加乐观！

虽然思想家们已经在神秘的意识问题上思考了数千年，但人工智能的兴起却突然增加了这个问题的紧迫性，特别是因为人们想要预测哪些智能体可能拥有主观体验。正如第3章所说，智能机器是否应该获得某种形式的权利，关键取决于它们是否拥有意识，是否会感到痛苦或快乐。又如第7章所说，如果我们不知道哪些智能体能够拥有意识，就无法建立一个以“最大化积极体验”为基础的功利主义伦理框架。正如第5章所说，有些人可能希望他们的机器人是没有意识的，以避免因奴役他人而产生内疚感。然而，如果这些人能摆脱生物的限制，上传自己的智能，那他们又可能产生完全相反的想法。毕竟，如果把自己的智能上传到一个言行举止与你相似却没有意识的“僵尸”机器人中（我的意思是，你上传后将失去任何感觉），又有什么意义呢？从你的主观角度出发，这和自杀有什么区别呢？即使你的朋友们可能意识不到你的主观体验已经死去了。

对于生活在遥远未来的宇宙生命来说（见第6章），很关键的一点就是，要理解什么是意识以及什么不是意识。如果技术能让智慧生命在我们的宇宙中蓬勃发展数十亿年，我们如何能确定这些生命是有意识的，并且有能力来欣赏这万事万物呢？如若不然，那么，是不是就像著名物理学家埃尔温·薛定谔所说，这是“一场没有观众、不为任何人存在的戏剧，因此确切来说是不存在的”[2]？换句话说，如果我们误以为这些高科技后代有意识而实际上它们并没有的话，这会不会成为终极的“僵尸末日”，白白浪费我们宏伟的宇宙资源？

什么是意识

关于意识的争论如火如荼，因为交战双方总是自说自话，完全没有意识到他们对意识的定义竟然不一样。正如“生命”和“智能”一样，“意识”一词也没有无可辩驳的标准定义。相反，存在许多不同的定义，比如知觉（sentience）、觉醒（wakefulness）、自我意识（self-awareness）、获得感知输入（access to sensory input）以及将信息融入叙述的能力。[3]在探索智能的未来时，我们想要采取一个最广泛和最包容的观点，而不想局限于目前已知的生物意义上的意识。这就是为什么我在第1章中对意识给出的定义十分广泛，这也是我在本书中坚持的想法。

意识＝主观体验（subjective experience）

换句话说，如果你感觉“这就是现在的我”，那么你就拥有意识。这种意识的定义，正是前一节提到的人工智能问题的关键之所在，也就是说：它是否感觉自己就是普罗米修斯、AlphaGo或一辆无人驾驶的特斯拉汽车？

我对意识的定义非常广泛，为了强调这一点，请注意，我没有提到行为、感知、自我意识、情绪或注意力这些东西。所以根据这个定义，当你做梦时，即使你不处在觉醒状态，也感觉不到感官输入的信息，并且没有在梦游或做事（希望如此），那么，你也是有意识的。同样地，从这个意义上说，任何体验到痛苦的系统都是有意识的，即使它不能移动。在我们的这个定义下，未来的某些人工智能系统可能也是有意识的，即使它们只是以软件的形式存在，并未连接到任何传感器或机器人身体上。

有了这个定义，我们很难忽略有关意识的问题。正如尤瓦尔·赫拉利（Yuval Harari）在他的《未来简史》一书中所说：“如果有任何科学家想要争辩说主观体验是无关紧要的，那留给他们的挑战就是，如何在不提主观体验的情况下解释酷刑和强奸是错误的。”[4]如果不提主观体验，人只是一堆根据物理定律移动的基本粒子而已，那犯罪能有什么错呢？

问题出在哪里

那么，意识究竟有什么是我们不了解的呢？在这个问题上思索得最深入的人莫过于著名的澳大利亚哲学家大卫·查尔默斯了。他的脸上常挂着俏皮的微笑，身上穿一件黑色的皮夹克，我妻子非常喜欢这件皮夹克，以至于她在圣诞节送了我一件一模一样的。尽管他曾在国际数学奥林匹克竞赛中杀入决赛，但他追随自己内心，选择了哲学。不过好笑的是，他上大学时几乎所有课程都是A，唯一得B的却是一门哲学入门课程。他似乎完全不被打压或争议所左右。有些人严厉地批评他，完全是因为他们对他的研究缺乏了解或者受到了误导，但他总是礼貌地倾听这些人的批评，甚至一点也不觉得他应该做出什么回应。我对他的这种能力感到十分惊讶。

设置

手机

书架

书页