我的观点并不是多数人的观点(61)。当然,我也有可能是错的,但这种可能性是我们目前无法完全否认的,这使得“谨慎行事、不让我们的文明灭绝”成为人类的一项伦理责任。
每当做宇宙学方面的演讲时,我总喜欢问观众一个问题:如果有人相信我们的宇宙(62)中存在着其他智能生命,就请举起他们的手。不出意外,不管是幼儿园的小朋友还是大学生,几乎每个人都会举手。当我问他们原因时,大多数人都说,宇宙太大了,至少从统计学的角度来看,一定在什么地方存在着生命。让我们来仔细讨论一下这个观点,并找出它的漏洞。
其实,所有的问题都归结为一个数字:一个文明与它最近的邻居之间的典型距离(如图6-10所示)。如果这个距离比200亿光年大得多,那我们就可以说,我们在我们的宇宙中是孤独的,并且,我们永远无法接触到外星人。那么,这个数字是多大呢?我们还不知道。这意味着,我们与最近的邻居之间的距离可能是1 000……000米,其中,零的个数可能是21、22、23……100、101、102,甚至更多,但可能不会少于21,因为我们至今还没有发现任何外星人的可信证据(如图6-11所示)。我们宇宙的半径是1026米,如果最近的邻居存在于这个范围内,那零的个数就不会超过26,也就是说,零的个数只能在22~26的范围内。然而,它处在这个范围内的概率相当小。这就是为什么我认为,人类在我们的宇宙中是孤独的。
图6-11 我们能发现外星人的可能性
注:我们孤单吗?关于生命与智能是如何进化出来的,这个问题非常不确定,因此,我们在宇宙中最近的邻居可能存在于任何地方,那么,它极有可能不存在于银河系边缘(距离我们大约1021米)到我们的宇宙边缘(距离我们大约1026米)之间这段狭窄的距离内。如果我们的邻居存在于比这段距离近得多的地方,那么,银河系中就应该存在许多高级文明,而我们应该早就发现它们的存在了。但我们并没有发现它们,这意味着我们在宇宙中应该是孤单的。
我在《穿越平行宇宙》(63)一书中对这个观点进行了详细的说明,所以,在这里就不赘述了。不过,我们之所以对“邻居与我们的距离”这个问题毫无头绪,主要是因为我们不知道,某个地方出现智能生命的概率有多高。正如美国天文学家弗兰克·德雷克(Frank Drake)指出的那样,某个地方出现智能生命的概率可以用三个概率相乘得到。这三个概率分别是:出现宜居环境(比如说一颗适宜的行星)的概率、该环境中进化出生命的概率以及生命进化出智能的概率。我上研究生时,人们对这三个概率还一无所知。但在过去的20年里,人们发现了大量绕着其他恒星旋转的行星。如今看起来,宜居的行星应该很丰富,仅在银河系就可能有数十亿之众。然而,进化出生命和智能的概率却依然扑朔迷离。一些专家认为,二者中至少有一个是不可避免的,必定会发生在大多数宜居行星上,但还有一些人认为,这两件事都极其罕见,因为进化过程中至少存在一个需要天上掉馅饼的好运气才可能通过的瓶颈阶段。一些人认为,在生命能够自我繁殖的早期,存在一些瓶颈,类似“先有鸡还是先有蛋”的问题,例如,一个现代细胞要生成一个核糖体(64),先得需要另一个核糖体。人们并不清楚第一个核糖体是不是由某种更简单的东西逐渐演化而来的[10]。还有一些人认为,进化出更高级的智能也是一个瓶颈。例如,尽管恐龙统治地球长达1亿年之久,比现代人类存在的时间长1 000倍,但是进化并没有将它们推向更高的智能,更别提发明出望远镜和计算机了。
一些人反对我的观点。他们说,是啊,智能生命“可能”非常罕见,但实际上,它并不罕见,我们的银河系中就充满了主流科学家视而不见的智能生命。UFO狂热爱好者说,外星人可能已经造访过地球了。即便外星人还没有造访过地球,它们也可能存在,只不过故意躲着我们(65),又或者,它们并不是故意躲着我们,它们只是对我们提到过的殖民太空或大型太空工程不感兴趣而已。
当然,我们应该对这些可能性保持开放的心态,但是,由于它们缺乏众所周知的证据,我们需要严肃对待另一种可能性,那就是我们是孤独的。此外,我认为,我们不应该低估外星文明的多样性,认为它们的目标都是“躲起来不让人类发现”。我们在前文已经看到,获取资源才是一个文明的自然目标,而要让我们发现它,它只需要动用一切资源发起殖民,并大张旗鼓地吞没银河系甚至更多星系即可。银河系中有成千上万像地球一样宜居的行星,它们都比地球年老几十亿年,如果这些行星之上生活着野心勃勃的智能生命,那它们早已有充足的时间来殖民银河系了。不过目前,它们连影子都还没有呢。因此,面对这个事实,我们不能否认这个最明显的解释:生命起源需要一点随机的侥幸。因此,这些行星上可能并没有任何居民。
如果生命一点都不罕见,那我们可能很快就会见分晓。目前人类正在热切地搜寻宇宙中的类地行星,探测它们的大气中是否有生命产生的氧元素的痕迹。除了这些只寻找生命的研究,还有一些试图寻找智能生命的搜寻项目。最近,这种项目得到了很大关注,因为俄罗斯慈善家尤里·米尔纳(Yuri Milner)在这方面全额资助了一个1亿美元的项目,名为“突破聆听”(Breakthrough Listen)。
在搜寻高级生命的过程中,有一件很重要的事,那就是不要过于以人类为中心来解释一切,如果我们发现了一个外星文明,它很可能已经达到超级智能水平了。正如天体物理学家马丁·里斯(Martin Rees)最近在一篇文章中所说:
人类科技文明的历史是以世纪来丈量的,或许再有一两个世纪,人类就会被无机智能体赶上或者超过。接着,这些智能体就会留下来,持续进化长达数十亿年的时间。我们最有可能缩短与它之间差距的时候,就是在它准备采用有机形态的短暂期间内[11]。
我同意杰伊·奥尔森在前文提到的那篇“殖民太空”论文中得出的结论:“我们不会认为,高级智能动用宇宙资源来占领栖息着先进人类的类地行星就是技术进步的终点。”所以,当你在想象外星人时,请不要把它们想象为长着两只胳膊和两条腿的小绿人,而要把它们想象为本章探讨过的横扫宇宙的超级智能体。
虽然我坚决支持正在进行的所有外星生命的搜寻项目,因为它们试图揭示最迷人的科学问题之一,但我暗中希望,这些项目都会失败,什么都找不到。银河系中存在大量宜居的行星,但我们却从未见过什么天外来客,这个矛盾被称为“费米悖论”(Fermi Paradox)。费米悖论意味着,可能存在一个被经济学家罗宾·汉森(Robin Hanson)称为“大筛选”(Great Filter)的机制。意思是说,在从非生命发展到殖民太空的种族的道路上,一定存在着一个进化或科技障碍。如果我们在太阳系中发现了其他独立进化出来的生命,这可能意味着原始生命并不罕见,因此,障碍可能就存在于目前的人类发展阶段之后,有可能是殖民太空不会实现,也可能是几乎所有高级文明在它们获得殖民太空的能力之前都会自我毁灭。因此,我祈祷人类在火星等地方对生命的搜寻都一无所获,因为这就符合“原始生命很罕见,所以人类很幸运”的情景,这样一来,我们就可能早已跨越了那个障碍,也就意味着我们的未来拥有非凡的潜力。
展望
目前为止,我们在这本书里探索了宇宙生命的历史,从几十亿年前最卑微的起点,到几十亿年后宏伟的未来。如果我们目前的人工智能进展会触发智能爆炸并最终让我们殖民宇宙,那这场智能爆炸就具有了宇宙级别的真正意义:数十亿年来,在这个冷漠荒芜的宇宙中,生命只激起了微乎其微的波澜,而这场爆炸突然让生命在宇宙的舞台上爆发出一个以近光速扩张、永无停歇迹象的球形冲击波,这个冲击波用生命的火花点燃了所经之路上的一切。
本书提到过的许多思想家都曾表达过这种“生命在未来的宇宙中至关重要”的乐观主义思想。科幻作家通常被认为是不切实际的浪漫主义梦想家,但我却讽刺地发现,鉴于超级智能存在的可能性,大多数与殖民太空有关的科幻和科学作品似乎反而过于悲观了。譬如说,我们已经看到,如果人类和其他智能体能以电子形式传递,那星际旅行就变得容易多了,这或许能让我们在太阳系、银河系甚至整个宇宙尺度上掌控自己的命运。
在前文中,我们已经提到了一种极有可能发生的情形,那就是:人类是我们宇宙中唯一的高科技文明。现在,让我们在本章剩下的部分探讨这种情形,以及它带来的巨大的伦理责任。这意味着,在138亿年之后,我们宇宙中的生命来到了一个岔路口,面临着一个重大的选择:要么在宇宙中繁荣昌盛,要么走向灭绝。如果我们不持续改进我们的技术,那么,问题就不是“人类是否会灭绝”,而是“人类会如何灭绝”。小行星撞击地球、超级火山爆发、年老太阳的炽热余晖,还是别的什么大灾难(如图5-1所示),到底哪一种会先来?一旦我们消失了,弗里曼·戴森所预测的宇宙戏剧只好在没有观众的舞台上演出:除了宇宙大灾变以外,还有恒星燃尽、星系褪色和黑洞蒸发,每一个在死亡时都会发生巨大的爆炸,释放出比沙皇炸弹(有史以来最大的氢弹)还要高100万倍还多的能量。正如戴森所说:“膨胀而冰冷的宇宙会时不时被持续良久的烟花照亮。”然而,这场烟花秀沦为了一场毫无意义的浪费,因为没有人有机会欣赏它。
如果没有技术的帮助,人类的灭绝将迫在眉睫。与在宇宙亿万年的时间相比,生命的整个故事只是短短的一瞬间,虽然美丽、激情、充满意义,却由于无人欣赏和体验,终结于无尽的空虚,失去了意义。这将是一场多么巨大的浪费啊!如果我们不摒弃技术,而是选择拥抱技术,那么,我们就加大了筹码:我们既提高了生命幸存下来和继续繁荣的概率,也提高了生命以更快的速度灭绝(由于计划不周而自我毁灭,见图5-1)的概率。我认为,我们应该拥抱技术,但不应该盲目地发展,应该小心谨慎,深谋远虑,周密计划。
在经历了138亿年的宇宙历史之后,人类最终身处这个美得令人窒息的宇宙中。这个宇宙通过我们人类活了过来,并逐渐获得了自我意识。我们已经看到,生命在我们宇宙中的未来潜力远超过我们祖先最不羁的梦想,但智能生命也同样可能永远灭绝。我们宇宙中的生命会实现还是浪费它的潜力呢?这很大程度上取决于今天在世的人们在有生之年会做出什么选择。我乐观地相信,只要我们做出正确的选择,生命的未来一定会精彩万分。那么,我们到底想要什么样的目标?我们要如何实现它们?在接下来的章节里,让我们一起来探索某些最艰难的挑战,以及我们能做些什么。
本章要点
◦ 与亿万年的宇宙时间尺度相比,智能爆炸只是一瞬间的事件。在这场爆炸中,技术迅速达到一个很高的稳定水平,只受到物理定律的限制。
◦ 这个技术稳定水平远远高于今天的科技水平,能让物质释放出超过100亿倍的能量(利用夸克引擎或黑洞),让物质存储的信息量高出12~18个数量级,或者计算速度加快31~41个数量级,或者被转化为其他任何东西。
◦ 超级智能生命不仅能更加有效地利用已有的资源,还能通过光速进行宇宙殖民,以获得更多资源,从而将现有的生物圈增长约32个数量级。
◦ 暗能量限制了智能生命的宇宙扩张,但也保护它们免受远方不断扩张的死亡泡泡或敌对文明的侵害。暗能量可能会将宇宙文明分割成碎片,这个危险促使宇宙文明进行大型宇宙工程,比如建造虫洞,如果可行的话。
◦ 最有可能在宇宙尺度上分享和交易的商品是信息。
◦ 如果没有虫洞,通信速度的上限就是光速,这对宇宙文明的内部协调和控制带来了严重的挑战。一个遥远的枢纽可能会通过奖赏或威慑来促使它的超级智能节点选择合作,比如,在当地布设“守卫人工智能”,一旦节点违抗命令,就点燃一颗超新星或类星体,以毁灭节点。
◦ 两个扩张的文明相遇,可能会导致三种可能性:同化、合作或者战争。与今天的文明相比,未来的文明相遇时发生战争的可能性更小。
◦ 我们人类很可能是唯一能使可观测宇宙在未来“活过来”的生命形式。不过许多人并不认同这一点。
◦ 如果我们不改善我们的技术,问题就从“人类是否会灭绝”变成了“人类会如何灭绝”:小行星撞击地球、超级火山爆发、年老太阳的余晖以及其他大灾难,哪一个会先来?
◦ 如果我们小心谨慎地改进技术,深谋远虑、计划周全地避免陷阱,那生命就有可能在地球上,甚至地球外繁荣昌盛长达数十亿年的时间,远远超越我们的祖先最不羁的梦想。
如果选用一个词语来概括关于人工智能的最棘手的争议,那我会用这个词:目标。我们是否应赋予人工智能目标?如果是,应该赋予它什么样的目标?我们如何赋予它目标?如果人工智能变得越来越聪明,我们如何保证它继续遵守这些目标?我们能不能改变比人类还聪明的人工智能的目标?我们的终极目标是什么?这些问题不仅很难回答,而且对未来的生命至关重要。如果我们不知道自己想要什么,那我们可能无法得偿所愿;如果我们不能控制那些与我们目标不一致的机器,那事情很可能会适得其反。
目标的起源:物理学
想要弄清楚这个问题,让我们先来看看“目标”究竟起源何处。当我们环顾四周的世界时会发现,一些过程似乎是“以目标为导向”的,而另一些过程显然不是。举个例子,在足球被踢进球门从而赢得比赛的过程中,足球本身的运动看起来并不是以目标为导向的,而是对“踢”这个动作的反应,最好以牛顿运动定律来进行解释。然而,想要解释足球运动员的行为,最简单的方法并不是“原子互相推挤”的力学原理,而是“他拥有将本队比分最大化的目标”。我们知道,在早期的宇宙中,只有来回蹦跳、看起来毫无目标的粒子。那么,目标导向行为是如何从早期宇宙的物理机制中产生的呢?
有趣的是,目标导向行为可以在物理定律中找到根源,甚至会表现在与生命无关的简单过程中。如图7-1所示,如果一名救生员要营救一名溺水的游泳者,他不会直线前进,而是会沿着海滩跑一段距离,再跳进水里,略微转向,游向溺水者,这样会比直接跳进水中更快到达。我们自然而然地会将他选择的运动轨迹解释为“以目标为导向”,因为在所有可能的轨迹之中,他选择的这条运动轨迹是最优的,让他能够尽可能快地游到溺水者身边。无独有偶,光线射入水中时也会发生类似的弯折,也减少了到达目的地所花的时间。怎么会这样呢?
图7-1 营救溺水者的最佳路线
注:想要尽可能快地营救溺水者,救生员最快的途径不是直线(猛冲过去),而是一条更长一些的路线:先沿着海滩跑一段路,再跳进水里游泳,这样会比直接游过去更快。空气中的光线射入水面时,也会经历类似的弯折路线,这样,它到达目的地的速度更快。
这种现象在物理学中被称为“费马原理”(Fermat's principle)。这个原理是法国科学家皮埃尔·德·费马于1662年提出的,为预测光线路径提供了一种新的方法。值得注意的是,物理学家们后来发现,经典物理学中的所有定律都可以用类似的方式重新进行数学表述:大自然在可选择的所有方式中倾向于选择最优的方式,这种方式通常归结为将某些量最小化或最大化。在描述每条物理定律时,有两种在数学上等价的方法:一是描述过去如何导致了未来,二是自然界对某些东西进行优化。虽然第二种方法通常不会在基础物理课上进行讲授,因为涉及的数学更难,但我觉得它更优雅,也更深刻。如果一个人试图将某些东西最优化,比如他们的比分、财富或快乐,我们自然而然地认为,他们的行为是以目标为导向的。所以,如果大自然本身也在试图优化某些东西,那么难怪会出现以目标为导向的现象:它从一开始就“硬连”在物理定律中了。
有一个著名的量,大自然总是力争将它最大化,这个量就是熵(entropy)。简单来说,熵是事物混乱程度的度量。热力学第二定律说,熵总是趋于增加,直到达到最大的可能值。如果暂时忽略万有引力的影响,这种最大的混乱状态被称为“热寂”(heat death)。热寂是指万事万物都会扩散成一种无聊而又完美的均质状态,没有复杂性,没有生命,也没有任何变化。比如,当你将冷牛奶倒入热咖啡中时,你杯中的饮料看起来不可逆转地朝着它的“热寂”目标迈进。不久之后,它就会变成一杯温热均匀的混合物。如果一个活的有机体死了,它的熵也会开始上升,过不了多久,它的粒子排列就会变得不那么有序。
大自然“熵增”的目标有助于解释,为什么时间似乎具有完美的方向性,使得倒播的电影看起来很不真实。如果你向地上扔了一个装满葡萄酒的酒杯,就会预料到它会在地板上破碎,从而增加全局的混乱程度(即熵)。如果你看到它由破碎状态重新组合成完好的杯子,然后完美无损地飞回你的手中(即熵减),你可能不会喝下杯中酒,因为你可能会觉得自己已经喝醉了。
当我第一次了解到我们会不可阻挡地奔向“热寂”状态时,感到非常沮丧。在这一点上,我并不孤单,热力学先驱开尔文勋爵(Lord Kevin)在1841年写道:“结局必定是一种普遍静止和死亡的状态。”当你意识到大自然的长远目标是将死亡和破坏最大化时,你很难找到慰藉。然而,最近的研究表明,事情并没有想象的那么糟糕。
首先,万有引力与其他所有力的表现不同,它力求实现的目标不是让我们的宇宙变得均质和无聊,而是使其更加复杂和有趣。正是引力将无聊乏味、完美均质的早期宇宙变成了今天这个充满了星系、恒星和行星的复杂而又美丽的世界。引力将冷热混合,使得允许生命茁壮成长的温度范围变得很广。我们生活在一个舒适温暖的地球上,它吸收着表面温度约为6 000℃(10 000℉)的太阳的热量,同时将废热散发到温度仅高于绝对零度3℃(5℉)的寒冷太空来降温。
其次,我在麻省理工学院的同事杰里米·英格兰(Jeremy England)等人最近的研究成果带来了更多好消息。他们的研究表明,热力学赋予了大自然一个比“热寂”更鼓舞人心的目标。这个目标有一个令人讨厌的名字——“耗散驱动适应性效应”(dissipation-driven adaptation)。[1]耗散驱动适应性效应的意思是说,随机的粒子群会尽力进行自我组织,从而尽可能有效地从环境中提取能量,“耗散”意味着熵增,通常的方法是将有效能转化为热量,这个过程常伴随着有用功。譬如说,一堆暴露在阳光下的分子会随着时间的推移进行自我组织,以实现越来越有效地吸收阳光。换句话说,大自然似乎拥有“产生越来越复杂、越来越像生命的自我组织系统”的内在目标。这个目标被“硬连”到了物理定律之中。
我们如何才能将宇宙的这两种趋势(一是趋向生命,二是趋向热寂)协调起来?我们可以在量子力学奠基人之一埃尔温·薛定谔(Erwin Schrödinger)1944年的著作《生命是什么》(What's Life?)一书中找到答案。薛定谔指出,生命系统的一个标志就是,它通过提升周围环境的熵来保持或降低自己的熵。换句话说,热力学第二定律在生命面前有一个漏洞:虽然整体的熵必须增加,但它允许某些局部区域的熵减,只要它能让其他地方增加更多的熵即可。因此,生命让环境变得更加混乱,从而维持或增加自己的复杂度。
目标的进化:生物学
我们刚刚已经看到了目标导向行为是如何从物理定律中衍生出来的:物理学赋予了粒子对自我进行组织,从而尽可能高效地从环境中提取能量的目标。有一种粒子的组织方式可以进一步实现这个目标,那就是自我复制,这样就可以产生更多能吸收能量的个体。关于这种涌现的自我复制行为,有许多已知的例子:比如,湍流中的旋涡能够进行自我复制,还有微颗粒团会“哄骗”周围的微颗粒组合成相同的团簇结构。当这种行为发展到一定程度时,某种特别的粒子组织方式获得了极好的自我复制能力,以至于它复制出来的个体能以几乎相同的方式从环境中汲取能量和原材料。我们就将这种粒子组织方式称为“生命”。虽然我们对地球生命的起源依然知之甚少,但我们知道,在40亿年前,原始生命就已经存在于地球上了。
如果一个生命复制出来的个体也能进行同样的自我复制,那总体数量就会以固定的周期翻倍,直到种群数量达到资源可供维持的极限,或者出现其他问题。不断翻倍很快就会产生巨大的数字:即使最初只有一个个体,经过300次翻倍,你也会得到比我们宇宙中的粒子总数还大的一个数字。这意味着,在原始生命出现后不久,大量的物质都会变成生命。有时候,复制的过程并不完美,因此很快就会出现各种不同的生命形式,它们都试图复制自己,彼此竞争着有限的资源。于是,达尔文式的进化就开始了。
假如你从生命的起源阶段就开始静静地观察地球,可能就会发现目标导向行为曾发生过一个巨大的转变。在早期,粒子无一例外都在想尽办法增加平均的混乱程度,但那些无处不在的新生命的自我复制模式却似乎拥有一个不同的目标:不是耗散,而是复制。查尔斯·达尔文对此有一个优雅的解释:复制的效率越高,你就越能战胜和统治其他生物,因此不久之后,你会发现,所有生命似乎都为“复制”这个目标而高度优化了。
既然物理定律并没有改变,那生命的目标为何从耗散变成了复制呢?答案是,最根本的目标其实并没有变化,依然是耗散,但它带来了一个不同的“手段目标”(instrumental goal),也就是为了实现最终目标而需要达成的子目标。举个例子——吃,我们似乎都拥有满足食欲的目标,但我们都知道,进化唯一的根本目标不是咀嚼食物,而是复制。这是因为进食有助于复制,因为如果饿死了,就失去了繁衍后代的机会。同样地,复制有助于实现耗散,因为一个充满生命的星球在能量耗散上会更高效。因此,从这个意义上说,我们的宇宙发明生命是为了更快地走向“热寂”。如果你把糖倒在厨房的地板上,从本质上说,它能维持自身的有用化学能长达好几年,但如果出现了蚂蚁,它们会很快将这些能量耗散出去。同样,如果我们这种双足类的生命形式不将地壳中的石油开采出来并燃烧掉,那这些石油也会在漫长的岁月里保存自己的有用化学能。
在今天的地球居民中,这些手段目标似乎拥有了自己的生命:虽然进化优化的根本目标是复制,但许多人却花了更多时间在其他与繁殖后代无关的事情上,比如睡觉、寻找食物、盖房子、维护统治地位、打架或者帮助他人,人们在这些事情上花的时间如此之多,有时候甚至因此而减少了复制。进化心理学、经济学和人工智能方面的研究对此做出了优雅的解释。一些经济学家曾经用“理性主体”(rational agents)来模拟人类的行为。理性主体是一种理想化的决策制定者,它们永远选择那些对实现它们的目标而言最优的行为。但这个假设显然是不现实的。在实践中,这些主体拥有一种被诺贝尔获奖者兼人工智能先驱赫伯特·西蒙称之为“有限理性”(bounded rationality)的特质。之所以会这样,是因为它们的资源是有限的,它们做决策的理性程度受限于它们可获得的信息、可供思考的时间以及它们用来思考的硬件。这意味着,尽管达尔文式的进化会促使生命选择最优的方法去实现它的目标,但是,它最好的选择其实是,执行一个在它身处的受限环境中表现足够好的近似算法。进化实现最优复制的方法是,与其在每种情况下都问一遍哪种行为可以产生尽可能多的后代,不如实施一种大杂烩式的探索方法,即选择那些通常可行的经验法则。对大多数动物来说,这就包括性冲动、渴了就喝水、饿了就吃东西以及远离那些难吃或者会造成疼痛的东西。
有时在一些意外情况下,这些经验法则可能会造成惨痛的失败,比如,老鼠吃下了尝起来很美味的鼠药,飞蛾被诱惑性的雌性香味吸引到了粘蝇板上,还有昆虫扑向蜡烛的火焰(66)。由于今天的人类社会与进化优化我们的经验法则时的环境大相径庭,我们应该很容易想到,我们的行为常常无法将“生孩子”最大化。比如,“不被饿死”的子目标带来了对高热量食物的欲望,使得当今社会肥胖的人数激增,很难找到合适的约会对象。繁殖后代的子目标在执行时却变成了对性行为的欲望,而不是捐精或捐卵的欲望,但其实后者才能以最小的成本产生最多的后代。
对目标的追寻和反叛:心理学
总而言之,生物就是一个拥有有限理性的主体,它不止追求一个目标,而且还遵循着经验法则,趋利避害。我们人类将这些进化来的经验法则称为“感觉”,感觉常常在不知不觉中指导着我们的决策过程,以实现复制的最终目标。饥渴的感觉保护我们不被饿死和不出现脱水症状,痛感保护我们的身体不受伤害,性欲促使我们繁殖,爱和怜悯的感觉让我们帮助携带有我们基因的其他人以及那些帮助他们的人,诸如此类。在这些感觉的指引下,我们的大脑可以迅速且有效地决定下一步要做什么,而不用每次都对“能产生多少后代”做出冗长的分析。如果你想了解感觉及其生理基础,我强烈建议你读一读威廉·詹姆斯(William James)和安东尼奥·达马西奥(67)(António Damásio)的著作[2]。
我们要记住的是,当我们的感觉偶尔不利于“生孩子”时,并不是说发生了什么意外,也不是说我们被欺骗了,而是我们的大脑有时候会故意反叛基因及其繁殖目标,比如,选择避孕。“大脑反叛基因”还有一些更极端的例子,比如,选择自杀或者选择独身生活,成为神父、僧侣或修女。
为什么我们有时会选择反叛基因及其复制的目标呢?这是因为作为有限理性的主体,我们只忠于自己的感觉。虽然大脑进化的目的是帮助我们复制基因,但大脑其实根本不在乎这个目标,因为我们对基因没有任何感觉。事实上,在人类大部分历史中,我们的祖先根本不知道基因的存在。此外,我们的大脑比基因聪明多了,现在我们已经理解了基因的目标,即复制,不过,我们认为这个目标陈腐不堪,经常忽略它。人们理解基因为什么让他们产生性欲,但并不想养育15个小孩,于是他们绕过基因编好的程序,选择避孕,这样依然能获得基因对亲密关系的情感奖赏。他们也可能意识到了基因为什么令他们渴望甜食,但却不想增重,于是也绕过基因编好的程序,选择饮用含有人造甜味剂的零卡路里饮料,这样依然能获得食用甜食的情绪奖赏。
虽然这种绕过奖赏机制的行为有时会出岔子,比如海洛因上瘾,但从目前来看,人类基因池依然保存得十分完好,尽管我们的大脑十分狡猾,又喜欢反叛。不过,我们必须记住,如今掌权的并不是我们的基因,而是我们的感觉。这意味着人类的行为并不一定有利于种族延续。事实上,由于我们的感觉只遵循经验法则,而经验法则并不是事事都恰到好处,因此,严格地说,人类的行为没有一个定义明确的单一目标。
外包目标:工程
机器可以有目标吗?这个简单的问题引发了很大的争议,因为在不同人的眼中,“机器”代表的意义是不同的,常与一些棘手的问题联系起来,比如机器能否拥有意识以及它们是否有感觉等。但是,如果我们问一个更实际和简单的问题:机器是否能展现出目标导向行为?那答案就很明确,它们当然可以,因为我们就是这么设计的!我们设计捕鼠器,让它拥有捕捉老鼠的目标;我们设计洗碗机,让它拥有洗碗的目标;我们设计时钟,让它拥有报时的目标。实际上,当你面对一台机器时,你只需要关心它拥有什么目标导向行为:如果你被一枚热跟踪导弹追赶,就根本不会关心它是否有意识或者感觉。如果你对“导弹没有意识但有目标”这种说法感到很不舒服,可以暂时把我写的“目标”换成“用途”,我们将在下一章探讨意识的问题。
目前,我们建造的大部分东西都只是以目标为导向进行的设计,而没有展现出目标导向的行为:一条高速公路能有什么行为呢?它只是静静地待在那里,一动不动。然而,它为什么存在呢?最经济的解释是,它是被人设计出来实现某个目标的,因此即便它一动不动,也让我们的宇宙具有了更强的目标导向性。“目的论”就是用目的而非原因来解释事物的一种方法。那么,我们可以总结说,本章前半部分的内容说明,我们的宇宙越来越符合目的论的解释。
从较弱的意义上说,非生命物质是可以拥有目标的。不仅如此,它的目标性正变得越来越强。如果你从地球形成之初就开始观察地球上的原子,可能会注意到目标导向行为的三个阶段:
◦ 第一阶段,所有物质似乎都在努力实现耗散的目标,即熵增;
◦ 第二阶段,其中一些物质拥有了生命,转而聚焦于子目标;
◦ 第三阶段,生物重新排列的物质越来越多,以实现自己的目标。
从表7-1中可以看出,从物理学的角度来看,人类在地球上已经具备了相当高的优势地位:人类身体的总质量已经超过了除牛以外的其他所有哺乳动物(牛的数量实在太多了,因为我们需要它们提供肉类和乳类产品),并且,我们的机器、道路、房子等工程的总质量也似乎很快就能赶上地球上所有生物的总质量了。换句话说,即使不发生智能爆炸,很快,地球上大部分展现出目标导向性质的物质都会是设计出来的,而不是进化出来的。
表7-1 为某个目标设计出来的物体质量
注:表7-1列出的是为某个目标而进化或设计出来的一些物体质量的近似量。建筑物、道路、汽车这类工程实体似乎很快就要赶上植物和动物这类进化出来的实体了。
这种设计出来的“第三类”新型目标导向行为的物体可能比它的产生过程更加多姿多彩,所有进化而来的物体都有一个共同的目标,即复制,而设计出来的物体却可能拥有各种各样的目标,甚至拥有相反的目标。比如,烤箱的目标是加热食物,而冰箱的目标则是冷冻食物。发电机将动能转化为电流,而电动机将电流转化为动能。标准象棋程序想要赢得比赛,而还有一种程序参赛的目标是输掉象棋比赛。
设计产品还有一个历史趋势:它们的目标不仅变得越来越多样化,而且变得越来越复杂。我们的机器变得越来越聪明了。最早的机器和人造物的目标都很简单,比如,房子的目标是让人类保持温暖、干燥和安全。后来,我们逐渐学会了建造拥有目标更加复杂的机器,比如扫地机器人、自己飞行的火箭和无人驾驶汽车。近期的人工智能方面的进展还给我们带来了像深蓝计算机、沃森和AlphaGo这样的系统,它们的目标分别是赢得象棋比赛、猜谜游戏和围棋比赛。这些目标都十分复杂,人们费尽心思才理解了它们高超的技艺。
当我们建造机器来帮助我们时,可能很难保证它们的目标与我们的完全一致。譬如说,捕鼠器可能会错把你的脚趾头当成饥饿的老鼠,结果让你疼得龇牙咧嘴。所以,机器都是拥有有限理性的主体,即便是今天最复杂精巧的机器,对世界的理解程度也远远比不上我们人类。因此它们行事的规则通常过于简单。那只捕鼠器总是乱夹是因为它完全不知道什么是老鼠;同样地,许多致命工业事故之所以会发生,正是因为机器完全不知道什么是人,而2010年导致华尔街“闪电崩盘”事故、造成万亿美元损失的计算机也完全不知道它们的行为是胡作非为。如果机器变得更聪明,就能解决许多“目标一致性”问题,但是,正如我们从第4章的普罗米修斯故事中所看到的那样,日益聪明的机器智能也可能给我们带来新的挑战,因为我们必须保证它们与我们的目标一致。
友好的人工智能:目标一致
机器变得越智能和越强大,保证它们的目标与我们的相一致就越重要。如果我们建造的机器比较愚钝,那问题就不是“人类目标最后会不会胜出”,而是“在我们搞明白如何解决目标一致性的问题之前,这些机器会带来多少麻烦”。然而,如果我们建造的机器具备超级智能,那事情可能便正好相反:由于智能就是完成目标的能力,那么,在完成目标这点上,超级智能理所当然强于人类,因此它最终一定会胜利。我们在第4章中已经用普罗米修斯的例子讨论了许多这样的场景。如果你想体验一下与机器目标不一致的感觉,只要下载一个最先进的象棋程序,然后和它对弈,就能体会到了。你可能永远赢不了它,而它的技艺还会越来越精湛。
换句话说,通用人工智能带来的真正风险并不是它们的恶意,而是它们的能力。一个超级智能会非常善于完成它的目标,如果它的目标与我们的目标不一致,那我们就有麻烦了。正如我在第1章中所说,人们在建造水电站大坝时根本不会考虑会淹没多少蚁丘。因此,大多数研究者认为,如果我们最终造出了超级智能,那我们必须保证它们是友好的人工智能。“友好的人工智能”是人工智能安全性研究先驱埃利泽·尤德考斯基(Eliezer Yudkowsky)提出的一个概念,是指目标与我们相一致的人工智能[3]。
想要让超级人工智能与我们的目标相一致很重要,也很困难。实际上,这目前还是个未解之谜。这个问题可以被划分成三个子问题,每一个都是计算机科学家和思想家正在研究的活跃课题:
◦ 让人工智能学习我们的目标;
◦ 让人工智能接受我们的目标;
◦ 让人工智能保持我们的目标。
我们先来依次探讨一下这三个问题,“我们的目标是什么意思”这个问题先推迟到下一节再探讨。
要学习我们的目标,人工智能需要搞明白的不是我们做了什么,而是我们为什么这么做。这对人类来说易如反掌,所以我们很容易忘记这件事对计算机来说有多困难,也常忘记这个问题很容易被计算机误解。如果在未来,你叫一辆无人驾驶汽车尽可能快地送你去机场,而它确实会不择手段地让你火速赶到了机场,那你可能会一路被直升飞机追赶,并且呕吐一地。如果你声称:“这不是我想要的。”那它可能会言之有理地回答:“可你就是这么说的呀!”很多家喻户晓的故事里也有类似的桥段。古希腊传说中的迈达斯国王请求让自己触摸的所有东西都变成金子,但这使得他没法吃东西,令他十分失望。后来,他不小心将自己的女儿也变成了金子。此外,许多故事中都会有一个精灵,它可以实现人们的三个愿望。关于前两个愿望,不同的故事有不同的版本,但第三个愿望通常都是一样的:“请收回前两个愿望,因为那不是我真正想要的东西。”
这些例子表明,想要知道人们真正想要什么,不能只听他们的一面之词,你还需要这个世界的详细模型,包括人们共有的许多偏好。这些偏好我们通常不会明说,因为我们认为它们是显而易见的,譬如说,我们不喜欢呕吐或吃金子。一旦有了世界的模型,我们就能通过观察人们的目标导向行为来搞明白他们想要什么,即便他们并没有明说。实际上,伪君子的孩子通常都是从父母的行为中学习的,而不是从他们的嘴里。
目前,人工智能研究者正在努力让机器从行为中推断目标,这在超级智能出现之前也非常有用。譬如说,如果一个照顾老年人的机器人能观察和总结出它所照顾的老年人的价值观,那这个老人可能会非常开心,因为这样他就不用费尽口舌向机器人解释一切,也不用对它进行重新编程。要实现这一点,其中的一个挑战是,找到一种将任意目标系统和伦理准则编入计算机的好方法。还有一个挑战是让计算机弄清楚哪个系统最符合它们观察到的行为。
对于第二个挑战,目前有一种流行的方法,用行话来说叫作“逆向增强学习”(Inverse Reinforcement Learning)。斯图尔特·罗素在加州大学伯克利分校新建立的研究中心就主要研究这个东西。比如,假设一个人工智能看见有一个消防员跑进了一栋熊熊燃烧的房子,救出了一名男婴。它可能会得出一个结论:消防员的目标是拯救男婴,他的伦理准则要求他将自己的生命看得比“舒服地躺在消防车里”更高,高到他宁愿承担失去安全的风险。但是,它也可能通过推断认为,这个消防员可能饥寒交迫,迫切想要获得热量,或者说,他这么做是为了锻炼身体。如果这个事件是这个人工智能所知的与消防员、火和男婴有关的唯一例子,那它就不可能知道哪种解读才是正确的。然而,逆向增强学习的一个关键思想就是,我们总是在做出决策,每个决策都揭示了一点点关于我们目标的信息。因此,逆向增强学习希望人工智能体通过观察许多人在许多场景中的行为,包括真实场景、电影和书籍,最终构建起关于人类偏好的精确模型[4]。
即使我们建造了一个能学习人类目标的人工智能,但这并不意味着它一定会接受这些目标。想想你最讨厌的政客,你知道他们想要什么,但那不是你想要的,就算他们费尽心思,也无法说服你接受他们的目标。
人们为了让自己的孩子接受他们的目标,可谓无所不用其极。从我抚养两个男孩的经验中,我发现了一些比较成功的方法。如果你想要说服的对象不是人,而是计算机,那么,你就面临一个称为“价值装载问题”(value-loading problem)的挑战,这甚至比对孩子进行伦理教育还难上加难。
假设一个人工智能系统的智能逐渐从低于人类的水平发展到超人类的水平。在这个过程中,一开始,由人类对它进行敲敲打打、修修补补,后来,它通过普罗米修斯那样的自我迭代,迅速提升智能。一开始,它比你弱多了,所以它无法阻止你把它关掉,也无法阻止你将它的软件和在其数据中能对目标进行编码的那部分替换掉。不过,这无关紧要,因为你的目标需要人类水平的智能才能理解,而它还太愚笨,无法完全理解你的目标。后来,它变得比你聪明,能够完全理解你的目标,但这依然于事无补,因为到那时,它已经比你强太多,可能不会再让你轻易地把它关掉并替换它的目标,就像你不允许那些政客把你的目标替换成他们的目标一样。
换句话说,人工智能允许你装载目标的时间窗口可能非常短暂:就是在它愚钝得无法理解你,与它聪明到不让你得逞之间的短暂时期。给机器装载价值之所以比人难,是因为它们的智能增长比人类快多了。对孩子们来说,这个神奇的“说服窗口”可能会延续好几年,在这段时间里,他们的智力与父母相差无几;但对人工智能来说,比如普罗米修斯,这个窗口可能只有几天甚至几个小时。