图2-10 神经元计算乘法的过程
注:这张图显示了物质如何用神经元而不是图2-7中的与非门来计算乘法。这张图的关键点是,神经元(人工或生物)不仅能进行数学计算,而且,用神经元来计算乘法所需要的神经元数量少于用与非门来计算时所需的与非门数量。如果你是数学迷,那我可以再告诉你一些额外的细节:图中的圆圈处执行加总运算,方块处运行函数σ,直线处乘上其上标注的常数。输入数据是实数(左图)和二进制数字(右图)。当左图中的a趋近于0和右图中的c趋近于无穷大时,该乘法运算可以达到任意高的精度。左图中的网络适用于任何在原点处弯曲的函数σ(x),也就是原点处的二阶导数σ" (0) ≠ 0,这可以用σ(x)的泰勒展开公式来证明。右图的网络则需要满足当x非常小和非常大时,函数σ(x)分别趋近于0和1,这可以由下面的推导看出:只有当u+v+w=3时,uvw=1。(26)将许多乘法(如上图所示)和加法组合起来,你就可以计算任意多项式。我们知道,多项式能对任意光滑函数进行近似。
虽然从理论上来说,你能用一个任意大的神经网络来执行任意一个计算,却没法证明,在实践中如何用一个大小合适的神经网络来执行计算。实际上,我想得越多,就越对神经网络如此可行感到好奇。
假设我们想将兆像素级别的灰度图像分成两类:猫和狗。如果每张图的100万个像素中的每个像素都可以取256个值,那么,可能的图像数量就有2561 000 000张。对其中的每一张图,我们都想计算出“它是猫”的概率。这意味着,这个输入数据为图片、输出数据为概率的任意函数,是由一个包含2561 000 000个概率的列表所定义的。这个数字如此之大,超过了我们整个宇宙中的原子总量(大约1078)。但不知为何,一些只包含了几千个或几百万个神经元的神经网络却可以很好地完成这种分类任务。为什么如此“便宜”(也就是所需的参数特别少)的神经网络能够完成这种任务呢?毕竟,你可以证明,如果一个神经网络小到可以放进我们的宇宙中,那它几乎无法对任何一个函数进行近似。在你安排给它的任务中,它只能成功完成很小的比例。
我和我的学生亨利·林一起愉快地讨论了这些奇妙的事情。我非常高兴能和许多了不起的学生合作,亨利就是其中之一。当他第一次踏进我的办公室,询问我是否有兴趣与他合作时,我心想,应该由我问他是否有兴趣与我合作会更合适。这个谦逊、友善、眼睛会发亮的孩子来自路易斯安那州的什里夫波特市,当时他已经写过8篇科学论文,入选了《福布斯》30位30岁以下的精英榜;他还曾在TED发表过演讲,有超过100万人收看,而他却只有20岁!
与亨利合作了一年之后,我们一起写了一篇论文,道出了我们研究出的一个惊人的结论:神经网络之所以如此有效,不能仅用数学来回答,因为答案的一部分取决于物理学。我们发现,在物理定律带来的函数中,很少有让我们对计算充满兴趣的,这是因为,由于一些尚不为人所知的理由,物理定律是非常简单的。此外,神经网络能计算的那一小撮函数,与物理学中吸引我们兴趣的那一小撮函数竟然非常相似!我们还对早先的研究进行了扩展,证明了在许多我们感兴趣的函数上,深度(27)学习型神经网络比那些较浅的神经网络更加有效。举个例子,我和另外一位了不起的麻省理工学院的学生戴维·罗尔尼克(David Rolnick)一起证明了,如果神经网络只有一层,那么计算n个数字的乘法就需要2n个神经元;但是,如果神经网络的层数很多,那么只需要4n个神经元就足够。这不仅解释了为什么神经网络在人工智能研究者中十分受欢迎,还解释了我们的大脑中为什么也进化出了神经网络:如果大脑的进化是为了预测未来,那么,我们进化出的计算结构正好擅长计算那些在物理世界中十分重要的问题,也就不足为奇了。
我们已经探索了神经网络是如何工作和计算的,现在,让我们回到“它们是如何学习的”这个问题上。具体而言,神经网络是如何通过更新自己的突触来提升计算能力的呢?
1949年,加拿大心理学家唐纳德·赫布(Donald Hebb)写了一本影响深远的书。在书中,他提出了著名的赫布定律:如果两个邻近的神经元被同时激活(放电),它们之间的突触连接就会被强化,这样,它们就学会了触发彼此。这个思想可以被总结为一句流行语“一起放电,一起连接”(fire together, wire together)。虽然我们还不了解大脑学习的具体细节,并有研究表明答案可能非常复杂,但我们已经证明了,即便是简单的赫布学习规则(Hebbian learning rule),也能允许神经网络学习有趣的事情。约翰·霍普菲尔德证明,在赫布学习规则之下,用极其简单的神经网络也能存储许多复杂的记忆,只需要一次又一次地在神经网络上“暴露”相关信息即可。对人工神经网络或者学习技能的动物或人类来说,这种“暴露”信息的情形,通常被称为“训练”(training),有时也被称为“学习”(study)、“教育”(education)或“体验”(experience)。
如今,人工神经网络能使人工智能系统用一些更加复杂、精巧的学习规则来替代赫布学习规则,比如反向传播算法(backpropagation)和随机梯度下降算法(stochastic gradient descent)。不过,它们的基本思想是相同的,那就是:存在一些与物理定律十分类似的简单的决定性规则,通过这些规则,突触可以随着时间的变化不断更新。只要用大量数据进行训练,神经网络就可以用这个简单的规则学习到许多惊人而复杂的计算过程,就像魔法一般。我们还不知道人脑运用的是什么样的学习规则,但是,无论答案是什么,都没有任何迹象表明,它们会违反物理定律。
大多数电子计算机会将任务分解成多个步骤,并重复使用相同的计算模块来提高效率,许多人工神经网络和生物形态的神经网络也同样如此。在大脑中,有部分神经网络是计算机科学家所谓的递归神经网络(recurrent neural network),而不是前馈神经网络。在递归神经网络中,信息可以流向各个方向,而不像前馈神经网络一样只局限在一个方向,因此,前一步的输出是可以作为下一步的输入的。从这个意义上来说,笔记本电脑微处理器中的逻辑门电路(28)也是递归的:它始终在使用过去的信息,并让来自键盘、触控板、摄像头等的输入信息影响它正在进行的计算过程,而这个计算过程又决定了传输到显示屏、扬声器、打印机和无线网络的输出信息。同样地,你脑中的神经网络也是递归的,来自你眼睛和耳朵等的输入信息影响它正在进行的计算过程,而这个计算过程又决定了输出到你肌肉的信息。
学习的历史至少与生命的历史一样漫长,因为所有自我复制的生物都展现出了两种能力,即通过某种学习获得的信息复制能力和信息处理能力。这十分有趣。然而,在生命1.0时代,生物并不是从个体一生的经验中学习的,因为它们处理信息和做出反应的规则是由天生的DNA决定的,所以,唯一的学习过程只会发生在物种层面上,通过达尔文的进化论,代代相传。
大约10亿年前,地球上的一个基因系(gene line)发现了一种方法,能让动物产生神经网络,让它们能从自己一生的经验中学习。于是,生命2.0降临了。由于生命2.0学习的速度加快了许多,在竞争中占有优势,所以便像野火一样席卷全球。正如我们在第1章所说,生命通过学习变得越来越好,其进步的速度也变得越来越快。一种像猿猴一样的动物进化出的大脑特别擅长获取关于工具、生火、语言和创造复杂的全球社会的知识。这个社会自身也可以被看作一个能记忆、计算和学习的系统,并且这些过程正在不断加速,因为我们有了一些能催生更多新创造的发明,比如书写、印刷出版、现代科学、计算机、互联网等。未来的历史学家还会在这个“赋能式发明”表中加上什么呢?我猜,是人工智能。
我们都知道,计算机的存储能力和计算能力的爆炸式发展(如图2-4和图2-8所示)推动了人工智能的大踏步前进。但是,机器学习花了很长时间才逐渐变得成熟。当IBM的深蓝计算机在1997年战胜国际象棋冠军加里·卡斯帕罗夫时,它最大的优势是记忆能力和计算能力,而不是学习能力。它的计算智能是由人类创造出来的,而深蓝计算机之所以能战胜创造它的人类,是因为它的计算速度更快,因此在同一时间内能够分析更多的走棋招数。当IBM的沃森计算机在益智电视节目《益智问答》(Jeopardy)上抢过人类头上的桂冠时,它依靠的也并不是学习能力,而是为其专门编程的技巧、超人类的存储能力和速度。机器人学早期的大多数突破,从步行机器人到无人驾驶汽车和自动着陆火箭,也都同样如此。
相比之下,近期,人工智能方面的许多突破的推动力都是机器学习。比如,请看图2-11。你很容易就能说出这张照片描绘的是什么场景,但是,想要写一个程序,让它仅凭图像的像素色彩信息就输出“一些年轻人在玩飞盘游戏”这样精确的描述,却让全世界的人工智能研究者头疼了几十年。然而,2014年,谷歌公司的伊利娅·苏特斯科娃(Ilya Sutskever)带领团队完成了这项任务。当他们给所写的程序输入一张图片的像素色彩信息后,它说“一群大象在干燥的草地上行走”,又一次回答正确。这个团队是如何做到的呢?是不是像深蓝计算机那样,依靠手工编写的算法来检测飞盘、人脸等物体?不是的。这个团队创造了一个比较简单的神经网络,它没有关于物理世界的任何知识。然后,他们将这个神经网络暴露在海量的数据之下,让它学习。人工智能预言家杰夫·霍金斯(Jeff Hawkins)在2004年写道:“没有一台计算机能够达到老鼠的视觉水平。”这句话已经远远过时了。
图2-11 一些年轻人在玩飞盘游戏
注:这个描述是由计算机程序写出来的,它并不理解人类、游戏和飞盘都代表着什么。
我们还没完全理解儿童是如何学习的。同样地,我们依然还没完全理解神经网络是如何学习的,以及为什么它们几乎不会失败。但是,一个明显的事实是,它们非常有用,越来越受青睐,并掀起了一波针对深度学习的投资风潮。从手写文本识别到无人驾驶汽车的实时视频分析,深度学习已经改变了计算机视觉的方方面面。同样地,它也极大地提高了计算机识别语音并翻译成另一种语言的能力,有时甚至可以实现实时翻译,这就是为什么我们现在可以与个人数字助理比如Siri、Google Now和Cortana进行口头对话的原因。
恼人的验证码是我们向网站证明“我是人”的必要步骤。为了避免被日益提升的机器学习破解,验证码正变得越来越复杂。2015年,DeepMind公司发布了一个人工智能系统,让人工智能深度学习系统像儿童一样在无人指导的情况下学习了几十种计算机游戏的玩法。唯一不同的是,学着学着,人工智能深度学习系统玩游戏的水平就超过了人类。2016年,DeepMind公司创建了AlphaGo,这是一个会下围棋的人工智能,它通过深度学习的原理评估不同棋子赢棋的概率,并击败了全世界顶尖的围棋冠军柯洁。这个过程点燃了一个良性循环,将越来越多的投资和人才吸引到了对人工智能的研究中,进一步推动了该领域的巨大进步。
在第1章,我们探索了智能的本质以及它目前的发展情况。机器到什么时候才能在所有认知任务上都超过我们人类?我们显然不知道答案。此外,我们还需要做好“机器可能永远无法超过人类”的思想准备。但是,本章还传递了一个我们必须考虑的可能性,那就是它可能会发生,甚至就可能会发生在我们的有生之年。因为,物质在遵守物理定律的前提下,也可以组合出能够记忆、计算和学习的形态,而这种物质并不一定是生物体。人工智能研究者常被诟病过于乐观,总难实现自己承诺的目标。但平心而论,某些批评家也并不总是正确的。有些人总在转移重点,用计算机还无法做到的事情或者用哗众取宠的事情来定义智能。现在,机器在计算、下象棋、证明数学公理、挑选股票、描述图像、驾驶、玩电子游戏、下围棋、合成语音、转录语音、翻译和诊断癌症等众多任务上,成绩显著。不过,一些批评家还是会轻蔑地嘲笑说:“说得没错,但那不是真正的智能!”接下来,他们可能会声称,真正的智能只存在于汉斯·莫拉维克提出的“人类能力地形图”中尚未被淹没的山巅上(见图2-2)。曾有些人声称,会描述图像和下围棋的智能是真正的智能,但随着水位的不断上涨,这二者都已经被淹没。
既然我们假设“水平面”还会一直上升,那人工智能对社会的影响也会随之变大。在人工智能在所有技能上达到人类水平之前,它会带来许多迷人的机遇和挑战,涉及其带来的突破和故障,以及法律、武器和就业等领域的变化。这些机遇和挑战究竟是什么?我们如何才能未雨绸缪?下一章,让我们一起来探讨这些问题。
本章要点
◦ 当智能被定义为“完成复杂目标的能力”时,它不能仅用单一的“IQ”指标来衡量,而应该用一个覆盖所有目标的能力谱来衡量。
◦ 今天的人工智能还是比较“狭义”的,也就是说,只能完成非常特定的目标,而人类智能却相当“广义”。
◦ 记忆、计算、学习和智能之所以给人一种抽象、虚无缥缈的感觉,是因为它们都是独立于物质层面的。它们仿佛具有自己的生命,而不需要依赖和反映它们所栖息的物质层面的细节。
◦ 任何一团物质,只要它拥有许多不同的稳定状态,就可以作为记忆的基础。
◦ 任何物质,只要它包含某种组合起来能运行任何函数的通用基本构件,那它就可以作为计算质,也就是计算的物质基础。
◦ 神经网络是一个强大的学习基础,因为只要遵守物理定律,它就能对自己进行重新排列组合,执行计算的能力也会随之变得越来越好。
◦ 由于人类知道的物理定律极其简单,所以在能想象到的所有计算问题中,人类关心的非常少,而神经网络总能游刃有余地解决这些问题。
◦ 当某项技术的能力翻倍时,它通常又可以被用来设计和建造强大两倍的技术,引发不断的能力翻倍,这正是摩尔定律的精髓。信息技术的成本大约每两年就会减半,这个过程已经持续了约一个世纪,催生了今天的信息时代。
◦ 如果人工智能方面的进步持续下去,那么,早在人工智能在所有技能上都达到人类水平之前,它会给我们带来迷人的机遇和挑战,涉及其带来的突破和故障,以及法律、武器和就业等领域的变化,我们将在下一章探讨这些问题。
当今时代,身为人类,到底意味着什么?比如,哪些备受珍视的自我价值决定了我们与其他生命形态和机器是截然不同的?在我们身上,哪些备受珍视的价值让我们获得了工作机会?无论我们作何回答,这些答案一定会随着技术的进步而逐渐发生改变。
以我自己为例。作为一位科学家,我很自豪,因为我可以设定自己的目标,可以使用创造力和直觉来解决许多尚未解决的问题,还可以用语言来分享我的发现。很幸运的是,社会愿意为我所做的事情付钱,我可以拥有一份工作。如果出生在几百年前,那我很可能会和其他许多人一样,成为一个农民或手工业者,但技术进步早已极大地降低了这些职业在就业市场中所占的比例。这意味着在当今社会,不太可能所有人都从事农耕和手工业。
对我个人来说,虽然今天的机器在农耕和编织这些手工艺上胜过了我,但这并不会对我产生一丝一毫的困扰,因为这些既不是我的兴趣所在,也不是我的收入或个人价值的来源。实际上,就算我真的曾在这些领域产生过幻想,但这些幻想早已在我8岁时就破灭了。那时候,学校逼着我上编织课,害我差点儿不及格。不过最后,我还是完成了作业,因为有个五年级的同学看我十分可怜,愿意帮助我。
但是,随着科技的不断进步,人工智能的崛起会不会侵蚀我现在的自我价值和就业价值所根植的那些能力呢?斯图尔特·罗素告诉我,他和许多研究人工智能的同僚最近经常被人工智能惊讶到,因为他们看见人工智能完成了许多他们期盼多年的事情。怀着同样的心情,请允许我向你介绍我自己的惊讶时刻,以及我为什么把它们视为人类能力即将被赶超的预兆。
科技大突破,深度学习带来的创造力惊喜
深度强化学习主体
2014年,我有过一次“下巴掉地上”的吃惊经历。我看了这样一段视频:视频中,DeepMind公司的人工智能学会了玩电脑游戏。它玩的是《打砖块》(如图3-1所示)。《打砖块》是雅达利的一款经典游戏,我在十几岁的时候很喜欢玩。这款游戏的目标是,通过操纵一个平板,让小球在砖墙上弹跳,小球每碰到一个砖块,该砖块就会消失,分数就会相应增长。
图3-1 雅达利游戏《打砖块》
注:DeepMind公司的人工智能从头学习了如何玩雅达利游戏《打砖块》,为了使游戏分数最大化,它利用深度强化学习发现了最优策略,那就是,在砖块的最左边钻出一条通道,然后让小球在上面弹来弹去,这样会迅速得分。在图中,我用箭头表示小球和平板的运动路径。
我曾写过一些电脑游戏,所以我知道,写一个会玩《打砖块》的程序并不是一件多么难的事情。但是,这并不是DeepMind公司所做的事情。相反,他们创造了一个完全没有游戏知识的人工智能,它一点儿也不了解这个游戏,也不知道其他任何游戏,甚至不知道游戏、平板、砖块和小球这些概念是什么意思。DeepMind公司创造的人工智能只知道一长串数字会以固定的周期输入,包括当前的分数和一串数字。在我们人类眼里,这串数字描述的是屏幕上不同区域的颜色,但在人工智能眼中则不然。人们只告诉人工智能,它必须以固定的周期输出一些数字,从而将分数最大化。在我们人类眼里,这些数字描述的是要按下哪些按键,但在人工智能系统“眼”中则不然。
起初,人工智能玩得糟透了,它毫无头绪地把平板推来推去,几乎没有一次能接住小球。过了一会儿,它似乎发现,把平板向小球的方向移动,是个不错的方法,不过大多数时候,它依然接不住小球。不过,随着不断的练习,人工智能玩得越来越好,甚至比我玩得还好。无论小球的速度有多快,它每次都能精确地接住小球。不久以后,我就更吃惊了,它自己找出了这个神奇的“分数最大化”策略:只要把小球弹到左上角,在那里钻出一个通道,让小球钻进这个通道,然后,小球就会暂时卡在墙上方,在墙和边界之间来回弹动。这个人工智能真是太聪明了。实际上,丹米斯·哈萨比斯后来告诉我,DeepMind公司的程序员自己都不知道这个技巧,他们还是从自己创造的人工智能那里学到了这一招。我建议你们去看一下这个视频,我在书后给出了视频的链接。[1]
这个视频里的人工智能有一个和人类很相似的特征,让我觉得很不安:它不仅拥有目标,还通过学习了解了如何日臻完善这个目标,最终竟然超过了它的创造者。在第1章,我们对智能下了一个简单的定义:完成复杂目标的能力。所以,从这个定义出发,DeepMind公司的人工智能确实在我们眼皮底下变得越来越智能了,虽然它的智能很狭窄,只会玩某种特定的游戏。在第1章,我们曾经遇到过一个概念,也就是计算机科学家所谓的“智能体”(intelligent agents),这种主体用感应部件收集关于环境的信息,然后对这些信息进行处理,以决定如何对环境做出反应。虽然DeepMind公司的人工智能生活在一个极端简单,只由砖块、平板和小球组成的虚拟世界中,但毋庸置疑,它是一个智能体。
DeepMind公司很快就公布了设计这个人工智能的方法,向全世界分享了代码[2],并解释说,这个人工智能用了一个非常简单但十分强大的方法,叫作“深度强化学习”(deep reinforcement learning)。基础的强化学习是一种经典的机器学习技术,受行为心理学的启发发展而来。行为心理学认为,如果你做某件事时总是受到积极的奖赏,那么你做这件事的意愿就会增强;反之亦然。正如奖励小狗零食能鼓励它们很快学会一些小把戏一样,DeepMind公司的人工智能学会了移动平板接住小球,因为这会增加它的得分概率。DeepMind公司将这个思想与深度学习结合起来,训练出了一个深度神经网络(正如第1章所说),以此来预测按下键盘上每个键的平均得分;接着,根据游戏的当前状态,人工智能会选择按下神经网络给分最高的那个键。
身为人类,我的个人价值来自许多方面。当我列出这些方面时,我把“有能力解决广泛的未解问题”也囊括了进去。相比之下,如果DeepMind公司的这个人工智能除了《打砖块》游戏之外什么也不会,那它就是一种极其狭窄的智能。对我来说,DeepMind公司这个突破的重大意义就在于,证明了深度强化学习是一项相当通用的技术。正如我所料,DeepMind公司让同一个人工智能练习了49款雅达利的游戏,在其中的29款游戏上,它玩得比人类好,包括《乒乓》(Pong)、《拳击》(Boxing)、《电子弹珠台》(Video Pinball)和《太空侵略者》(Space Invaders)。
没过多久,人们就证明并得出以下结论,具备同样原理的人工智能不仅可以玩二维游戏,还能玩一些更加现代的三维游戏。很快,DeepMind公司的竞争者、位于旧金山的人工智能非营利性组织OpenAI公司就发布了一个叫作“Universe”的训练平台,在其上,DeepMind公司的人工智能和其他智能体可以练习如何与计算机像玩游戏那样交互,它们会到处点来点去,随便打打字,随意打开和运行一些它们能够应付的软件,比如打开一个浏览器,在网上随意闲逛。
展望未来,深度强化学习大有可为。它们的潜力并不局限在虚拟的游戏世界中,因为如果你是一个机器人,“生活”本身就可以被看作一场游戏。斯图尔特·罗素告诉我,他的第一次惊讶时刻发生在他观看大狗机器人(Big Dog)奔跑在一片积雪覆盖的林间斜坡上时,因为它优雅地解决了罗素多年来一直试图解决的步行式问题(legged locomotion problem)。这个里程碑式的突破是在2008年出现的,它是聪明绝顶的程序员们日夜奋战的结果。然而,在DeepMind公司的突破之后,我们再也没有理由说,倘若没有人类程序员的帮助,机器人就一定不会用深度强化学习来教会自己走路,它需要的只是一个只要有进步就会给它加分的系统。同样地,物理世界中的机器人也有潜力学习游泳、飞行、玩乒乓球、打仗等,它们能完成数不清的运动任务,而这些任务都不需要人类程序员的帮助。为了加快速度和降低学习过程中动弹不得或自毁的风险,它们第一阶段的学习可以在虚拟世界中进行。
挑战直觉、创造力和战略
对我来说,还有一个决定性的时刻,那就是,DeepMind公司的人工智能AlphaGo在一场五局围棋中,战胜了被公认为21世纪初期全世界最顶尖的围棋棋手——李世石(如图3-2所示)。
图3-2 AlphaGo制胜人类的关键性一步
注:DeepMind公司的AlphaGo在第5行走出了富有创意的一步,挑战了几千年的人类智慧。50步之后,事实证明,正是这一招决定了它将战胜围棋界的传奇人物李世石。
许多人都曾预计,围棋棋手一定会在某个时刻败给人工智能,毕竟象棋棋手在20年前就经历了这一失败。但大多数围棋高手都预测,这件事还需要10年才会发生,所以,AlphaGo的胜利对他们来说,就像对我一样,是一个重要的时刻。尼克·波斯特洛姆和雷·库兹韦尔都强调过,亲眼目睹人工智能的突破是一件很难接受的事情,这从李世石在输掉三局比赛之前和之后接受的采访中可见一斑。
2015年10月:基于它所展现出来的水平……我想我胜券在握。
2016年2月:虽然我听说DeepMind公司的人工智能强得惊人,并且正变得越来越强,但我还是很有信心,至少这次我一定会赢。
2016年3月9日:我非常惊讶,因为我没想到我会输。
2016年3月10日:我十分无语……我被震惊了。我得承认……接下来的第三局比赛对我来说不会很容易。
2016年3月12日:我感觉有点无力。
在战胜李世石后的一年内,一个更加强大的AlphaGo与全世界最顶尖的20位棋手对弈,没有一次失败。
为什么DeepMind公司在人工智能上取得的突破对我来说如此重要呢?事实上,我将“直觉”和“创造力”视为人类的两个核心特征。现在,我要向你解释,为什么我在前文中说,AlphaGo展现出了这两种特征。
围棋棋手在下棋时,是在一张19×19的棋盘上(如图3-2所示)交替放下黑子和白子。围棋棋局的可能性很多,多到超过了我们宇宙中的原子总数。也就是说,如果你想分析所有可能的棋局序列,很快就会绝望。所以,在很大程度上,棋手都是依赖潜意识的直觉来完成有意识的推理的。围棋专家都练就了一种近乎神秘的本领,可以感觉到棋盘上哪些位置赢棋的概率大,哪些位置赢棋的概率小。正如我们在第2章看到的,深度学习的结果有时很像直觉,比如,一个深度神经网络可能会断定某张图片里有一只猫,但它却无法解释原因。因此,DeepMind公司人工智能研究团队在这个原理上打赌,深度学习不仅能识别猫,还能识别围棋棋盘上哪些位置赢棋的概率大。他们在AlphaGo中构建的核心思想就是,将深度学习的直觉和GOFAI(29)的逻辑结合起来。
DeepMind公司人工智能研究团队使用了一个庞大的围棋棋局数据库,这个数据库不仅包括人类下的棋局,还包括AlphaGo和自己对弈的棋局。通过这个数据库,他们训练了一个深度神经网络,来预测白子落在每一格的最终获胜概率。该团队还训练了另一个不同的神经网络,来预测下一步的可能性。接着,他们将这些神经网络与一个能在被删减过的可能性棋局列表中进行精确搜索的GOFAI的逻辑方法结合起来,来决定下一步把棋子放在哪里,好一路奔向最有可能获胜的位置。
这种将直觉和逻辑结合起来得出的棋着,不仅十分强大,有时还具有高度的创造性。比如,几千年的围棋技艺规定,在棋局的早期,最好将棋子放在从边缘起数的第3行或第4行的位置。不过,应该放在这两个位置中的哪一个上,还需要权衡:放在第3行能帮助棋手短暂赢得棋盘一侧的地盘,而放在第4行则能影响棋盘中心区域的长期策略。
在第二场棋局的第37步,AlphaGo震惊了整个围棋界,因为它落子在第5行(如图3-2所示),这违背了从古至今的传统。看起来,它似乎在长期策略上比人类表现得更加有信心,因此它更青睐长期策略而不是短期地盘。评论员惊呆了,李世石甚至站起来,短暂地离开了房间。当然了,50步之后,左下角的战火蔓延开,正好与第37步时布下的那颗黑子连起来了!正是这个方法,让它最终赢得了比赛,铸就了AlphaGo的五连胜,并成为围棋历史上最具创造力的“棋手”。
由于对直觉和创造力的严重依赖,围棋常被看作一门艺术,而不仅是一种棋类游戏。围棋属于中国古代的“四艺”,也就是琴、棋、书、画中的一种,至今依然在亚洲地区非常流行。AlphaGo与李世石的对弈有超过3亿人在观看。结果震惊了围棋界,他们把AlphaGo的胜利视为人类历史上一个影响深远的里程碑。当时世界上排名第一位的围棋棋手柯洁这样评论道:
人类千年的实战演练进化,计算机却告诉我们,人类全都是错的……我觉得,甚至没有一个人沾到围棋真理的边。我们棋手将会结合计算机,迈进全新的领域,达到全新的境界。
这种富有成效的人机协作方式,确实在许多领域(包括科学)充满希望。在这些领域,人工智能有望帮助我们加深理解,发挥人类的终极潜力。
2017年年底,DeepMind团队又发布了AlphaGo的后续版本——AlphaZero。AlphaZero完全忽略了几千年以来人类积累的围棋智慧,包括几百万盘棋局,它从零开始自己学习。AlphaZero不仅击败了AlphaGo,还通过同自己对弈练成了世界上最强大的象棋棋手。在短短两个小时的训练后,它打败了最厉害的人类棋手;四个小时之后,它战胜了世界上最好的象棋程序——Stockfish。最令我印象深刻的是,它不仅打败了人类棋手,还打败了人类的人工智能程序员,让他们耗费几十年精力手工开发出来的人工智能软件变得过时了。换句话说,“用人工智能创造出更好的人工智能”这个思想是不容忽视的。
我认为,AlphaGo还教给了我们另外一件事情,那就是:将深度学习的直觉与GOFAI的逻辑结合起来,能够创造出首屈一指的战略。围棋被视为终极的战略游戏,由此看来,人工智能已经准备好“毕业”了,准备在棋盘之外的广阔天地里挑战或帮助最优秀的人类战略家,比如,投资战略、政治战略和军事战略等。这些真实世界的战略问题通常会因为人类的心理问题、信息不全以及模型中的随机因素等问题而变得十分复杂,但扑克人工智能已经证明,这些挑战都不是无法克服的。
进步神速的自然语言处理
最近还有一个人工智能方面的进展也令我非常震惊,那就是语言上的进展。我年轻时非常喜欢旅游,对其他国家的文化很感兴趣,而且我认为,语言构成了我个性中很重要的一部分。我小时候一直说瑞典语和英语,在学校里又学习了德语和西班牙语,在我的两段婚姻中,又学习了葡萄牙语和罗马尼亚语,还为了好玩自学了一点俄语、法语和汉语。请看下面这段话:
但人工智能正在到达,而在2016年的重要发现之后,几乎没有懒惰的语言,我可以比通过谷歌的脑子的设备开发的人工智能更好地翻译。
你觉得这段话清楚吗?其实,我想说的是:
但人工智能一直在追赶着我,而在2016年的重大突破之后,几乎没有什么语言我能比谷歌大脑团队开发的人工智能翻译得更好。
第一段话我是用几年前安装在笔记本电脑上的一个翻译软件先将其翻译成西班牙语,再翻译回英语。但在2016年,谷歌大脑(Google Brain)团队对免费的“谷歌翻译服务”进行了升级,开始使用深度递归神经网络,与老旧的GOFAI系统相比简直突飞猛进[3]。下面就是谷歌翻译的结果:
但人工智能一直在追赶我,而在2016年的重大突破之后,几乎没有什么语言可以比谷歌大脑团队开发的人工智能翻译得更好。
你可以看到,从西班牙语绕了一圈的翻译中,代词“我”消失了,让句子的意思发生了一些改变,虽然很接近,但还是差了那么点儿意思。不过,我要为谷歌的人工智能辩护一下,经常有人批评我喜欢写毫无必要的长句子,长句子本来就很难用语法进行分析,而我又正好挑选了最拐弯抹角、最容易令人迷惑的一句作为例子。对于普通句子,谷歌的人工智能通常能翻译得无可挑剔。因此,它一经问世便掀起了轩然大波。谷歌翻译非常有用,每天都有上亿人在使用。此外,由于有了深度学习,近期,语音与文字之间的相互转换取得了很大的进步,使得用户可以直接对智能手机说话,然后它可以将其翻译成另一种语言。
如今,自然语言处理是人工智能中发展最快的领域之一。我认为,如果它继续再创佳绩,将产生巨大的影响,因为语言是人类的核心特征。人工智能在语言预测上的表现越好,它在回复电子邮件或者口头对话上的表现也会变得越好。至少对外行来说,这些行为看起来很像在进行人类的思考。就这样,深度学习系统就像蹒跚学步的幼童,走上了通过著名的“图灵测试”(Turing test)之路。在图灵测试中,一台机器通过写字的方式来与一个人交流,并想方设法地欺骗这个人,让这个人相信它自己也是一个人。
在语言处理能力上,人工智能还有很长的路要走。不过,我得承认,当人工智能比我翻译得好时,我感到了一丝泄气。只有当我告诉自己“它还不能理解句子的意思”时,才感觉好了一点。通过在大规模的数据库中的训练,人工智能发现了词语中的模式和关系,而不用把这些词与现实世界中的东西联系起来。比如,它可能会用一个由几千个数字组成的数列来表征一个词语,而这个数列表示的只是这个词语与其他词语的相似程度。通过这种方式,它可能会总结出,“国王”和“王后”的关系与“丈夫”和“妻子”的关系类似。不过,它并不明白男性和女性是什么意思,甚至不知道在它之外还存在着一个拥有时间、空间和物质的物理实在。
由于图灵测试的本质是“欺骗”,所以很多人批评它只能测出人类有多容易被骗,而不能测出真正的人工智能。图灵测试有一个叫作“威诺格拉德模式挑战”(Winograd Schema Challenge)的对手。相比之下,这个测试直击要害,其目标是测试目前的深度学习相对欠缺的常识推理能力。当人类对句子进行语法分析时,总会使用真实世界的知识来理解代词指代的是什么。比如,一个典型的威诺格拉德模式挑战会问下面句子中的“他们”指的是什么:
◦ 市议会成员拒绝为游行示威者颁发许可,因为他们害怕暴力。
◦ 市议会成员拒绝为游行示威者颁发许可,因为他们提倡暴力。
每年都会举行一次威诺格拉德模式挑战赛,让人工智能回答这样的问题,而人工智能总是表现得一塌糊涂[4]。这种推理指代关系的挑战,甚至连谷歌翻译也差强人意,比如,当我用谷歌翻译把前面那段话先翻译成中文,再翻译回英文时,就变成了下面这样:
但人工智能已经追上了我,而在2016年的大断裂之后,几乎没有什么语言,我能够翻译人工智能比谷歌大脑团队。
现在,它很可能已经比那时有所进步,因为很多方法都有望将深度递归神经网络与GOFAI结合起来,建造出一个包含着世界模型的自然语言处理人工智能。
机遇与挑战
前两章的这三个例子只是管中窥豹,因为人工智能在许多重要的方面都在取得日新月异的进步。此外,尽管我在这些例子中只提到了两家公司,但实际上,各大高校和企业里有许多研究团队正在你追我赶,他们在人工智能的研究上并不落后。在全世界高校的计算机系里,你仿佛能听到震耳欲聋的“吸尘器噪声”,因为苹果、百度、DeepMind、微软等公司都在用丰厚的薪酬,将高校里的学生、博士后和教师像吸尘一样“吸”走。
虽然我只提到了人工智能在这三个方面的突破,但希望大家不要被我所举的例子误导,由此就认为人工智能的历史就是由一段一段的停滞期组成的,间或插入一些突破。相反,我认为人工智能一直是稳步向前发展的,只不过每当它跨越一个障碍,从而让某种超乎想象的新应用或新产品成为可能时,媒体就会宣扬说这是一种突破。因此,我认为在接下来的许多年里,人工智能很可能还会一直像这样小步前进。此外,正如我们在第2章中所看到的,当人工智能在大多数任务上的表现与人类不相上下时,我们没有理由认为这样的进步不能持续下去。
这就提出了一个问题:这对我们会产生什么影响?人工智能的短期进步会如何改变身为人类的意义?我们已经看到,想宣称人工智能毫无目标、广度、直觉、创造力或语言能力是一件越来越难的事情,而许多人认为这些正是生而为人的核心特征。这意味着,即使在不远的未来,在任何人类水平的通用人工智能在所有任务上赶超人类之前,人工智能也可能会对一些问题产生巨大的影响,这些问题包括我们如何看待自己、我们在人工智能的帮助下能做什么,以及我们与人工智能竞争时如何才能挣到钱。那么,这些影响是好是坏?短期内又会带来什么样的机遇和挑战?
在我们的文明中,备受珍视的一切都是人类智能的产物,所以,如果我们能用人工智能来创造新的产物,我们的生活显然可以变得更好。即使是很小的进展,也可能催生巨大的科技进步,并可能减少事故、疾病、不平等、战争、困苦和贫穷等问题。但是,若想收获人工智能的好处,又不想制造新问题,我们需要回答许多重要的问题,比如:
◦ 我们如何才能把未来的人工智能系统建造得比今天更加稳健,好让它们完成我们想要的事情,而不会崩溃、发生故障或被黑客入侵?
◦ 我们如何才能更新现有的法律体系,让其更加公平有效,并紧跟数字世界的快速发展?
◦ 我们如何才能让武器变得更加聪明,不会杀死无辜的平民,也不会触发失控的致命性自动化武器军备竞赛?
◦ 我们如何才能通过自动化实现繁荣昌盛,而不会让人们失去收入和生活目标?
本章接下来的部分将逐个探讨这些问题。这4个短期问题针对的对象分别是计算机科学家、法学家、军事战略家和经济学家。然而,若想恰逢其时地得到答案,那么每个人都需要参与到这场对话中来。因为,正如我们将会看到的那样,这些挑战超越了所有的传统边界——既超越了专业之间的藩篱,又跨越了国界。
故障vs.稳健的人工智能
信息技术对人类的所有事业领域都产生了巨大的积极影响,从科学界到金融业、制造业、交通运输业、医疗服务业、能源产业和传媒产业,但这些影响在人工智能的潜力面前,全都相形见绌。我们对技术的依赖性越强,人工智能的稳健性、可信度和服从度就变得越发重要。
纵观人类历史,为了让技术造福人类,我们一直依赖的是试错的方法,也就是从错误中学习。我们先发明了火,但意识到火灾无情后,才发明了灭火器和防火通道,组建了火警和消防队;我们发明了汽车,但由于车祸频发,后来才又发明了安全带、气囊和无人驾驶汽车。从古至今,技术总会引发事故,但只要事故的数量和规模都被控制在有限的范围内,它们就利大于弊。但是,随着我们不断开发出越来越强大的技术,我们不可避免地会到达一个临界点:即使只发生一次事故,也可能导致巨大的破坏,足以抹杀所有的裨益。有些人认为,可能爆发的全球核战争就是这样的例子。还有一些人认为,生物工程产生的瘟疫也算是其中一例。在第4章,我们将会探讨一个富有争议的话题——未来的人工智能是否会导致人类的灭绝。不过,我们不需要这些极端的例子就能得出一个重要的结论:随着技术变得越来越强大,我们应当越来越少地依赖试错法来保障工程的安全。换句话说,我们应当更加积极主动,而不只是亡羊补牢。我们应该投资人工智能的安全性研究,保证一次事故也不会发生。这就是为什么人类社会在核反应堆安全方面的投资远远超过对捕鼠器安全方面的投资。