饭饭TXT > 学习管理 > 《如何创造思维（出版书）》作者：[美]雷·库兹韦尔/译者：盛杨燕【完结】 > 《如何创造思维》作者：[美]雷·库兹韦尔.txt

第 7 页

作者：美-雷·库兹韦尔/译者：盛杨燕当前章节：15215 字更新时间：2026-6-22 12:18

在智能建模、学习和识别含有多层次结构的信息方面，乔治取得了巨大的进步。他称其系统为“递归皮质网络”，并打算将之应用到诸如医学成像和机器人技术等领域。从数学上来看，隐马尔可夫层级模型和层级储存系统非常类似，尤其是当我们允许隐马尔可夫层级模型自行组织不同模式识别模块之间的连接时，两者更为相像。隐马尔可夫层级模型还有另一个重要的作用，即通过计算当前模式存活的可能性，隐马尔可夫层级模型可以对输入信息的重要性进行等级建模。

最近我新开了一家名叫模式（Patterns）的有限责任公司，通过利用隐马尔可夫层级模型和其他一些相关技术开发智能的新皮质层级结构模型，从而理解识别自然语言。其中一个重要的出发点是设计出的模型可以像生物新皮质那样自行组建层级结构。我们设想的系统不仅可以顺利阅读各类资料，诸如维基百科和其他一些信息，还可以听懂你的每句话，识别你的每个字（如果你愿意写的话）。我们的目标就是让它成为你的一位良友，甚至不用问，它就能猜出你内心的疑问并作出回答，还可以随时为你的生活提供有用的信息和建议。

人工智能的前沿：登上能力层级顶端

1. 一个徒有其表、胸无点墨的演讲者冗长无趣的发言。

2. 为欣赏歌剧特意给孩子穿上的晚礼服。

3. 12年来胡鲁斯加国王的士兵不断被杀，官员贝奥武夫被派来解决这一难题。

4. 它可能是随着思维的发展而形成，也可能早在怀孕期就已形成。

5. 国际教师节和肯塔基德比赛马日（Kentucky Derby）。

6. 华兹华斯（Wordsworth）曾说它们不会漫步闲逛，一定会直飞云霄。

7. 固定在马蹄上的铁制品或赌场里发牌的盒子上印着的4个字母的单词。

8. 意大利歌剧作曲家威尔弟1846年创作作品中的第三场，情人奥黛贝拉受到了上帝的惩罚。

这些是节目《危险边缘》中的提问，沃森全部给出了正确的答案。答案是：甜酥饼式的长篇大论、围裙、格伦德尔、孕育、五月、云雀和鞋子。对于第8题，沃森先回答：“阿蒂拉是谁？”主持人回他：“能更具体吗？”沃森便明确答道：“匈奴王阿蒂拉是谁？”这就是正确答案。

计算机寻求《危险边缘》游戏提问线索的技术与我的颇为相似。计算机会先找到线索中的关键词，然后在自身的记忆中（在沃森的例子中，该记忆是指拥有15兆兆位的人类知识的数据库）寻找与关键词相匹配的话语。计算机会严密排查能从上下文信息中得知的那些排名靠前的搜索结果：类别名称、答案类型、时间、地点，以及提示信息中暗示的性别等。当计算机认为信息量足够确定答案时，便会给出答案。这一过程对《危险边缘》的参与者而言，既迅速又自然，而且我认为在回答问题时，大脑差不多也是如此运作的。

肯·詹尼斯,（《危险边缘》的冠军，后输给沃森）

我是欢迎机器人当霸主的人之一。

肯·詹尼斯（输给沃森后借用《辛普森一家》的台词）

天啊！（沃森）回答《危险边缘》的问题比一般参加者更聪明。这真让人惊讶！

塞巴斯蒂安·特龙（人工智能标准实验室前任负责人）

沃森什么都不懂。他只是一个大型蒸汽压路机。

诺姆·乔姆斯基

人工智能无处不在，发展形势也势不可当。通过短信、电子邮件或者电话与人联系这一简单行为就是用智能算法发送信息的。几乎每一款产品都是先由人脑和人工智能合力设计出来，再在工厂自动生产的。假设明天所有的人工智能系统都罢工了，社会便会瘫痪：我们不能正常从银行取款，存款自然也就化为乌有；通信、交通和生产也会全部中断。不过还好，我们的智能机器还没有聪明到能够策划这样的阴谋。

人工智能呈现出一种新特点，即该技术已经彻底改变了普通大众的生活。例如谷歌的无人驾驶汽车（截至本文写作时，该车已跑过20多万英里），这项技术可以提供明显减少撞车事故、提高道路流通率、降低开车时操作的复杂性等一系列好处。尽管无人驾驶汽车可能到本世纪末才会在世界范围内广泛使用，但只要这种汽车能遵循某些规定，它就可以在内华达的公共街道上合法行驶。汽车已配备了自动注意道路情况，以及提醒司机危险迫近的功能。该项技术有一部分基于大脑视觉处理模型，该模型由麻省理工学院托马索·波焦（Tamason Poggio）教授成功研发。波焦的博士后学生安农·沙思娃（Amnon Shashua）进一步开发了这一模型，研究出移动眼球（MobilEye）技术。这项技术能警告司机将会发生的碰撞或者有小孩在车前奔跑等危险状况。最近，沃尔沃和宝马等厂家生产的汽车已经安装了这种设备。

有几个原因使得我要在这部分集中讨论一下语言技术。毋庸置疑，语言分层的本质反映出我们思维分层的本质。口语是我们将要讨论的第一个术语，书面语是第二个。如本章所述，我在人工智能领域的工作便是以语言为中心的。掌握语言是靠大量积累而成的一种能力。沃森已经阅读过数亿网页，并且掌握了文档中所包含的知识。最终，机器能够掌握网上的所有知识——也就是人–机文明的全部知识。

鉴于计算机能够以文字信息进行正常的语言交流，英国数学家阿兰·图灵（Alan Turing）进行了以他名字命名的测试。图灵认为语言包含、体现了所有的人工智能，只借助简单的语言技巧，机器是无法通过图灵测试的。尽管图灵测试是一项涉及书面语的游戏，图灵却坚信计算机通过测试的唯一方法就是真正拥有与人类水平相当的智能。评论家提出，完整的人类水平智能测试应当包括掌握视、听信息能力的测试。因为我的很多人工智能项目包含了教计算机掌握如人类语言、字母形态以及音乐声音之类的感觉信息，因此我也十分支持在真正的智能测试中加入这些信息形式。但同时，我也赞同图灵最初的看法：图灵测试只进行文本信息的测试就足够了，因为在测试中增加视觉或听觉信息并不会增加该测试的难度。

即使不是人工智能专家，人们也会被沃森在《危险边缘》中的表现所震撼。虽然我明白沃森关键子系统中使用的方法，但这根本不会降低我观看他表现的好奇心。即使完全了解系统每一部分的工作原理——实际上无人做到这一点，也不能帮你预测沃森在某种情境下的实际反应。因为它包含了数百个互相影响的子系统，每个子系统又要同时处理数百万个相互矛盾的假设，所以我们不可能预测沃森的实际表现。如果要全面研究沃森的思考过程，一个3秒钟的问题就会让我们花掉数百年的时间。

继续讲我的故事。20世纪80年代末和90年代，我们开始研究某些领域对自然语言的理解。我们提供一种叫作“库兹韦尔声音”（Kurzweil Voice）的产品，你可以对着它讲任何你想讲的话，只要与编辑文档相关即可，例如“将前一页的第三段移动至此”。在这一有限却实用的领域中，库兹韦尔声音表现良好。我们还将这一产品延伸到医疗知识领域，医生可以借助它记录病人的报告。上述产品对放射学和病理学相关领域的知识也有足够的了解，如果报告有不清楚的地方，该产品就会向医生提出疑问，并在报告过程中引导医生。这些医疗报告系统已经发展为Nuance公司价值百万美元的企业项目。

鉴于自然语言理解在自动语音识别中的应用，自然语言理解已成为当下研究的主流。截至写作本书时，苹果 4S上自动个人助手Siri在移动计算机界造成了巨大影响。你可以吩咐Siri做任何智能电话可以做到的事情，比如“附近哪里可以吃到印度食品”，或者“给妻子发条短信说我正在路上”，或者“大家对布拉德·皮特的新电影有什么看法”。而且，大多数时候Siri都会回答。Siri还会发出少量没有实际意义的闲聊用来娱乐。如果你问它生活的意义何在，它会回答“42”，因为《银河便车指南》（The Hitchhiker’s Guide to the Galaxy）的粉丝把它作为“生命、宇宙和一切终极问题的答案”。沃尔弗拉姆·阿尔法会回答那些知识性问题（包括生活的意义），对此的描述详见后文。“聊天机器人”很多，它们什么事都不做只是闲聊。如果你想跟我们名叫拉蒙娜的聊天机器人聊天，请访问我们的网站KurzweilAI.net，并点击“与拉蒙娜聊天”。

有人向我抱怨Siri不能满足某些要求，但我发现这些人也总是不断抱怨人工服务。有时我建议他们跟我一起试用Siri，之后他们觉得Siri的表现超出了预期。这些抱怨让我想起了那条会下国际象棋的狗的故事。它的主人如此回答满腹疑惑的人：“是真的，它的确会下棋，只是结局比较惨。”Siri现在也开始遇到强劲的对手，比如谷歌语音搜索。

普通公众与掌上电脑进行自然对话是新时代的标志。人们往往会因为某物存在缺陷就对其予以否定，第一代技术也没有逃脱这种命运。即使多年后，此项技术成熟了，人们还是没有重视它，因为它早已过时。但事实上，Siri作为第一代技术的产物运行优良，而且这款产品会越来越受欢迎。

Siri使用的是Nuance基于马尔可夫层级模型的语音识别技术。自然语言的外延最先是由美国国防部高级研究计划署赞助的CALO项目开发的。Nuance的自然语言技术优化了Siri的功能，还提供了一项与Siri非常类似的技术——“游龙”（Dragon Go）！

理解自然语言使用的方法与理解隐马尔可夫层级模型有很多相似之处，实际上，隐马尔可夫层级模型本身的使用就很广泛。有些系统并没有明确标明使用的是马尔可夫层级模型还是隐马尔可夫层级模型，不过这两种模型工作的数学原理是完全一样的。它们都包含线性序列层级，其中的每个元素都有自己的权重、能够自我调试的连接，以及基于学习数据建构的全套智能系统。通常，在实际运用这些系统的过程中，学习得以延续。这一方法与自然语言的层级结构相适应——从词性到单词，到短语，再到语意结构，只不过是抽象概念的自然延伸。在参数上运行遗传算法也是有意义的，因为这些参数控制这种分层学习系统的精确学习算法，并选择最优化算法细节。

在过去10年中，创造这些分层结构的方法有了新的变化。1984年，道格拉斯·莱拉特（Douglas Lenat）踌躇满志地启动了循环（Cyc，代表enCYClopedic）项目，该项目着眼于创造能够整理日常“常识性”知识的规则。这些规则组成了庞大的层级结构，每条规则自身又包含一个线性状态链。比如，一条循环规则可能表示狗有一张脸。然后，循环便联系与脸型结构相关的一般规则：有两只眼睛、一只鼻子、一张嘴，等等。我们虽然希望创建额外的规则以区别狗的脸与猫的脸，但不需要为狗的脸创建一套规则，再为猫的脸创建另一套。这一系统还包括推导引擎：如果有规则规定猎犬是一种狗，狗是一种动物，动物要吃食物，那么我们问推导引擎猎犬吃不吃东西，它会给出肯定回答：猎犬要吃食物。在未来20多年中，集千人之力，将有十多亿条这类规则被编写、测试。有趣的是，编写循环规则的语言，即Cycl，几乎与LISP语言完全一样。

与此同时，对立学派认为理解自然语言，或者是创建一般意义上的智能系统最好的办法就是通过自动学习，也就是让系统处理与系统设计目的相符的巨量信息。证明这一观点最有力的例子就是谷歌翻译，它可以在50种语言间互译。尽管谷歌翻译包含了2500种不同的翻译方向，但大多数语言并不能直接互译，翻译仍然需要以英语为中介语言。因此，谷歌需要的译员就减少到98位（外加少量与英语不匹配、可以直接互译的译员）。谷歌译员并不使用语法规则，而是为每一对语言的普通互译创造大型数据库，其基础是“罗塞塔石”语言库中两种语言间的翻译文档。对于6种联合国官方语言，谷歌使用的是联合国的文件资料，因为这6种语言的资料都会出版；对于不那么常用的语言，谷歌就使用其他资源。

结果往往让人惊讶。美国国防部高级研究计划署每年都会举行不同语言间最佳自动语言翻译系统竞赛，谷歌翻译经常在某些语言翻译竞赛中胜出，因为它打败了那些以语言学家发现的语言规则为基础的系统。

过去10年有两大观点对理解自然语言产生了重大影响。第一个观点与层级结构有关。尽管谷歌的方法从对应语言间词语的序列开始，但其运行必然受到语言内部层级本质的影响。那些在方法上使用了层级学习（如隐马尔可夫层级模型）的系统明显表现得更好，但这样的系统不是自动建立的。人类一次只能学习一个抽象层级，电脑系统也一样，因此我们要仔细控制学习进程。

第二个观点是手动建立的规则较为适合普通基本知识的核心部分。这种方法翻译的短文常常更精确。比如，在短文翻译方面，美国国防部高级研究计划署将基于规则的中译英译员排在谷歌翻译前面。对于语言的尾巴，即那数百万个不常用的短语和概念，基于规则的系统翻译的精确度低得让人难以接受。如果我们以训练数据量为参数绘制自然语言理解精确度的图表，基于规则的系统最初性能很高，但随后精确度就降低到70%。与此相对，基于语料库的翻译系统的准确度高达90%，但需要庞大的数据库作为支撑（见图7—15）。

注：自然语言识别系统的准确率是训练数据容量的一个函数。提高该系统准确率的最好方法就是将两者结合：对语言的核心部分，我们用人工规则对其加以规定；对语言的其他“分散”规则，我们则需通过数据统计的方法对其加以规定。

我们常常需要将基于少量训练材料的中度性能与获得数量更多、更精确的翻译的机会相结合。迅速获得中度性能使得我们能在某一领域嵌入系统，然后自动收集人们使用该系统后留下的数据。这样，人们使用系统时系统也能大量学习，精确度就会有所提高。要反映语言的本性，这种数据学习就得充分分层，而语言本质也反映了人脑的工作机制。

这也是Siri和游龙的运行机制——对最常见的和特定的语言现象使用规则翻译法，然后学习语言“尾巴”在实际生活中的用法。循环团队在以人工编码为基础改进系统遇到性能瓶颈时，也采用这一方法。人工编码的规则有两个必备的功能。首先，它们一开始就能提供足够的原始精确度，这样试运行系统就能广泛应用，并在使用过程中自动优化升级。其次，它们能为级别较低的抽象层级提供坚实的基础，这样智能学习就能习得更高概念层的知识。

如上所述，沃森是人工编码规则与分层数据学习结合的典型例子。IBM将许多自然语言节目结合起来创造了一个可以玩《危险边缘》游戏的系统。2011年2月14日至16日，沃森与两位名列前茅的参与者竞赛——布兰德· 拉特尔在竞猜节目中赢得的奖金无人能及；肯·詹尼斯曾赢得《危险边缘》的冠军，这一纪录保持了75天。

20世纪80年代中期，我完成了第一部著作《智能机器时代》。在书中，我曾预测电脑会于1998年成为国际象棋冠军。我还预测到那时我们要么降低对人类智力的看法，提升对机器智能的看法；要么降低国际象棋的地位。如果历史是一位向导，我们会将象棋最小化。这些事在1997年都应验发生了。当IBM的超级国际象棋计算机“深蓝”战胜了人类国际象棋冠军加里·卡斯帕罗夫时，我们立即面对这样的争辩：电脑会赢也是情理之中的事，因为电脑是有逻辑的机器，而国际象棋又是具有逻辑性的游戏。这样，深蓝的胜利显得既不让人惊讶，也不再那么重要了。许多评论家继续争辩，提出电脑永远不能掌握人类语言的细微差别，包括暗喻、明喻、双关修辞、语意双关和幽默。

这也是沃森的胜利具有里程碑意义的原因：《危险边缘》是一个相当复杂、极具挑战性的语言游戏。《危险边缘》中的提问包括了许多人类语言的奇怪变体。许多人可能不会相信，沃森不仅正确回答了那些千奇百怪、复杂难解的问题，而且它利用的大部分知识都不是手工编码的。沃森之所以成功，是因为它阅读过两亿页自然语言材料，其中包括维基百科的所有网页和其他百科全书，足足有4兆字节。正如本书读者所了解的那样，维基百科不是用LISP或者Cycl写成的，而是包含歧义和复杂逻辑的自然语句。在对问题作出回应时，沃森会参考这4兆字节资料，然后回答问题（我发现《危险游戏》寻找答案的过程其实是在寻找问题，但这只是一个技术性问题——答案其实也是问题）。如果沃森能够在3秒内，在两亿页知识的基础上理解并对问题作出反应，那类似的系统也能在网上读取其他上亿个网页资料。实际上，人们正在为此而努力。

20世纪70年代到90年代，我们在研发字符和语言识别系统以及早期的自然语言理解系统时，“专家经理”这个方法占据了主导地位。我们研发不同的系统、运用不同的方法，但解决的是同一个问题。系统之间的差别有时很小，譬如只是控制学习算法的参数不同而已；但有些差别确实很大，例如用以规则为基础的系统代替以分层统计学习为基础的系统。“专家经理”本身也是一个软件，通过实时测试性能，总结出这些不同程序处理问题的优缺点。它认为这些系统的优点呈现正交分布：即一个系统在这方面是强者，在其他方面就是弱者。实际上，在调整后的“专家经理”的管理下，这些系统整体的表现远远好于单个系统的表现。

沃森的工作方式也是如此。借助非结构化信息管理框架（UIMA），沃森设计了几百个不同的系统。沃森系统中很多的个体语言组成与大众使用的自然语言理解系统是一样的，这些系统要么直接对《危险边缘》的提问给予回答，要么至少简化某些提问。UIMA就像一个“专家经理”，需要智能整合不同系统的运算结果。但它远远超越了那些早期系统，如Nuance的前身研发出的系统，因为就算它的个体系统没有提供最终答案，这些系统还是能为最终结果献出自己的一份力量——只要能缩小解决方案的范围就足够了。UIMA能计算出得出最终答案的概率。人脑也能这样——在问到母亲的姓氏时，我们对自己的答案会很自信，但是要说出很多年前偶然遇到的那个人的姓氏时，我们就没那么自信了。

因此，为了找到一个能够理解《危险边缘》中固有的语言问题的优雅方法，IBM的科学家将他们能得到的所有艺术语言理解状态模型结合在一起。有些人利用隐马尔可夫层级模型；有些人采用隐马尔可夫层级模型的数学变体；另外一些人则运用规则方法直接编码一套可靠规则。UIMA根据每个系统在实际使用过程中的表现，以最优的方式对不同系统进行整合。但是公众对沃森系统有一些误解，他们认为IBM创造沃森系统的专家们太过关注UIMA，即他们所创造的专家经理。有些评论家认为沃森系统并没有真正理解语言，因为很难知道理解位于哪个部分。尽管UIMA也会借鉴自己以前的经验，但沃森对语言的理解并不仅仅位于UIMA，而是分散在很多组成部分中，包括使用与隐马尔可夫层级模型同样方法的智能语言模块。

在决定应在《危险边缘》游戏中下多大的赌注时，沃森技术的某个特定部分会使用UIMA的信心指数评定系统。虽然沃森已特意为这种游戏升级了系统，但核心语言—知识—搜索技术却能执行更多的任务。有人肯定会认为掌握不常用的专业知识，如医学知识，要比掌握那些玩《危险边缘》游戏所需的大众化知识更难。然而事实却恰恰相反：专业知识的脉络更加清晰，结构更加完整，而且相对来说，信息歧义程度较低，所以沃森可以非常容易地理解这些精准的自然语言。IBM公司目前也正与Nuance公司联手打造面向医学用途的沃森系统。

沃森在玩《危险边缘》这个游戏时的系统对话非常简单：出现一个问题，沃森寻找相应的答案，从技术上来讲，就是提出问题并给出答案。在一个对话中，沃森并不需要回顾所有对话者之前的谈话内容（Siri系统则需要回顾部分内容：如果你要求它给你的妻子发条短信，第一次，它需要你指认你的妻子，但以后就不需要你重复指认了）。虽然回顾对话中的所有消息——这显然是一个需要通过图灵测试的任务，是一个额外却很重要的任务，但是任务难度并不比沃森的提问回答任务高。毕竟，沃森已经阅读了数百万页的读物，其中自然包含了很多故事，所以它能够追踪复杂的序列事件。沃森也应该可以追溯自己以往的对话，并在下次回答问题时将其列入知识库。

《危险边缘》的另外一个缺点是问题的答案都比较简单。例如，它不会要求竞猜者归纳《双城记》（A Tale of Two Cities）的5个主题。针对这个问题，沃森会找到讨论小说主题的相关文件，并整理出自己的答案。通过自己读书找到答案，而不是抄袭其他思考者的观点（即使没有书面文字），这又是另外一个问题。如果要让沃森自己读小说找到答案，目前来说，对沃森而言显然是一个更高水平的任务，而前者就是我所谓的图灵水平测试任务（需要指出的是，大部分人对此也没有自己的原创观点，而是吸收借鉴了同辈或者专业人士的观点）。现在是2012年，不是2029年，所以我不会期待沃森可以回答图灵智力水平测试这一难度的问题。而且我还要指出：概括小说主题这种级别的问题并不是简单的任务。对于谁签署了《独立宣言》这样的问题，我们可以对其给出的答案作出正确或者错误的判断。但是对概括小说主题这样高难度的问题，我们无法轻易判断其答案的正确性。

值得注意的是，虽然沃森的语言能力低于受教育者的语言能力，但是它却可以成功打败在《危险边缘》中表现最好的两个选手。成功的秘诀在于：借助其拥有的完美回忆功能和准确记忆能力，沃森可以将它的语言技能和知识理解能力完美结合。这就是我们要将个人的、社会的或者历史的信息储存在沃森系统内的原因。

我并不打算论述我的推测——到2029年计算机能够通过图灵测试，但是从目前诸如沃森系统取得的进步来看，图灵等级的人工智能应该能够实现。如果有人可以研制出为图灵测试优化的沃森系统，那便离我们目标的实现又近了一步。

美国哲学家约翰·塞尔（John Searle）最近提出了一个论点：沃森不具备思考的能力。他援引了自己名为“中文屋”（Chinese room）的思想实验（将在第11章详细阐述），说明沃森只是能够熟练地运用那些符号，却不能真正理解那些符号背后的意思。实际上，塞尔并未正确地描述沃森这个系统，因为沃森对语言的理解不是基于对符号的理解，而是基于分层数据过程。假如我们认为沃森系统的智能过程只是熟练地运用符号的话，塞尔的评价就是正确的。但如果真的是这样的话，人脑也就不能思考了。

在我看来，那些批评沃森只会对语言进行数据分析，而不能像人类那样真正理解语言的批评家是非常可笑和滑稽的。人脑在处理各种各样的假设时，也是基于数据信息（新皮质层级结构的每一层都是如此），并通过分层数据分析的方法处理信息的。沃森和人脑都是借助分层理解来学习和作出反应。在很多方面，沃森的知识要比单个人的知识丰富得多，没有哪个人敢说自己掌握了维基百科内的所有知识，而维基百科内的知识只是沃森知识库的一部分。与此相反，每个人掌握的概念层次要比沃森多，但是这种差距是可以跨越的。

Wolfram Alpha是衡量处理组织化信息计算能力的重要系统，这个知识引擎（与搜索引擎相对）是由英国数学家、科学家沃尔夫勒姆博士与他的沃尔夫勒姆研究中心（Wolfram Research）的同事一起开发的。例如，如果你问Wolfram Alpha （在Wolfram Alpha.com这个网站上） “0 ~1000000范围内有多少个质数”，它会回答：“78498。”它并不是从系统中搜寻答案，而是自行算出答案，并在答案的下方列出计算所用的公式。如果你在一般的搜索引擎页面上输入同样的问题，它只会给出你所需算法的链接，并不会直接给出答案。之后你还需要将那些公式输入Mathematica这样的软件中进行运算，虽然后者也是沃尔夫勒姆博士开发的，但是与直接询问Alpha相比，后者要做的工作（需要理解的东西）明显要多得多。

实际上，Alpha包含了1500万条Mathematica 语句。Alpha 从将近10万亿字节的数据中计算出答案，沃尔夫勒姆研究中心的员工们仔细整理过这些数据。你可以向Alpha询问很多实际的问题，例如：“哪个国家的人均GDP值最高？”它会回答：“摩纳哥，人均212000美元。”再如：“史蒂芬·沃尔弗拉姆多大了？”它会回答：“在我写下答案的当天，52岁9个月零两天。” Alpha 也是苹果Siri系统的一部分。如果你向Siri提一个实际的问题，它就会启动Alpha来处理你的问题。Alpha 也负责处理微软公司必应搜索引擎接收的一些提问。

沃尔夫勒姆博士在自己最近的一篇博文中写道：Alpha现在处理问题的准确率可以达到90%。他同时写到，以大约18个月为半衰期，Alpha的错误率也大大降低了。Alpha是一个令人印象深刻的系统，它不仅采用人工编程的方法，还采用了人工搜索数据的方法。这就解释了我们发明计算机的原因。随着科学、数学方法的发现和汇编，计算机在处理此类问题时要远远强于单纯的人类智力。Alpha系统已经收纳了大部分科学方法，而且还在不断更新着从经济学到物理学各种各样知识的最新发展状况。在我和沃尔夫勒姆的一次个人谈话中，他估计如果沃森使用的那些智能方法正常工作时正确率大约为80%，Alpha则可以达到90%。当然，这些数字都具有一定的自我选择倾向，因为使用者（例如我自己）已经知道Alpha系统擅长哪类问题，同样的因素也影响智能系统的评价。沃森在《危险边缘》这个游戏中回答问题的准确率可能是80%，但即使只有80%，也足以打败该游戏最强的人类竞争者。

就像我在思维的模式认知理论中提到的那样，这些智能的方法需要理解我们在实际生活中遇到的那些非常复杂但又很模糊的层级信息，人类的语言当然也包含在内。智能系统的完美结合则需要在准确的科学知识和数据的前提之下，运用思维的模式识别理论（据我看来，思维模式识别是人脑的工作机制）对不同层级的智能进行综合。这样我们就可以用计算机阐释人类，智能在日后也能继续发展。对生物智能而言，虽然我们的大脑新皮质具有很强的可塑性，但是新皮质自身的物理特性限制了其潜力的发展。将更多的新皮质植入我们的前额无疑是一个非常重要的进化创新，但是目前我们还不能轻易增加额叶的容量，即使只增加10%也很困难，更别说扩大1000倍了。从生物意义上说，我们不能完成这项创新，但是从技术层面来讲，这项创新是可行的。

创造思维的策略

我们的大脑拥有数十亿个神经元，但什么是神经元呢？简单地说就是细胞。如果神经元之间没有建立连接机制，大脑就没有知识。神经元之间的连接决定了我们可以知道什么，我们到底是谁。

蒂姆·伯纳斯·李

现在让我们用上面讨论过的知识来构建人工大脑。首先，我们需要构建一个符合某些必要条件的模式识别器。接下来，我们会复制识别器，因为我们拥有记忆以及计算源。每个识别器计算出模式被识别出的概率。这样，每个识别器考虑了观察到的每个输入的数值（某种连续变量），然后将这些数据跟与每个输入对应的习得数据和数值变化程度参数进行比较。如果计算出的概率超过了临界值，识别器就会激活模拟轴突。我们用遗传算法优化的参数就包括这个临界值以及控制计算模式概率的参数。识别模式并不需要每个输入都有效，因此，自联想识别就有了空间（某个模式只要展现出一部分，我们就可以识别整个模式）。我们同样也允许存在抑制信号，即暗示模式根本不可能的信号。

模式识别向该模式识别器的模拟轴突发送有效信号。此模拟轴突反过来又会与下一个更高层次的概念级别的一个或多个模式识别器建立连接。下一个更高层次的概念级别连接的所有模式识别器就会将这种模式当成输入。如果大部分模式被识别，每个模式识别器还会向低层概念级别传递信号——这表明剩余的模式都是“预计”的。每个模式识别器都有一条或多条预设的信号输入通道。当预计信号以这种方式被接收时，模式识别器的识别临界值就降低了，也就更容易识别。

模式识别器负责将自己与位于概念层级结构上、下层级的模式识别器“连接”起来。需要注意的是，所有软件实现的“连接”都是通过虚拟连接而并非实际线路实现的（类似于网络连接，本质上是记忆指针）。实际上，这类系统比生物大脑系统更为灵活。人脑中出现新模式时，就需要对应生物模式识别器，还需要实际的轴突枝晶链接与别的模式识别器建立连接。通常人类的大脑会选取一个跟所需连接十分类似的连接，并在此基础上增加所需的轴突和树突，最后形成完整的连接。

哺乳动物的大脑还掌握另一种技术，即先建立很多的可能性连接，然后再剔除那些无用的神经连接。如果一个皮质模式识别器已经承载了某种旧模式，而生物新皮质又为这个模式识别器重新分配了最新信息，那么这个皮质模式识别器就需要重新构造自身的连接。这些步骤在软件中很容易实现。我们只需要为这个新的模式识别器分配新的记忆存储单元，并基于新的记忆存储单元构造新的连接。如果数字新皮质想要将皮质记忆资源从一个模式系列转到另外一个模式系列，它只需将旧模式识别器纳入记忆，再重新分配记忆资源即可。这种“垃圾回收”和记忆再分配是很多软件系统构建的显著特征。在数码大脑中，在我们从活跃的新皮质剔除旧记忆之前，数码电脑首先会对旧的记忆进行复制，而这是生物大脑无法做到的。

很多数学技术可用于构建这种自组织层级模式识别。基于多种考虑因素，我最终选择了隐马尔可夫层级模型。从我将其应用在最初的语音识别和20世纪80年代的自然语言系统中开始，我对这一模型已有数十年的研究。从整个领域来看，隐马尔可夫模型在处理模式识别问题时比其他方法的应用范围更加广泛，而且它还被用到理解自然语言的研究当中。许多NLU系统用到的技术在数学意义上与隐马尔可夫层级模型非常类似。

需要指出的是，所有的隐马尔可夫模型都是层级性的，其中一些包含的层级较少，例如只包含3层，从发音到音素再到词汇。为了模拟大脑，我们则需要根据要求建立许多新的层级结构。而且，大部分隐马尔可夫模型并不是完全智能的。尽管有一些连接的重要性为零，这些系统却有效地减少了初始连接的数量，不过，系统仍有一些固定的连接。20世纪80年代到90年代开发的系统已经能够自动剔除某个固定等级之下的连接，它们也可以建立新的连接，从而更好地对数据样本进行建模，学习新知识。很关键的一点就是允许系统根据自己学到的模式灵活地调整自身的拓扑。我们也可以利用数学上的线性规划为新的模式识别器指定最优连接。

我们的数码大脑还允许一种模式反复出现，尤其是那些经常出现的模式，这就为我们识别常用模式，或是表现形式不同的同一种模式提供了坚实的基础。但我们还需要设定冗余界限，以保证系统对常用低级别模式的储存不会占用太多空间。

冗余规则、识别临界值和对“这一模式是预计的”临界值设定的影响，是影响自组织系统性能的重要参数的几个例子。最开始的时候我是凭直觉设定这些参数，之后再用遗传算法对其进行优化的。无论是生物大脑还是软件模拟的大脑，大脑的学习能力都是一个值得重视的问题。在前面我已经提到，一个层级模式识别系统（不管是数字的还是生物的）可以同时学习两个优选的同一级别的层级结构。为了使系统完全智能化，我首先会采用之前已经测试过的层级网络，该网络在识别人类语言、机打信件和自然语言结构任务时，学习能力已经得到了训练。不过,虽然这个系统可以识别自然语言写成的文件，但一次只能掌握一个层级上的信息。系统学到的上级知识会为下级知识的学习奠定基础。系统可以反复学习同一个文件，每次阅读都会学习到新知识，这跟人们的学习过程有些类似——人们也是在对同一资料的反复阅读中加深对它的理解。网络上有数十亿页的信息，仅英文版的维基百科就有400万篇文章。

我还会提供一个批判性思维模块，这个模块可以对现存所有的模式进行连续不断的后台扫描，从而审核该模式与该软件新皮质内其他模式（思想）的兼容性。生物大脑没有这样的模块，所以人们能够平等地对待所有的片段性信息。在识别松散的信息时，数字模块会试图在它自己的皮质结构和所有可用的信息中寻找解决方法。在这里，解决的办法可能仅指判断这松散信息中的某一部分不正确（如果与该信息相对立的信息在数量上占优势）。不仅如此，该模块会在更高概念层次上，为解决这种信息的矛盾性提供方法。系统会将解决方法视为一个新的模式，并与引发这个搜索的问题建立连接。该批判性思维模块会一直在后台运行。如果人类大脑也有这样的模块，那该多好。

同样，我也会提供一个识别不同领域内开放性问题的模块。作为另外一个连续运行的后台程序，它会在不同的知识领域内寻求问题的解决方案。我前面已经指出，新皮质内的知识由深层次嵌套网状模式组成，因此具有隐喻性特征。我们可以用一种模式为另外一个毫不相关领域的问题提供解决方法。

我们回顾一下第4章提到的隐喻的例子，用某种气体分子杂乱无章的运动来隐喻某种进化过程中杂乱无章的变化。虽然气体分子的运动没有明显的方向，但是聚集在高脚杯内的分子如果有了足够的时间，最终会跑出高脚杯。这也解决了智力进化过程中的一个重要问题。就像气体分子一样，具有进化意义的变化并没有明确的目的。但是我们能看到这种变化正朝着更复杂和更高级的智力方向发展，最终达到进化的最高端，即新皮质具备层级思考的能力。因此我们能够弄清楚某个领域内（生物进化）没有目的和努力方向的进程是怎样完成一个精确目标的。以此为基础，我们也就可以了解其他领域内相似的进程，例如热力学领域。

我之前已经提到过查尔斯·赖尔的论断——经过长时间的流水侵蚀，岩石会被侵蚀为山谷，这促使查尔斯·达尔文作出了自己的论断，即经过不断的变化，物种的生物特征也许会发生天翻地覆的变化。这种隐喻性的搜索又是另一种持续运转的后台程序。

为了提供结构思维的对等体，我们需要提供能同时处理很多歌曲列表的方法。列表可能就是对问题解决方法必须满足的限制条件的说明。

解决问题的每一步都可能会对现有的思维层级结构进行反复搜索，或者说对现有文献进行反复搜索。人脑一次只能同时处理4个列表（在没有计算机辅助时），但人造新皮质却没有这样的限制。

我们还要借助计算机擅长的智能来完善我们的人造大脑，例如计算机可以准确掌握大量知识，快速、高效地运用已知算法。Wolfram Alpha整合了许多已知的科学算法，并将它们应用于处理已经仔细整理过的数据。如果沃尔夫勒姆博士能够找到降低该系统错误率的方法，这个系统仍然有巨大的发展应用空间。

最后，我们的新大脑还需要拥有一个包含很多小目标的大目标。对生物大脑而言，我们继承了由旧脑快乐和恐怖中心设立的目标。为了促进物种的繁衍生息，这些早期目标在生物进化过程中早已被设定，但是大脑新皮质的出现使得我们可以超越早期目标。沃森就是为《危险边缘》这个游戏而生的。另外一个目标就是通过图灵测试。为了达到目标，数码大脑需要像人类那样，阐述自己的故事，从而成功地假扮成生物人。数码大脑有时还要装聋作哑，因为任何移植沃森知识的系统很快就会露出马脚，让人发现其不是生物人。

更为有趣的是，我们可以赋予新大脑更具野心的目标，即美化世界。当然，这个目标会引发一系列的思考：为谁美化？在哪一方面美化？为人类？还是所有有意识的生物？评价有意识的标准又是什么？

仿真大脑在改变世界进程中的地位越来越重要。毫无疑问，与未进化的生物大脑相比，仿真大脑在改变世界的进程中发挥了更大的作用。不过，我们还需要思考仿真大脑的道德意义。我们可以从宗教传统中的黄金法则开始讨论这个问题。

08 计算机思维的4大基础

我们的大脑外在形态好似一块法国乡村面包，内在像是一个拥挤的化学实验室，充斥着无间断的神经元对话。可以把大脑想象成一堆发光的存在；一个鼠灰色的细胞“议会”；一个梦工厂；一个住在球状头骨内的小小君王；一团杂乱的神经细胞，微小但无处不在，导演着一切人生戏剧；一个变幻无常的乐园；或是一个名叫“头骨”的“衣橱”里塞满了各式各样名叫“自我”的“行头”，挤得皱皱巴巴的，仿佛小小的运动随身包里装了太多衣服。

戴安·艾克曼

大脑会存在是因为为了维持生存必须对资源进行分配，而且随着空间和时间的变化，威胁生存的因素也在不断变化。

约翰·奥尔曼

现代大脑地图给人一种有趣的古旧感——就像一张中世纪的地图，已知世界被散布着不知名怪兽的未知之地环绕。

大卫·班布里基

在数学中你并没有理解什么东西，你只是习惯了它们而己。

约翰·冯·诺依曼

自从20世纪中期电脑出现以来，关于电脑的能力极限，以及人脑能否被视为一种形式的电脑的争论就没有间断过。对于后一个问题，舆论共识已经发生转变，从认为这两种信息处理实体在本质上是相同的，转变为认为两者存在本质上的不同。那么大脑是否可被视为电脑呢？

20世纪40年代，电脑开始成为时髦的话题，它们被视为思考机器。1946年，世界上第一台电子数字积分计算机ENIAC发布，它被媒体称为“巨脑”。随着电脑在接下来的几十年里走入大众市场，广告常常称其为普通人脑无法企及的、拥有超能力的“大脑”（见图8—1）。

设置

手机

书架

书页