饭饭TXT > 学习管理 > 《数字化生存》作者：尼葛洛庞帝/Negroponte【完结】 > 《数字化生存》作者：尼葛洛庞帝（Negroponte）.txt

卖了。在有利可图的数字电视制造争霸战中，目前看来，电脑在第一回合就被击倒了。.4

作者：尼葛洛庞帝/Negroponte 当前章节：15371 字更新时间：2026-6-18 14:30

改变，但是还不够快。图像总要慢半拍才出现。

三维电脑图形刚出现的时候，人们使用各式各样的立体眼镜来达到观看效果，有时

是廉价的偏光镜片，有时则是较昂贵的电子快门，会轮流让双眼接收不同的影像。我还

记得，我第一次操作这类装置时，所有的人——不是大多数人，而确确实实是每个人—

—生平第一次戴上这种眼镜、并在屏幕上看到立体图像后，都会把头转来转去，想看看

图像怎么变。结果就和看立体电影一样，图像并没有改变。把头转来转去没什么用。

人们这种“扭动脖子”的自然反应正说明了一切。虚拟现实必须紧密配合对用户的

动作和所在位置的感应，让观看者能够引发图像的变化，而不是完全由机器来控制。重

要的莫过于电脑能跟踪头部的转动并能回应它的快速变化。图像更新的速度（频率响应）

实际上比分辨率更为重要。由此可见我们的运动神经系统是多么敏锐，即使最轻微的反

应迟钝也会破坏整个感官经验。

大多数的制造商大概都会完全忽略这一点，而把早期拼命强调图像的高分辨率的虚

拟现实系统推向市场。这样做的结果是牺牲了响应速度。其实，假如他们减少图形显示，

加强图像的防锯齿技术，并且加快响应速度，那么他们所提供的虚拟现实体验将会更加

令人满意。

另外一个办法是，完全放弃为左右眼分别提供不同透视影像的头戴式显示器，而改

用所谓的自动立体效果技术，让真实的物体或全息影像在空中浮现，使双眼一起收视。

《星球大战》与全息术

到下个1000年中的某个时候，我们的孙子或曾孙将以一种新的方式观看足球比赛

（如果还那样叫的话）。他们会在咖啡桌（如果还那样叫的话）旁来回移动，让8英寸高

的球员在起居室（如果还那样叫的话）中任意驰骋，把一个半英寸高的足球踢来踢去。

这个模式与早期虚拟现实的想法完全相反。无论你从哪个角度观看，都能享受极高的分

辨率。无论你朝什么地方看，你看到的都是在空间浮动的三维像素。

在《星球大战》（StarWars）这部影片中，R2D2就用这种方式，把莉亚公主的影像

投射在欧比王的地板上。美丽的公主变成了投射在空间中如幽灵般的幻影，从任何角度

（原则上说）都能看得见。这种特殊效果，就像《星际旅行》和其他科幻电影中的类似

效果一样，无意间造就了一批对全息一类技术麻木淡漠的观众。我们在电影中看过太多

类似的镜头，因此误以为这种技术很容易。

事实上，发明白光全息术（今天这种技术普遍用在信用卡上）的麻省理工学院教授

斯蒂芬.本顿花了二十多年的时间，借助于价值上百万美元的超级计算机的力量，运用了

几乎无价的特殊光学仪器，再加上十几位出众的博士生孜孜不倦的努力，才得到了（与

你在电影中所看到的）类似的效果。

全息术（holography）是匈牙利科学家丹尼斯.盖博于1948年发明的。用最简单的话

来说，全息图像（hologram）就是把一个情境中所有可能的景象聚集在一个光调制模式

下的单一平面上。随后，当光束通过这个平面、或被这个平面反射的时候，原先的景像

会在空间中以光学方式重组，成为立体影像。100万倍的分辨率

在不断改进显示技术的精益求精的竞赛中，全息术一直是一匹实力难测、有可能后

来居上的黑马。其中一个原因是全息术要求极高的分辨率。你的电视应该有480条可见的

扫描线（也可以比这少得多），假如你的电视屏幕的高度是10英寸，那就是说你的电视

机（在最佳状态下）每英寸有差不多50条扫描线。全息术需要的分辨率是每英寸5 条

扫描线，即需要比你的电视机高出1000倍的水平扫描线。更糟的是，分辨率意味着在水

平和垂直方向同时扫描，这样全息术所需要的分辨率就是今天电视的1000倍，也就是10

0万倍。你在信用卡甚至某些国家的钞票上能看到全息影像的原因之一，正是因为这种分

辨率需要非常复杂、难以仿造的印刷技术。

本顿和他的同事们之所以在全息技术方面有所建树，是因为他们聪明地找出了人类

的眼睛和感觉系统真正的需求，并把它与自然的全息图像所能制造的东西加以对照。既

然人类的眼睛是影像的接收器，那么向它呈现大多它无法分辨的细节就是一种愚蠢的做

法了。同样地，本顿注意到我们注视空间中正在形成的影像（从空间中取样）的方式，

和我们注视电影中单个画面（以时间来取样）的方式如出一辙。慢动作的影像差不多是

每秒30帧画面（60个扫描场）。由此，与其制造一个能够反映所有视点的全息图像，不

如把它做成每英寸上有一个视点而省略掉中间的其他数据的影像。他成功了。

除此以外，本顿和他的同事们还注意到，我们的空间感在很大程度上是一种水平空

间感。由于并列的双眼的视差，而且由于我们的视线总是沿着近平水平的方向移动，因

此在我们对空间的感觉中，水平视差比垂直视差（上下的变化）重要得多，水平视差所

捕捉的空间信号占了绝大多玖。假如我们的眼睛是一只叠在另一只的上面，或是我们经

常在树上爬上爬下，情形或许不同。但事实却非如此。事实上，水平视差对视觉的影响

太大了，本顿后来决定根本不去考虑垂直视差的问题。

因此，媒体实验室所展示的全息影像几乎都没有垂直视差。当我们向来访的人介绍

本顿实验室外悬挂的一组全息样品时，他们根本没有注意到这些样品是没有垂直视差的。

事实上，一旦我告诉他们这些图像没有垂直视差时，他们都会弯下腰来、再踞起脚尖反

复地细看，最后才真的相信。

空间取样结合水平视差（完全忽略垂直视差）的结果是，在本顿小组的手中，与制

造一个全分辨率的全息影像相比，如今只需要：％的电脑计算能力，就能得到这种新的

影像。由于这个原因，他们制造出了全世界第一个全彩的、由有深浅明暗变化的形体所

构成的实时全息影像。它自由地漂浮在空中，其大小和形状相当于一个茶杯或“矮胖”

的莉亚公主。整体大于部分之和

显示的质量确实不单和视觉有关。它是一种典型地运用了其他感官体验的收视经验。

各种感宫构成的整体的确大于部分之和。

在高清晰度电视刚刚萌芽的时候，当时在媒体实验室工作的社会科学家拉斯.纽曼进

行了一个划时代的实验，测试观众对显示质量的反应。他安装了两套一模一样的高清晰

度电视和录像机系统，放映一模一样的高质量录像带。不过，他在A组用的是录像机的普

通音质和电视机的小扬声器，而在日组中，则使用了很棒的扬声器，可以播放出比CD还

要好的音质。

结果令人吃惊。许多实验对象报告说日组的图像清晰得多。事实上，两组影像的品

质完全一样。但B组的收视经验却好得多。我们倾向于把感官经验作为一个整体来加以判

断，而不是根据各个部分的经验来加以判断。虚拟现实系统在设计上有时忽略了这个重

要的观察结果。

在设计军事坦克训练器的时候，人们花了很多心血，来达到最高的显示质量（几乎

不计任何代价），希望获得的效果是，当你注视显示器的时候，几乎就和从坦克的小窗

口看出去一样。这个想法挺好，但在不断增加扫描线数目上进行了艰苦卓绝的努力之后，

设计师才想到可以引入一种价格低廉、会稍稍震动的运动平“台。设计师又在此基础上

增加了一些额外的感官效果——坦克的马达声和轧过地面的声音棗结果整体感觉十分逼

真，设计师因此可以减少扫描线的数目，而不会影响整体视觉效果。无论如何，这个系

统看起来和感觉起来很真实，已经超过了原来的要求。

经常有人间我，为什么我吃东西的时候要戴着眼镜，因为我显然不需要眼镜，也能

看得见食物和刀叉。我的回答很简单，当我戴着眼镜的时候，食物显得更加美味可口。

能够清楚地看见食物是饭菜质量的一部分。

“看”和“感觉”相得益彰。

4、看和感觉让电脑看得见

跟装了传感器（sensor）的现代盥洗室或户外泛光灯比起来，个人电脑对人的存在

的感觉真是迟钝。便宜的自动对焦相机要比任何终端或计算系统都更清楚面前的景象，

因而拥有比电脑更高的智能。

当你从电脑键盘上抬起手来的时候，键盘不知道你是因为思考而暂停、是自然的休

息，还是跑出去吃午饭了。它分辨不出是在和你一个人讲话，还是它面前还站着另外6个

人。它也不知道你究竟是穿着晚装或宴会装，还是一丝不挂。因为如此，所以当它正在

屏幕上显示重要信息时，你可能正好背对着它；或是当它正在和你说话时，你可能正好

走开，根本没听见。

我们今天的着眼点完全放在如何使电脑更容易为人使用上。也许现在是问这样一个

问题的时候了：怎样才能使电脑更容易与人相处？打个比方，假如你不知道谈话对象究

竟在不在场，你怎么和他们讨论事情呢？你看不见他们，不知道他们共有多少人。他们

面带笑容吗？他们到底有没有集中注意力听你讲话呢？我们充满渴望地谈论人机互动和

对话系统，然而我们却存心把参与对话的一方留在黑暗中。

现在是该让电脑看得见、也听得见的时候了。读你干遍也不厌倦

关于电脑视觉的研究和应用长期以来几乎完全是针对情景分析的。这种情景分析尤

其用于军事上的目的，如无人驾驶车辆和智能炸弹。电脑在外层空间的应用也带动了科

技的最新发展。假如你让一个机器人在月球上漫游，机器人只是把看到的影像传给地球

上的操作人员还不够，因为即使用光速来传输，需要的时间仍然太长。假如机器人走到

了悬崖边，等到人类操作员看到录像中出现悬崖，赶忙把口信传到月球上，叫机器人别

再往前走时，机器人早就已经掉下去了。这只是情景分析的一个例子。在这种情况下，

机器人必须根据它所看到的情景，自己下判断。

科学家不但越来越了解影像，并且已经开发出一些技术，比如说，能从明暗度推测

形状，或把物体从背景中抽离出来。但是直到最近，科学家才开始审视电脑对人的识别

能力，以改进人机界面。事实上，你的脸就是你的显示设备，电脑应该能够读取它。因

此，它必须能辨认你的脸以及你独特的表情。

我们的表情和我们想要表达的内容息息相关。通电话的时候，我们不会因为电话线

另一端的人看不到我们，就面无表情。事实上，有时候为了加强口语的分量和语气，我

们会更多地调动脸部的肌肉，并伴有更夸张的手势。电脑可以通过感应我们的表情，接

收到繁复而且并行的信号，因此令我们的口语和文字讯息都更加丰富。

使电脑能够辨认人的脸部和表情，这是一个令人生畏的技术挑战。尽管如此，在某

些情况下，这一点还是完全可以实现的。在你和电脑一对一的情况下，电脑只需要知道

操作电脑的人是不是你，确定坐在它面前的不是地球上任何其他人就够了。此外，把人

从背景中分离出来也十分容易。

很可能在不久的将来，电脑就能看到你。1990年至1991年，海湾战争爆发之时，许

多商务旅行都被禁止，因此电信会议大量增加。此后，越来越多的个人电脑都配置了价

格低廉的电信会议设备。

电信会议的硬件包括一个架设在显示器上方中央的电视摄像头，以及能编码、解码

和实时地把影像全部或部分地显示在电脑屏幕上的硬件和软件。个人电脑将会越来越充

分地为影像通信做好充分准备，当初电信会议系统的设计者们并没有想到要把摄像头用

在个人电脑上，让我们享受到面对面的电脑通信。但是，这又何妨呢？人鼠之间

我们媒体实验室的尼尔.葛森菲尔德做过一个很有趣的研究：比较只要花几分钟便可

学会、价值30美元的鼠标，和要花一辈子才能精通、价值3 美元的大提琴弓。他对照

了16种运弓技巧和单击鼠标、双击鼠标和拖曳鼠标的动作。大提琴的弓是为音乐巨匠设

计的，而鼠标则是给你我这种人设计的。

就图形输入而言，鼠标是简单而又累赘的媒介。使用鼠标有4个步骤：1）摸索寻找

鼠标；2）晃动鼠标以找到光标；3）把光标移动到你希望的位置；4）单击或双击鼠标按

钮。苹果“强力笔记本”电脑的创新设计至少把这些步骤简化为3个，并且采用了一个

“静止鼠标”（最近又改成了“跟踪板”），可以随手指移动，因此使打字时所受的干

扰减少到最低程度。

画图的时候，鼠标和跟踪球就一筹莫展了。不信你试着用跟踪球来签签名看。在这

种时候，用“数据板”是个好得多的办法，也就是用像圆珠笔一样的笔尖，在一个平滑

的表面上操作。

配置了绘图数据板的电脑并不多，而那些配置了数据板的电脑又仿佛患了精神分裂

症一般，不知道该怎样安置数据板和键盘的位置才合适，因为两者最好都直接摆在显示

器下方的中央位置。解决冲突的方式通常都是把键盘放在显示器下方，因为大多数人

（连我也在内）根本不碰图案。

结果，数据板和鼠标都被摆在旁边，我们必须学会某种不大自然的手、眼协调方式。

你一边在下面操作数据板或鼠标，一边用眼睛盯住屏幕；也就是说，我们是靠碰触来作

画的。光笔与数据扳

鼠标是道格拉斯.恩格巴特在1964年发明的。当初他设计鼠标是为了指点文件，而不

是作画。但是这个发明却流传下来，而且今天随处可见。美国国家艺术基金会主席简.亚

历山大最近开玩笑说，只有男人才会想到把它叫做鼠标。

在她说这番话一年以前，伊凡.苏泽兰完善了直接用光笔在屏幕上作画的概念（50年

代，其防空系统曾使用过一些粗糙的光笔）。苏泽兰的方法是：跟踪由5个光点构成的十

字形光标。要停止绘图，只要抖一下手腕，退出跟踪就可以了。这是个精巧、但不太精

确的终止画线的方式。

今天，光笔事实上已经踪影全无。因为把手举在屏幕前是一回事（且不说当血液顺

着手掌不停地往下流时，要长时间保持这个姿势已经十分辛苦了），而拿着一管和电脑

拴在一起的、两盎斯重的笔，更会令手掌和手臂异常疲劳。有些光笔的直径达半英寸，

用的时候感觉就好像夹着雪前写明信片一样。

在数据板上画起图来则格外舒服，而且只要多费点心思设计，笔尖也能产生出如艺

术家画笔一样的质感和丰富效果。到目前为止，数据板通常让人感觉好像是用圆珠笔在

一块平滑而坚硬的板上作画，因此必须在桌面上靠近你和显示器的地方，为这块板找个

安身之处。既然我们的桌上已经堆满了东西，如果要让数据板流行起来，唯一的办法是

家具制造商把数据板直接做进桌面里，这样一来，就没有单独的数据板了，只有桌子本

身。你的眼睛会说话

设想一下一面读着电脑屏幕上的文字，一面问：那是什么意思？她是谁？我怎么到

了那个地方？问题中的“那”、“她”和“那个地方”是由当时你眼睛注视的方向决定

的。这些问题牵涉到你的眼睛和文件的接触点。我们通常都不把眼睛当作输出装置，但

我们却总是以眼睛来输出信息。

人类能够觉察彼此目光的方向，并且进行视线的交流，这种本领当真神奇不已。想

象一下，站在20英尺以外的一个人有时候直视你的眼睛，有时目光却从你肩膀的上方穿

过，注视着远方。使此人目光注视的方向和你的视线只有不到一度的差距，你也能立刻

感觉到其中的差异。这究竟是怎么回事呢？

你当然不是用三角学的方法算出来的，换句话说，并不是计算另外一个人的视线是

否与你的视线相交。不，其中另有溪跷。你的眼睛和那人的眼睛之间一定传递了一个讯

息，但我们还不清楚个中奥妙。跟踪眼球的运动

总之，我们总是用眼睛来指示物体，当有人问你，某某人到哪里去了，你的回答可

能只是注视着敞开的房门。当你说明要带什么东西时，可能会盯着一个旅行箱，而不是

另一个。这种视线的指示，加上头部的动作，可以是非常有力的沟通渠道。

今天，已经有一些技术可以跟踪眼睛的运动。我最早看到的一种技术，是戴在头上

的眼球跟踪器（eyetracker）。当你读文件内容时，跟踪器会把屏幕上的文字从英文变

成法文。当你的中心视线不断地从一个字移到另一个字的时候，你看到的每个字都是法

文，于是整个屏幕看起来是百分之百的法文。但是，眼球没有被跟踪的旁观者看到的屏

幕，却大约99％都是英文（也就是说，除了戴着跟踪器的那个人正在看的字是法文外，

其他的字都是英文）。

更现代的眼球跟踪系统则采用远距离电视摄像头，因此用户不需要戴任何装置。能

显像的电信会议配置尤其适合进行眼球跟踪，因为用户往往隔着相对固定的距离坐在屏

幕前面，而且你通常都会注视着和你进行远端通信的那个人的眼睛（电脑会知道眼睛的

位置）。

电脑越清楚你的位置、姿势和眼睛的特点，就越容易掌握你注视的方向。具有讽刺

意味的是，这种利用眼睛作为输入装置的异乎寻常的媒介可能最先应用在一个平淡无奇

的结构中，即坐在电脑桌前的人身上。

当然，如果你把眼睛（看）和另外一种输入工具——嘴巴（说）同时使用，效果会

更好。

5、咱们能不能聊聊弦外之音

对于大多数人而言，打字并不是一种理想的界面。假如我们能和电脑说话，那么即

使是最坚定的反机器分子，大概也会以更大的热情来使用电脑。但是，目前的电脑仍然

又聋又哑。这究竟是为什么呢？

电脑在语音识别方面一直没有多大的进展，主要原因不在于缺乏技术，而在于缺乏

眼光。每当我在语音识别的成果展示会或产品广告中，看到人们拿着麦克风说话时，我

都很奇怪：难道他们真的忘了，说话最大的价值之一就在于能让双手空出来做别的事情

吗？当我看到人们把脸贴近屏幕讲话时，我也很奇怪：难道他们忘了，能够遥控是使用

声音的原因之一吗？而当我听到人们要求设计出能够识别出各个独立用户的语音系统时，

我问自己：他们是不是忘了，我们是在和个人电脑说话，而不是在和公用电脑说话？为

什么似乎每个人解决问题的着眼点都落在错误的方面呢？

原因很简单。直到最近，我们一直被两个带有误导性的观念所驱使。第一个观念是

受到老式电话通信系统的影响，希望任何人在任何地方都能拿起话筒对电脑发号施令，

而不需要和接线员对话，而且不管说话的人怎样南腔北调都无关紧要。另外一个挥之不

去的想法来自于办公自动化——我们希望有一种会说话的打字机，我们对着它一口气不

停他说，它能一字不差地把我们的口述转化成文字记录下来。由于大家一直只把注意力

放在这两个方面，使我们拖延多年，始终无法实现一些更容易实现的（同时也是有用的）

目标，即让电脑在高度个人化而且互动的环境中，识别并了解对话内容。

我们也忽略了说话在文字以外的价值。举例来说，今天的电脑需要人全神贯注。你

通常都必须正襟危坐，同时把注意力放在互动的过程和互动的内容上。在走来走去时使

用电脑，或在有多组对话时让它参与其中的一组，简直是不可能的。语音识别可以改变

这一切。

能够在一臂远的距离之外使用电脑，是非常重要的事情。想象一下，假如你和别人

说话的时候，他、她的鼻子尖老是凑到你的脸上，那是什么感觉！我们通常都隔着一定

的距离与别人讲话，偶尔还会转过身去同时做些别的事情。甚至有时已经走到别的地方

而互相看不见了，还在说着话。这种情况屡见不鲜。我希望有一部在“听力范围”之内

的电脑，它必须能把说话的声音和周围的杂音（例如空调或飞机在头顶上飞过的声音）

区分开来。

讲话胜于文字的另一个原因是，它可以有其他附带方式来传递信息。家里有小孩或

养了宠物的人都知道，怎么样讲话可能比讲什么话更重要。说话的语气非常关键。例如，

不管主人如何吹牛，说他、她宠爱的小狗如何如何，小狗似乎只对语调有反应，它内在

的分析复杂词汇的能力基本为零。

说出来的话除了字面的意思之外，同时传递了大量的信息。讲话的时候，我们使用

完全一样的字眼，可以表达或激情洋溢、或嘲讽、或愤怒、或闪烁暧昧、或曲意逢迎、

或精疲力竭等等不同的情绪。在电脑语音识别的研究中，大家都忽略了这些细微的差异，

更糟的是，把它们视为暇疵，而不是特点。然而，正是这些特质，使说话成为比打字更

丰富的输入媒介。让电脑“听话”

假如你的外语能力还不错，但是还不到应对自如的地步，你会发现，要听懂饱受杂

音干扰的新闻广播实在很困难。相反，对于一个能把外语说得极为流利的人而言，这些

杂音充其量只是扰人罢了。识别语言和理解语言，二者密不可分。

目前，电脑无法像你我一样，先对某件事的意义建立共识，进而理解事物的意义。

虽然未来的电脑无疑会具有更多智能，目前我们仍不得不先设法解决机器的语音识别能

力问题，而把机器的理解力问题搁置一边。一旦把这两项任务予以分化，路该怎么走就

很清楚了，我们必须把口语中的单字，变成电脑可读的命令（command）。语音识别问题

有三个变数：词汇量、机器对说话者的依赖程度以及字的关联性，所谓字的关联性，是

指机器能在多大程度上依照人们日常讲话中的自然强弱节奏把单字含混在一起。

我们可以把语音识别的这三个方面想象成三维立体轴。在词汇轴上，需要识别的字

越少，对电脑而言就越容易。假如系统事先就知道说话的人是谁，问题就更简单了。如

果说话的人能一个字一个字分开发音，电脑就听得更明白，识别起来也就更容易。

在这三条轴的起始点，我们可以找到少得不能再少、完全依赖于说话者语音的词汇，

念出这些词汇的时候，字与字之间必须有明——显——的——停——顿。

当我们顺着任何一条轴移动的时候，也就是说，增加电脑所能识别的词汇，让系统

能够服务于任何说话者，或是容许字与字相连的程度越来越高，在这种情况下，每前进

一步，都会使问题变得越来越困难。当到达三条轴的远端时，我们期望电脑能够识别任

何人说的任何字，以及“印（任）何程度”的含混字。人们通常都认为，我们必须在两

条或三条轴上都达到最远端时，语音识别系统才能对人类有用。这完全不对。

让我们一个一个来考虑。谈到词汇多寡的时候，我们可能会问：多少才算多呢，50

0、5000还是5 个字？但这个问题其实应该是：在任何时候，电脑存储器中究竟需要

多少它可以识别的单字？这个问题提示我们把词汇根据上下文分成组，这样在需要的时

候就可以把大群词组放进存储器中。当我要求我的电脑接听电话时，它会把信息输入我

的电子电话本。当我计划到什么地方旅行时，它则把地名输入到上面。

假如你把词汇量看成在任何情况下都需要的一组字——称为“字窗”（wordwindow

s）一那么电脑只需要从一个小得多的字音库中拣字就可以了，这一字音库只要有500个

字左右就够了，不需要5 个那么多。

人们所以假设需要有能够识别各个独立讲话人的语音识别系统，是由于这种功能是

过去电话公司的一项要求，电话公司的中央电脑必须能听懂每个人的话，提供一种“通

用服务”。今天，电脑的普及率更高，而且更加个人化。我们在网络的外围——通过个

人电脑、话筒，或经由一小块智能卡（smartcard）的协助，能够完成更多的语音识别。

如果我想在电话亭里和一部航空公司的电脑谈话，我可以先接通我的家用电脑或拿出我

的袖珍型电脑，让它先替我把声音转换成机器看得懂的信号，然后，再和航空公司的电

脑联络。

第三个问题是字音的模糊性问题。和电脑说话的时候，我们不希望像一个观光客对

外国小孩说话一样，夸张地吐出每个单字，而且每念一个字，都停顿一下。因此这个轴

最具挑战性。但是我们也可以把问题稍稍简化，也就是把语言看成许多字一起发出的声

音，而不是许多单个字的声音。事实上，处理这种连成一片的字音，很可能正是你的电

脑走向个人化的必经过程和必须接受的训练的一部分。

当我们把讲话看成一种互动的和对话的媒介时，我们离语音识别中最容易的那部分

已经没有多远了。字典里找不到的字

讲话这种媒体常常充斥着字典里找不到的字音。言谈不仅比白纸黑字更多姿多彩，

而且对话中的特点，例如形体语言这样的非文字语言的运用，往往能使对话浮现额外的

意义。

1978年，我们在麻省理工学院采用了一套先进的、依赖于说话者发音的、能够识别

连续语音的语音识别系统。但是就像当时和现在的许多同类系统一样，当说话者的声音

中带有哪怕些微的紧张时，系统就会失误。当研究生向我们的赞助者演示这套系统时，

我们希望它表现得完美元缺。结果，由于过度焦虑，作演示的研究生声音绷得紧紧的，

系统也就完全失灵。

几年以后，另外一个学生想到一个绝妙的主意：找出用户说话时会在什么地方停顿，

并且设走电脑程序，让电脑在适当的时候发出“啊哈”的声音；这样，当一个人和机器

说话的时候，机器每隔一会几就会发出“啊哈——”、“啊——哈”或“啊哈”。这些

声音产生了极大的安抚效果（就好像机器在鼓励使用者继续对话），使用者变得比较放

松，而系统的表现也突飞猛进。

这个观念体现了两点重要的意义：第一，并非所有的发音都需要有字面上的意义，

在沟通中才有价值；第二，有些声音纯粹只是对话中的礼仪。当你接电话的时候，没有

以适当的间隔对来话人说“嗯”，来话人会变得很紧张，而且最终会探问：“喂，你在

听吗？”“啊哈”或“嗯”的意思不是“是”、“否”或“也许”它基本上是在传达一

个比特的信息：“我在这里”。并行的表达

想象一下这样的情景：你和一群人围坐在一张桌子旁，同桌的人除了你以外都说法

语。你只在中学粗粗修过一年蹩脚的法语、突然有个人转过头来对你说：“还要来点几

酒吗？”你完全听懂了。接着，这个人把话锋一转，谈起法国的政治来了。除非你能说

流利的法语，否则就跟听外星人讲话一样（而且即便你法文流利，也不一定能懂）。

你可能会想：“还要来点儿酒吗？”是小孩都听得懂的简单法文，而政治就需要更

精深的语言技巧了。不错，但这并不是两段对话的重要区别所在。

当有人间你要不要添一点酒的时候，他可能正伸长了手臂去拿酒瓶，眼睛也正注视

着你的空酒杯。也就是说，你正在解码的信息并不只是声音而已，而是并行而累赘的多

重信息。而且，所有的主体和客体都处于同一时空。这种种条件同时作用的结果才使你

能听懂他的意思。

我要重申，累赘是件好事。并行信道（手势、眼神和谈话）的使用是人类沟通的核

心。人类自然而然地倾向于使用并行的表达方式。假如你只会讲一点点意大利语，和意

大利人通电话将会非常辛苦。但当你住进一家意大利旅馆，发现房间里没有香皂时，你

不会拿起电话，而会直接下楼，走到前台值班员那里，拿出你在语言速成学校学会的所

有看家本领，让他拿香皂给你，你甚至一边说一边还会做几个洗澡的动作。

身在异地时，我们会用尽一切办法，来传达我们的意图，并且解读所有相关信号，

力求索解出哪怕一丁点意思。电脑正是身处这样的异地——人类的土地上。让电脑开口

要电脑说话，有两种方式：重放先前录下的声音，或合成字母、音节或（最可能的

是）音素的声音。两种方式各有利弊。让电脑说话和音乐的制作一样，你可以把声音存

储下来（就像CD一样），然后重播，也可以采用合成的方式，根据曲调，重制音乐（就

像音乐家一样）。

重述先前存储的说话内容，也就回到了听起来最“自然”的口、耳沟通方式，尤其

是当我们存储的是一个完整的讯息时，就更显得如此。由于这个原因，大多数的电话留

言都是以这种方式录制的。当你试图把录好的片段声音或个别单字拼凑起来的时候，结

果就比较不如人意了，因为整体的韵律不见了。

过去，人们不大愿意用预录的谈话来作人机界面，因为这样会消耗电脑大多的存储

容量。今天，它已经不太成问题了。

真正的问题也正是最明显的问题。你必须提前把话录下来，才能运用预录的谈话。

假如你期望电脑说话的时候，不要把名字弄错，那么你就得先把那些名字存储起来。存

储好的声音不能适用于随机的讲话。由于这个原因，人们使用了第二种方式——合成。

语音合成器会根据一些规则，把一串文字的内容逐字念出来（就跟你念这句话时没

什么两样）。每一种语言都有所不同，因而合成的难易度也不尽相同。

英语是最难合成的语言之一，因为我们以一种奇怪而且似乎不合逻辑的方式来书写

英文。其他一些语言，例如土耳其语，就容易多了。事实上，要合成土耳其语非常容易，

因为基马尔在1929年把土耳其语从使用阿拉伯字母改为使用拉丁字母，这样转换的结果，

使声音和字母之间形成了一一对应，每个字母都发音：没有不发音的字母或令人困惑的

复合元音；因此，在单字的层次上，土耳其语简直令电脑语音合成器的美梦成真。

即使机器能够发出每一个和任何一个单字的音，还有别的问题。把合成的字音集合

起来，在词组或句子的层次上，加上整体的节奏和语气，是非常困难的事情。然而这样

做非常重要，不仅能让电脑说的话好听，而且还能根据说话的内容和意图表现出不同的

色彩、表情和语调。否则，电脑发出来的声音就好像醉酒的瑞典人在喃喃自语一样单调

得让人倒胃口。

我们现在开始看到（听到）有些系统正把语音合成和声音存储两种方式结合在一起，

随着数字化越来越普遍，最终的解决方案将是两者合一。小型化的趋势

在下一个千年里，我们会发现我们和机器说的话，与我们和人类说的话一样多，或

甚至比跟人类说的话还要多。和没有生命的物体说话时，人们最感困扰的似乎是自我意

识问题。我们跟狗和金丝雀讲话的时候，觉得非常自在，但是和门把手或灯柱说话，就

会觉得怪怪的（除非你烂醉如泥）。难道我和烤箱说话的时候会不觉得傻乎乎吗？大概

跟对着电话应答机讲话半斤八两吧。

小型化（miniaturization）的趋势将使今天的语音输入比过去更遍及于每一个角落。

电脑正变得越来越小，昨天还占据了整个房间的电脑设备，今天已出现在你的桌面上，

明天你更可以把袖珍型电脑戴在手腕上。

许多桌上型电脑用户都不能充分认识过去10年来电脑体积的缩小幅度，原因是电脑

体积的变化包含不同的方面，例如键盘的尺寸仍然尽可能保持不变，而显示器反而变大

了。因此，今天桌上型电脑的整体大小仍和15年前的苹果型机不相上下。

如果你已有很长时间未曾使用调制解调器，调制解调器大小的变化更足以说明真正

的变化有多大。不到15年以前，一个速率1200波特的调制解调器（价格约1000美元）几

乎像一个侧躺的烤箱一样大。当时，速率9600波特的调制解调器就像一个放在架子上的

大铁笼子一样。然而到了今天，你可以在一块智能卡上找到速率为19200波特的调制解调

器。即使已经把调制解调器做成倍用卡般大小，我们仍然有许多空间没有好好利用，现

在的设计有相当部分纯粹是为了外型的缘故（为了填满插口，或是大得让我们能握住，

而不会随便弄丢）。我们所以没有把像调制解调器这样的东西装在“大头针头”上，主

要不是技术上的原因，而是因为我们很容易把大头针随手乱放，再找起来很困难。

一旦挣脱了手指张开幅度的束缚（手指张开的幅度决定了一个舒适合用的键盘的形

状和大小），电脑的大小就会更多地受到衣兜、钱夹、手表、圆珠笔和其他类似物品的

体积的影响。在这种种形式中，信用卡很接近我们想要的最小尺寸，显示器很小，因此

图形用户界面变得没有多少意义了。

笔形的系统很可能被视为笨拙的过渡期工具，既太大，又太小。按钮式的设计也不

理想。看看你的电视机和录像机遥控器，你就会明白按钮的局限所在：按钮式装置完全

是为手指纤细、眼力极佳的年轻人设计的。

由于以上种种原因，小型化的趋势必然会推动语音制造和语音识别技术的提高，并

促使语音识别成为附在小型物体上的电脑的占支配地位的人机界面。实际的语音识别系

统不需要一定装在袖扣和表链中。小型装备可以通过通信而提供帮助。关键在于，小型

化了以后，就必须靠声音驱动。打电话，传心曲

很多年以前，霍尔马克卡片公司（Hallmarkcards）开发部的主任告诉我，他们公司

主要的竞争对手是AT＆T。“打电话，传心曲”的广告词说的是，透过声音，传达感情。

声音的渠道不仅传递了信号，同时也传递了所有伴之而来的理解、深思、同情或宽容。

我们会说，某人“听上去”很诚实，这个论点“听起来”不怎么可靠，或某件事“听起

来”不像那么回事。声音中潜藏了能唤起感觉的信息。

同“打电话、传心曲”一样，我们会发现我们也将能通过声音把我们的希望传达给

机器。有些人会表现得像教官一样未教导他们的电脑，另一些人则会用理性的声音。说

话和授权密不可分。你会不会对七个小矮人发号施令呢？

设置

手机

书架

书页