或者,设想美国股票市场不是惟一的投资工具。设想有些人没有把钱用在购买昂贵的玩具或是支付滑雪旅游方面的费用,而买了黎巴嫩里拉面值的国库券(就像我祖父那样),或是麦克尔·密尔根公司的垃圾债券(就像在80年代我的许多同事所做的那样)。让我们回溯历史,想像积累者购买了有沙皇尼古拉二世签字的俄罗斯债券,然后又想从苏联政府那里得到兑现以便进一步积累,或在30年代买进阿根廷房地产(像我的曾祖父那样),那会是什么结果。
忽略幸存者认识偏差的这种错误是个顽症,甚至(也许应该说尤其是)专业人员也是如此。为什么?因为我们受到的训练就是要利用摆放在我们面前的信息,而对我们看不见的就忽略不计。
现在我们做一个简单总结。我指出了,我们倾向于把所有可能性的随机历史中真正实现了的那个当成最具代表性的一个,而忘记了还会有其他的。总而言之,幸存者认识偏差意味着,表现最突出的事例最为人注目。为什么?因为失败者根本不被显现。
权威人士的意见
资金管理行业里权威人士云集。显然,这个领域里随机性四伏,而权威人士早晚要落入陷阱,特别是没有受过正规推理训练的。在我写这本书的时候,就有这么一位权威养成了这种非常不幸的习惯,专写这种题材的书。他与一位同事一起,对所谓“罗宾汉”策略的成功率进行了计算,就是从一定数量的经理中选取最不成功的经理做投资代理。这种计算是把钱从胜出者那里拿走,拨到失败者头上。大多数人都是请优胜的经理投资,从失败的人那里把钱拿走,但这种做法是反其道而行之。这样一来,他们的“纸上策略”(即如在“垄断”这个游戏里一样,不是在实际生活中实施的)就比之他们坚持使用优胜经理还要获得高得多的回报。他们觉得,这种虚拟模型似乎证明,我们不应该较好的经理,就像我们倾向的那样,反而应该转向最差的经理,至少他们似乎要表达这种意思。
他们的分析中有一个严重的毛病,任何金融经济学的研究生在第一眼看到的时候就应该能指认出来。在他们的采样中只有幸存者。他们完全忘了考虑那些退出了这个行业的经理。这个估样中的经理在模拟的时候经营着,而且至今仍在经营。不错,他们的模型中包括了表现差的经理,但只有表现差而又能恢复的经理,他们不会出局。所以很明显,请某个在某段时间表现差,但是能恢复过来的经理(由于具备事后聪明)来投资可以获得积极回报!如果他们一直表现不佳,就会被排除出这个行业,这个模型中也就不包括他们了。
那么怎样做模拟才是正确的呢?把五年前运营的经理群体放入模拟中,使模拟进行到今天的日期。很明显,被淘汰掉的那些人有失败的倾向:很少有成功人士会在利润如此丰厚的业务当中因为赚钱太多而退出。下一步我们转而对这个问题做更具技术性的说明。
9
买进卖出比煎鸡蛋还容易
对幸存者偏差问题做些技术性的扩展。关于“偶然性”在生活当中的分布。有能力不如走好运(不过你可能会被捉住)。生日悖论。更多的庸医(以及更多的记者)。有职业道德的研究人员何以能在数据中找到几乎一切东西。论吠的狗。
今天下午我在我的牙医那里有个预约门诊(牙医会趁此机会想法刺探出我对巴西债券的看法)。我可以比较放心地说,他对牙齿确实懂点,尤其当我进入他的诊室时带着牙痛,出来的时候得到了某种形式的缓解。如果一个人对牙齿一无所知,他要想为我提供这样一种缓解就有困难,除非那天他特别走运,或是因为他一辈子都非常走运,用不着对牙齿有任何了解就能当上牙医。看着他墙上挂的学历证书,我可以断定,如果说他能够反复对考试题目给出正确答案,在毕业之前对几千颗龋齿做了正确处理,全凭的是纯粹的随机巧合,这种可能性非常之少。
再晚一点,到了晚上,我要去卡内基音乐厅。我对那个钢琴家所知甚少;我甚至把她那佶屈聱牙的外国名字都忘记了。我所记得的,只是她在某个莫斯科音乐学院学习过,但是我可以指望从钢琴上听到一些音乐。如果说某人过去的精彩演奏使她得以来到卡内基音乐厅,而现在才发现,原来这一切都是半凭运气使然,这样的事情十分少见。我们等来的是一名冒牌货,在钢琴上敲打出粗糙刺耳的动静,这种可能性实在太低,所以我把它完全排除掉。
上个星期六我在伦敦。伦敦的星期六是个美妙的时刻,人群熙熙攘攘的,但没有平日那种功利的繁忙,也没有星期日那种萧索感。手上没带表,也没有预先定好的日程计划。我来到了维多利亚和阿尔伯特博物馆,站在我最心爱的卡诺瓦的雕刻作品跟前。出于我的职业习惯,我马上想到一个问题,在这些大理石雕像的创作过程中,随机性是否也起了很大的作用呢?它们的身体是人体的逼真再现,不过比起我所见过的任何由大自然天然产生的东西来,它们更加和谐,有更加微妙的平衡感(我联想到的奥维德所说的materiem superabat opus 句话——拉丁文,大意为“巧夺天工”——译者注),像这样的高超技巧会是运气的产物吗?
实际上我的这种发问,适用于任何在物理界或随机成分比较低的行业中的工作的人。但是任何与商界有关联的事情就不然,它们都存在一个问题。我有点烦,因为明天,很不幸,我与一个资本运作经理有个约会。他想请我以及我的朋友们帮忙寻找投资人。他自称有很好的业绩记录。而我得出的结论只是他学过怎样买进和卖出。与买进和卖出相比,煎一个鸡蛋相对更难一些。然而……他过去赚过钱,这个情况也许可以说明些问题,但也没什么特别了不趣的。这并不是说事情总是一成不变的,在有些情况下,我们还是可以相信业绩记录的。不过,这种情况确实不多。读者现在一定知道,这位资本运作经理在做陈述的时候一定会被我问个底儿掉,尤其如果他不能够显示出最低限度的谦逊和不自信,因为我认为这是在随机领域里实践的人应有的态度。我也许会劈头盖脸地提出他所决想不到的问题,因为他被过去的成绩蒙住了眼睛。我也许会训导他,马基雅弗利认为人的一生至少有50%是运气在起作用(其余的是狡诈和噱头),而这还是在现代市场形成之前。
在这一章,我要讨论业绩记录和历史时间序列中一些著名的反直觉特性。这里提出的这个概念大家都知道,像幸存者偏差、数据采掘(data mining)、数据探察(data snooping)、过度适应(over fitting)、回归平均值(regression to the mean)等等名称都是它的一些变种,基本上指的是见解,所以把业绩夸大了。很明显这个概念有些令人不安的副作用。它会延伸到更普通的一些情景中,在那里随机性可以起一定的作用,比如对治疗方式的选择,或对偶然事件的解释等。
有人怂恿我,叫我提示一下,金融研究将来有可能对普通科学作出哪些贡献,我就以对数据采掘的分析和对幸存者偏差的研究为例,这些在金融界已经精细化了,可以被扩展运用到科学研究的所有领域中去。金融领域为什么这么热门?因为在这个领域里我们的信息很多(以大量的价格系列为体现),却不能像在物理学中那样去做实验。现在像这样的研究领域为数很少。它的那些突出的缺陷就体现在对过去资料的依赖上。
被数字捉弄
全无本事的投资人
我经常会面对这种类型的问题:“你以为你是谁啊,有什么资格说我生活中的成就有可能纯属运气好?”不错,没有人真正相信自己属于运气好。我的办法是,用我们的蒙特卡罗机器,制造出纯然随机的环境来。我们以与常规方式正相反的形式来进行;在分析实际存在的人时,我们需要找出他们的特性,而现在我们只是严格按照已经知道的一些特性,人为制造出一些人来。这样我们就制造出一个纯靠运气的人工环境,丝毫不掺和技巧或其它我们在表P-1中稀薄为非运气的因素。换句话说,我们可以人为制造出一些谁也不是、专供人取笑的人来;我们要把他们设计成没有一丝一毫的能力(与暗示疗法中使用的药物完全相同,丝毫没有效用)。
在第五章我们看到,有些人幸存下来是因为他们的个性正好符合某一既定的随机结构。在这时我们的环境要简单得多,它的随机结构我们已经知道了;我们要做的第一个练习是演练一句谚语:即使是破钟,一天也能走对两次。我们要走得更远一点,以便显示统计数字是把双刃剑。让我们用先前介绍的蒙特卡罗机器来建造一群虚构的一万名投资经理(并不是非用蒙特卡罗机器不可,用一枚硬币即可,甚至可以用平常的代数来解决问题,但蒙特卡罗机器要直观得多,而且好玩)。假设它们每个人都有一场完全公平的游戏:每个人到年底都有50%的概率赢得一万美元,还爱莫能助 50%的概率输掉一万美元。让我们引进一项附加的限制:一个经理只要有一个坏年景,就把他淘汰出我们的采样,拜拜,好自为这吧。这样我们就像传奇式的投机家乔治·索罗斯那样工作了。据说他把他的经理们召集到一间房间,(操着东欧口音)对他们说:“你们当中有一半人到明年就会出局。”和索罗斯一样,我们也有极高的标准:我们要用的经理必须毫无失败记录,我们对低效率的人没耐心。
蒙特卡罗发生器抛出一枚硬币:面朝上,这个经理就能在一年中赚到一万美元;背朝上,他就输掉一万美元。我们做第一年的模拟。到了这一年结束的时候,我们指望看到有5000名经理每人增加了一万美元,还有5000人赔了一万美元;现在我们模拟第二年,像刚才一样,我们可以指望有2500名经理连续第二年赚钱;再一年:1250人;第四年:625;第五年:313。现在我们在一场简单的公平游戏中得到了313名经理连续五年赚钱。全凭运气。
没人必须称职
我们的把这个论点再往前推进一步,让它看起来更有意思。我们制造出一批有相同统计要素的人,无一例外都是不称职的经理。我们把不称职的经理定义为预期回报为负数的人,相当于光走背字的人。我们给蒙特卡罗发生器发出指令,让它从罐子里取球。罐子里有100个玩,45个黑色的,55个红色的;取出一个加进一个,使红球与黑球之比保持不变;如果我们取出一个黑球,经理就赚到一万美元;如果我们取出一个红球,他就输掉一万美元。这样,这位经理就有45%的概率能赚到一万美元,55%的概率输掉一万美元。平均起来,这位经理会每一轮输掉1000美元,但这仅仅是个平均数。
在第一年的年底,我们仍有指望见到有4500名经理赚了钱(他们当中的45%);第二年,这个数神出鬼没45%,也就是2025人;第三年,911;第四年,410;第五年,184。让我们给这些幸存下业的经理起上名字,穿上职业套装。不错,他们在一开始的受试人群里占了不到2%。但是他们会受到注意。没有人会提到占了不到2%。但是他们会受到注意。没有人会提到占到98%的另外那些人。我们应该得出什么样的结论呢?
第一个反直觉的结论是,从完全由不称职经理组成的一群人里,会产生出少量业绩记录出色的人。事实上,假设这位经理主动找上门来,你根本无法看出他是好是坏。甚至,如果这一群人完全是由从长远来看洽谈室要赔钱的人构成的,结果也不会有多大变化。为什么呢?因为存在着易变性,所以他们之中的一些人肯定会赚钱。从这时我们可以看到,这种易变性实际上对糟糕的投资决策有利。
第二个反直觉结论是,我们所关心的问题,也就是业绩纪录的最大预期值(expectation of the maximum),取决于初始采样的规模大小,而不是每个经理的个人运气。换句话说,在一个给定的市场中,我可以找到多少位有出色业绩记录的经理,远远取决于在这项投资业务一开始的时候有多少人参与进来(而没有去读牙科学校),而且不在于他们产生利润的能力。它也取决于市场的易变性(volatility)。为什么我要说“最大预期值”呢?因为我对业绩记录的平均数毫不关心,我只要看经理中最好的,不要看所有的经理。这意味着,只要1997年参加进来的人数比1993年多。我敢打保票,不会有错。
遍历性
说得更技术性一点,我要说,人们以为他们能从自己看到的采样中总结出分布规律。在完全取决于最大值的问题上,我们推论出来的完全是另外一种分布,最佳表现者的分布。这处分布的平均数和胜出者及失败者无条件分布之间的差异,我们称为幸存者认识偏差(the survivorship bias)。在这里就是指,一开始就参加采样的人当中有大约3%的人会连续五年赚钱这个事实。另外,这个例子显示出遍历性(ergodicity)的特性,也就是说,时间会把随机性的恼人效果消除掉。当我们向前看,尽管这些经理在过去五年里都是赢利的,我们可以预料他们在未来任何一个时间段里都有可能转为不赔不赚。他们最后不会比那些在练习一开始就被淘汰出局的人表现得更好。唉,长期啊长期。
几年以前,我对一位A先生说,业绩记录的作用没有他想像的那么大。那时他还是个“天之骄子”类型的人物。这句话深深地冒犯了他,他暴怒地把他的打火机朝我摔过来。这段往事使我领悟到不少东西。要知道,没有人肯承认在自己的成功里有随机性因素,只有在他的失败中才有随机性。他自负得很,因为他是一个部门的头,那个部门全是“特棒的交易员”,当时在市场里都赚着大钱。后来在1994年纽约的严冬里他们都泡灭了(阿兰·格林斯潘突然提高利率,债券市场随后崩盘)。有意思的是,6年以后,我几乎见不到他们当中任何一人继续干交易员(这就是遍历性)。
我们还记得,幸存者偏差依赖于一开始参与的人数。因此,一个人过去赚到的钱这个信息本身,既没意义也不相干。我们需要知道他来自于多大一个群体。换句话说,如果我们不知道一共有多少经理尝试了又失败了,我们就没有办法评判业绩记录的有效性。如果一开始有10名经理,那么我连眼皮都不眨一下就会把一半的积蓄交给这个优胜者。如果一开始就有1万名经理,那么我对它的结果就不予理睬。实际情况一般来说就是后一种:如今被吸引到金融市场的人太多了。许多大专毕业生的第一个职业就是做交易员,失败之后再去读牙科学校。
如果这些虚构的经理像在童话里那样变成了真人,其中一个也许就是我明天上午11:45要约见的人。为什么我要定在11:45呢?因为我要询问他的交易风格。我需要知道他是怎么做交易的。如果这个经理过分吹嘘他的业绩记录,我就可以说我有个午餐约会,时间来不及了。
生活就是巧合
我们对巧合现象的分布有理解上的偏差。下一步,我们就来看一下这种偏差怎样在现实生活中体现。
神秘信件
1月2爱猫扑.爱生活接到一封匿名信,通知人本月市场会上扬。这后来被证实了。但你没把它当回事,因为谁都知道有一月效应这么一说(历史上股票都在一月份上涨)。2月1爱猫扑.爱生活又接到一封,告诉你市场将要下跌。它又一次被证实了。3月1爱猫扑.爱生活又接到一封信,情况跟以前一样。到了7月份,这位匿名人物的先知先觉打动了你的好奇心,他叫你向一项特种海外基金投资,你把所有的积蓄全部投入进去。两个月以后,你的钱全泡汤了。你趴在邻居的肩膀上向他哭诉,结果他说他记得自己也收到过两封这种神秘的信件。但是接到第二封信以且就没有再接到这种邮件。他想起来,第一封信的预测是对的,另一封不对。
这是怎么回事?这个把戏是这样玩的。那个骗人的操作员从电话本里抽出1万人的名字。他向这些抽样人选当中的一半人寄出市场看牛的信,向另一半人发出市场看熊的信。下一个月,他选择那些接到了预测正确的信的人,这样的人有5000名。再下一个月,他向剩下的2500人做同样的事,直到这个名单最后缩减到500人。在这500人当中会有200人是受害者。投入几千美元的邮资最后能带来几百万的收入。
被打断的网球赛
看电视转播的网球赛的时候,被轰炸式的广告打断,直传某个基金在多长一段时期内比其他人的业绩优秀百分之多少(到广告时为止),这种情况并不少见。但是,话说回来,如果不是碰巧赢了市场一把,谁又会去做广告呢?如果一项投资的成功完全是由随机因素造成的,那么它上门来找你的概率就很高。经济学家和保险公司的人把这种现象叫做逆向选择。由于存在这处选择上的偏差,因此,判断一项找上门来的投资,比判断一项你想寻找的投资,需要更严格的标准。举例来说,如果我从标准划一的1万名经理中寻找,我找到一个假幸存者的可能性是2对100。如果我在家里等着应声开门,那么这个上门来揽业务的人就有接近百分之百的可能性是个冒牌幸存者。
生日悖论
向不做统计员的人描绘采掘问题,最直觉的办法是通过所谓生日悖论来说明。其实这并不是一个真正的悖论,它只是在感觉上有点怪。你“随机地”碰上一个什么人,你就有365.25分之一的机会与他们是同一天生日。而与他们同年同月同日生的可能性就非常之小了。所以,这种同一天生日的巧合就会成为你在饭桌上谈论的话题。现在让我们来看这样一种情况,在一个房间里有23个人。在这种情况下,有多大机会其中有两个人的生日在同一天呢?大约50%。因为我们并没有特别规定有哪些人一定要在同一天生日:任何一对都可以。
世界真小!
在完全意想不到的地方碰到亲戚或者朋友,也会产生类似的、有关概率的错误概念。通常人们会惊讶地叫上一声“世界真小”。世界比我们想像得要大得多,但这并不是完全不可能的情况。只不过我们没有认真测试过,我们有多大机会在指定时间、指定地点与某个指定的人巧遇。相反,我们测试的只不过是与任何一个我们过去曾碰到过的人,在任何我们会到访的地方相遇。后者的概率要高得多,也许比前者的可能性要高出几千倍。
那么,统计学家在根据数据来测定一种特定关系的时候,比如说,要找出某个特定事件的一些内在关联,如一项政策的宣布与股票市场的变化之间的关系,在这种情况下,他的结论就可以被认真看待。介理当人们用计算机去处理数据,希望找出点随便什么样的关系,那么就可以肯定会出现一种虚假的关联,比如把股票市场的走势与妇女裙子的长度联系起来,就像生日的巧合一样,它全使人们吃惊。
数据采掘、统计数字以及骗子行径
你两次赢得新泽西州六合彩的概率有多大?一千七百亿分之一。可这样的事情就会在伊夫林·亚当斯身上发生了。读者也许会认为,他一定会觉得格外受到了命运的青睐吧。哈佛的佩尔西·迪亚柯尼斯和弗里德里克·摩斯泰国勒使用了我们在前面发展起来的方法,估算出,每30人里面就会有一个人在某个地方,以某种完全出人意料的方式,撞上如此大运!
有些人把他们的数据采掘工作带入了神学。不管怎么说,古代的地中海人就曾根据鸟类的内脏解读出意味深长的信息。麦克尔·德罗斯宁编撰的《圣经密典》让我们见识了数据采掘的一种有趣的扩展应用——对《圣经》做诠释。德罗斯宁当过记者(好象没接受过统计学方面的任何训练),他依靠一位“数学家”的著作对圣经的密语进行了解读,结果帮助做出了拉宾会遇刺的“预言”。他把这情况通报了拉宾,而拉宾对此看来没有认真对待。《圣经密典》在圣经中找出了一些不规则的统计数字;就是这些不规则的统计数字帮助对此类事件做出预言。不用说,这本书卖得很好。
我读过的最好的一本书
逛书店是我最大的享受。我漫无目的地从一本书走向另一本书,心里想着,是不是应该花时间去读它。我买书经常是靠一时冲动,根据表面上的一些有提示性的迹象来做决定。许多时候,一本书的封套就是我做决定的根据。封套上常有某个出名或不出名的人物写的赞语,或者是从一些书评中摘录的片段。某个德高望重的人士或著名的杂志写的赞扬话就可以打动我去买这本书。
这是个什么问题呢?我容易把书评与最佳书的书评弄混。书平本应是对书的质量的一种评价。这里同样有幸存者偏差这个问题。我把一个变量的最大值的概率分布错认成了变量本身的分布。除了最佳评语以外,出版商决不会把任何别的东西放到封套上去。有些作者甚至走得更远,他们从不愠不火,甚至是从不客气的书评中挑出一些字句来,使它看起来像是对这本书的赞誉。某位叫保罗·威尔莫的人就是一个例子(一位英国金融数学家,具有罕见的才智,而且不受人待见)。他设法公布出,他得到的“第一次坏评语”是来自于我,还把从中摘录的一些段落加以运用,当作先誉印在封套上(我们后来成了朋友,我这样写是得到了他的允许的)。
我第一次受这种认识偏差的捉弄而买书是在16岁的时候,书名叫《曼哈顿转账》(Manhattan Transfer),由美国作家约翰·多斯·帕索斯著。我买这本书是因为封套上有哲学家让·保罗·萨特的赞语,那些话让人觉得,多斯·帕索斯是我们这个时代最伟大的作家。这么一句简单的评语,很可能是在喝醉酒或过度兴奋状态下随口说出的,却使得多斯·帕索斯成了欧洲知识界的必读书。因为人们把萨特的评价当成了对多斯·帕索斯这本书的质量的一致评价,而实际上,它只是评语中最好的一个(虽然得到了诺贝尔文学奖,多斯·帕索斯还是隐退了)。
逆测器
一位编程员帮我编了一个逆测器(backtester)。这是个与历史价格数据库联接的软件程序。利用这个逆测器,我可以任意设定一种一般复杂程度的交易规则,把它运用到过去的数据中,观察它的支作效果。比如,我可以硬性规定,如果见到纳斯达克股票的收盘价比它们上星期的平均值高1.83%以上,我就买进,宋我立刻就能知道这种交易规则过去的运作效果。屏幕上会闪现出这种交易规则给我造成的虚拟业绩记录。如果我不喜欢这个结果,我可以把百分比改为比方说1.2%。我还可以把交易规则弄得更复杂一些。我会一直这样试下去,直到我找到了一个理想的交易规则。
我这是在干什么?和以前的任务完全一样,找出一套可能行得通的交易规则。我在把规则套用到数据中去。这种做法叫做数据探察。我试得越多,我就越有可能,仅凭运气,找出一条能在过去数据中行得通的规则。从随机序列中永远都可以找到一些可以察觉到的格局形态。我敢说,在西方世界里还存在着一种可交易的证券,它与蒙古国乌兰巴托的气温变化有百分之百的内关联。
说得技术性一点,还有比这更糟糕的扩展应用呢。莱恩、蒂默曼和怀特在最近一篇出色的论文中有更进一步的结论。他们认为,有些规则可能直到今天仍在得到成功运用,但它们有可能只是一种源于幸存者认识偏差的结果。
假设经过一段时间,投资者们把所有的技术交易规则都试验过了,这些规则是从非常广泛的统计总体(a very wide universe)中总结出来的,总之,由各类规则的几千种参数(thousands of parameterizations)构成。随着时间的推移,在历史上碰巧很奏效的那些规则就会受到更多的重视,被投资团体看成是“认真参赛者”,而不大成功的那些交易规则则更可能被人遗忘……如果在一定的时间里有足够多的交易规则被考虑过,那么其中有些规则,哪怕是一个非常大的采样里,也必定会表现出上乘的业绩,尽管它们并不真的对资本回报有预知能力,而只是纯然靠运气。当然,仅根据幸存下来的交易规则子集做出的推论在这种情况下可能会有误导作用,因为它不能代表初始阶段的全部交易规则,其中的大多数未必表现得不好。
我在个人经历中近距离目睹过某些过分的逆测工作,我对此不敢恭维。有一种很优秀的产品,名叫欧米茄交易站(Omega TradeStation tm),是专门为此目的而设计的,现在已经上市,有成千上万的用户。它甚至还专门为此目的的设计了自己的计算机语言由于失眠的困扰,计算机化了的白天的交易员到了晚上就成了逆测员,在数据中耕耘,想从中找出一些规律来。他们这种做法就像是把猴子扔到打字机上,没有告诉猴子他想要哪本书,只是觉得说不定在什么地方会撞上一注虚拟黄金。他们当中许多人都盲目地相信这一点。
我的一个同事,他有显赫的学位,却越来越迷上了这种虚拟世界,以至于到了对现实世界麻木的地步。他那仅存的一点常识是不是在堆积如山的模拟实验中迅速地消失了,亦或是他本来就没有任何常识,所以才迷上这种爱好,我不得而知。通过对他的仔细观察,我看出他原有的一点天然的态度在数据的重压下消失了。他以前疑心非常重,不过不是在正确的领域内。唉,休谟啊休谟!
更令人不安的扩展领域
在历史上,医学的发展是个试验和犯错误的过程,换句话说,医学是根据统计数字来发展的。我们现在知道,在病症和它的治疗方法之间可以是完全偶然的关系,有些药物在医疗试验中成功也完全是随机原因。我不敢说自己在医疗领域里懂多少,但在过去五年里一直在阅读着一部分医学学术文章,这么长的时间足够让我对它使用的标准产生关心的了,在下一章里我们就会看到。医学科研人员很少有懂统计学的;统计学家很少有去做医学研究的。许多医学科研人员甚至对这种认识偏差丝毫都不察觉。不错,这种认识偏差也许起的作用很小,但它肯定是存在的。最近有一篇医学研究报告把吸烟与乳腺癌的减少联系起来,这样就与以前所有的研究成果发生了冲突。从逻辑上看,这种结论可能有问题,这个结论可能纯属巧合。
挣钱季节:被结果捉弄
华尔街的分析家一般都训练有素,能从公司账目中查出他们是用什么方法把自己的赢利掩盖起来的。在与这些公司斗法时他们一般都能赢。但是他们所受的训练中还不包括怎样对付随机性。一家公司帐上有一次显示出收入增长,它不会立刻受到注意;两次,那么这家公司的名字就会在屏幕上显示出来;三次,这家公司就会受到建议别人买进的待遇。
正像业绩纪录问题那样,让我们来考虑有一万家统计标准划一的公司,假设它们的平均回报率都勉强处在无风险水平上(即国库券)。它们从事一切形式的不稳定业务。在第一年底,我们得到了5000家“明星”企业,显示出有利润增长(假设没有通货膨胀)。以及5000家“废物”,三年以后,我们会有1250家“明星”企业。投资事务所的股票审查委员会将把这些公司的名单作为“强力买进”对象推荐给你的经纪人。他会在录音电话中留下口信,说他有一项热力推荐,需要立即采取行动,你会在电子信箱中收到长长一列名单,你会从中选中一两家买时,与此同时,负责你的401K退休方案的经理会向你索取整份名单。
我们可以把这种推理运用到对投资目录的选择中去,好像我们就是上面那个例子中的经理一样。假设你置身于1900年,可选择的投资项目有几百个,你可以考虑的股票市场有阿根廷、俄罗斯帝国、英国、统一德国还有好多国家的股票,他还会买俄罗斯的和阿根廷的。故事的剩下部分大家都知道了:虽然许多国家的股票市场,像英国和美国的,都收益极佳,而那个对俄罗斯帝国投资的人手里持有的东西却比中等质量的糊墙纸好不了许多。回报率好的国家在最初的统计采样中不占多数:由于有随机性的存在,所以就会有少数几种投资类别表现得非常好。有些“专家”傻乎乎地(同时也是自作自受的)宣称“在任何一个二十年时间段里,股市总是上扬的”。我怀疑他们在这样说的时候是否了解这个问题。
癌症能自愈
每次从亚洲或欧洲出差回来,由于时差关系我总会起得特别早。有时(虽说非常罕见)我会打开电视机寻找市场信息。这种凌晨搜索令我吃惊的是有那么多的另类医药贩子,声称他们的某些产品能治病。毫无疑问,这是由于这个时段的广告率低造成的。为了证实他们说的话,他们举出令人信服的例子,说明某某人用了他们的方法就治愈了。比如,我有一次看到一位原喉癌患者解释,几种维生素的组合如何救了他的命,那药的售价低得异乎寻常,只卖14.9美元。这个人完全可能是真诚的(虽然作为对他说这几句话的补偿,人家可能会终生向他提供这种药品)。虽然我们取得了这许多的进步,人们还是相信在病与治之间存在着以这类信息为基础的联系,现在还找不一箭双雕什么科学证据能比这种真诚的、带有感情色彩的证言更有说服力。这类证言不总是出自普通人:诺贝尔奖获得者(但不是本学科的)就可以轻而易举地办到。林纳斯·波林,一位诺贝尔化学奖获得者,据说就相信维生素C的疗效,他本人就每天大剂量地服用。以他这种身分来现身说法都无法再现出波林声称的那些疗效,但公众对此充耳不闻,因为波林是个“诺贝尔奖获得者”,亿所做的证言很难被推翻,尽管他没有资格对有关医学的话题发表意见。
这类现身说法中,有许多除了给这些庸医带来经济效益以外倒也没有多大危害,但有不秒癌症患者可能已经用了更加正宗的治疗方法,现在已经死去(姥不科学的方法,像在其他领域里一样,也聚集在“另类医学”,也就是未经证实的疗法,的名号下,医疗界很难让新闻界相信医学只有一个,另类医学就不是医学)。读者也许会想,我为什么说使用这些产品的人有可能是真诚的,而没有说那些人是被这种虚幻的疗法治愈,其道理是一种叫做“自发缓解”的过程。有很小一部分癌症患者,由于某种完全令人费解的原因,把癌细胞消除掉了,得到了“神奇”的康复。有某种机制触发了病人体内的免疫系统,把体内所有的癌细胞全部消除掉了。这些人就是喝了一杯佛蒙特矿泉水,或是是嚼一片干牛肉,都会像服用了这些包装那么自发;它们在本质上,可能有某种原因,我们至今还没有先进到能够探测出来。
已故天文学家卡尔·萨甘一生致力于推进科学思维,是非科学思想的死对头。他对法国路德市做了一次访问,那里的人们仅简单地接触一下圣水就得到了治愈。之后,他对癌症治愈率作了研究,发现了一个有趣的事实:在所有到访过那个地方的癌症患者中,他们的治愈率,即使是有,也比自发缓解的统计数字还低。它比不去路德市的患者的平均自发缓解率还要低!在这种情况下,统计学家是否应该得出这样一个结论,癌症患者在去过路德市以后存活率反而降低了呢?
皮尔逊教前往蒙特卡罗(按字面理解):随机性看来不随机
20世纪初,人们开始开发用于处理随机结果的技术时,设计了几种探察反常情况的方法。卡尔·皮尔逊教授(就是尼曼-皮尔逊当中的那个皮尔逊,每位在统计学101课堂上听过课的人都熟悉)设计出了第一个非随机性测试方案(实际上它是对正常状态的离差做测试,而从动机和目的来看,全都是一回事)。1902年7月间,他运行了几百万次的所谓蒙特卡罗(轮盘赌的旧名)试验,并检查它们的结果。他发现了一个有高度统计学意义的现象(误差小于十亿分之一):这种运行不是纯随机的。什么!轮盘的转动会不是随机的!皮尔逊教授对这项发现十分吃惊。可是这个结果本身什么也说明不了:我们知道,像纯随机抽取这样的事情是不存在的,因为抽取的结果取决于设备的质量。只要我们充分考虑到细节问题,我们总会从什么地方把非随机性找出来(即,轮子本身没有达到最完美的平衡,或者旋转球并不十分圆)。统计学方面的学者称之为参照系问题(reference case problem),并解释说,实践中真正的随机性是达不到的,它只存在于理论中。于是,一位经理会问,这种非随机性能不能引申出任何有意义的、可以让人获利的规则呢?如果我需要运行1万次来赌博1美元,并指望经过这番努力能挣到1美元,那么我业余去给人家介绍门卫差事比这要挣得多。
但是这项结果还有一个令人疑惑的因素。非随机性中有下面这样一个严重问题,它更关系到实际应用,那就是,连统计学先驱们也忘记了这样一个事实:一系列随机实验不一定非得毫无格局形式可言才可称得上是随机。事实上,如果数据真的表现为完全没有任何格局形式,反而成了极其可疑,看起来更像是人为的。单独一次随机实验肯定会显示出某种格局形式,我是说,只要你仔细去观察。我们知道,皮尔逊教授是最早对创建人工随机数据的发生器产生兴趣的学者之一。那是一种表格,人们可以用来输入各种科学和工程模拟(也就是我们的蒙特卡罗模拟器的前身)。问题在于,他们不想让这些表格中体现任何形式的规率性。然而真正的随机性看起来并不随机!
我要对癌集束这个著名的现象做一个分析,以便进一步说明这个问题。让我们来考虑,在一个方块上,有16支飞标随机地射中它,射中方块中任何一个位置的概率都相同。如果我们把这个方块分成16个小块,我们可以预期,平均每个小方块中都会有一支飞标,但这只是平均。在16个小方块中恰好有对应的16支飞标的概率非常小。在这个平均的方格阵中,有几个方块中将不只有一支飞标,而许多方块中则一支飞标也没有。在方阵中不体现出这种(癌)集束的现象是极其少有的。现在,把我们这个带飞标的方阵挪盖到任何一个地区的地图上,一些报纸就会宣布,其中一个地区(有高于平均数的飞标的那块地方)隐着致癌射线,律师们闻讯赶快去找患者谈话去了。
狗没有吠叫:论科学知识中的认识偏差
根据同样论点,科学中也有一种有害的幸存者认识偏差,它影响研究成果能否得到发表。在某程度上,这与新闻界有相似之处,产生不了具体结果的研究得不到发表。这看起来有道理,因为报纸没必要以头版头条大声疾呼,告诉人们什么新鲜事也没发生(相比之下,《圣经》在这方面就有足够的明智,它说:ein chadash betacht bashemesh-“普天之下没有初次出现的事物”,告诉我们事物总会重现)。现在的问题是,人们把发现某种不存在与不存在某种发现混淆了起来。没有事情发生这一事实本身就可能是一条重大信息。愉如夏洛克·福尔尔摩斯在银色火焰案中所注意到的那样,奇怪就奇怪在那条狗没有发出吠叫。更加成问题的是,有许多科学成果没有能够得到发表,是因为它们没有统计学意义,但这不等于它们没有提供信息。
我得不出结论
常有人这样问我:在什么情况下才是真正不凭运气呢?老实说,我回答不了这个问题。我可以看出甲似乎不如乙运气好,但我在做这种认定的时候很没有信心,所以这没有什么意义,我宁愿保持怀疑态度。人们经常曲解我的意见,我从没说过每个有钱人都是白痴、每个不成功人士都是因为不走运这样的话,我的意思只不过是,在不具备更多信息的条件下,我宁愿对自己的判断加以保留。这样比较保险。
失败者担待一切
—论现实生活中的非线性现象
人生中非线性的险恶现象。走向贝尔·埃尔区并染上有钱有势者的恶习。微软的比尔·盖茨为什么可能不是他那个行业里最优秀的人(不过请不要把这一事实通报他)。不许驴子吃草。
下一步,我来审视一下“人生不平”这句俗话,但是氏 们要使用一个新的视点。我们要这样说:人生以非线性方式不平。这一章是说,人生中一个小小的优越条件,如何就能转达变为高度不成比例的回报,或者说,如何在毫无优越条件可言的情况下,由于得到了随机性的一丁点帮助,京戏打开了财富之门。
沙堆效应
首先我们来对非线性下定义,可以有许多办法来对它做说明,但是在科学中最流行的方法之一叫做沙堆效应。我用下面的方法来解释。我正坐在里约热内卢伊帕内玛的沙滩上,不想作任何费力的事情,与读书写字之类的事情毫不沾边(当然这没能办到,因为我脑子里还在写着这几行字)。我从一个孩子手里借过来一些塑料沙滩玩具玩着,想要造一座巨堡,虽然本事差些,但我还是顽强地想要仿造巴比伦塔。我不断地往顶部加沙子,使它的高度慢慢增加,当年我的巴比伦亲戚价增以为这样他们就能登上天;我的设想要逊色一些;我要试试堆到多高它才会塌下来。我不断地加沙子,试试看这种结构最后怎么坍塌下来。孩子没风过大人堆沙堡,瞪大子眼睛望着我。
没多一会儿,我的城堡不可避免地倒下来,加入到沙滩 上的其他沙子中去了,这让一旁观看的孩子很开心。我们可以说,是那最后一颗沙子导致了整个结构的坍塌。我们在这里目睹的,就是由线性外力施加到一个客体上以后产生的一种非线性结果。非常小的一点额外投入,在这个例子中是那最后一颗沙粒,导致了一个不成比便的后果,也就是把我那刚起步的巴比伦塔摧毁了。大众智慧中蕴含了许多这种现象,体现在这样一些谚语中:“一根稻草压折了骆驼腰”和“一占一滴造成盆满水流”。
这些非线性力学现象有个书卷气的名字:混沌理论(chaos theory)。这个名字不正确,因为它与混沌状态没关系。混沌理论主要是关于一种函数关系,在这种关系中加入很小的一个量就会导致一个不成比例的反应。举例来说,种群个体数量模型就可以引向一条爆炸性增长或一个种群灭绝的道路,这取决于在时间起始点上种群个体数量的一个非常小的差异。在科学上有一个与此对应的很流行的比喻是气候:已经证明,一只蝴蝶在印度简单地拍动它的翅膀,最终会导致纽约刮起飓风。但是古典主义也有东西要提供:帕斯卡(与第七章帕斯卡的赌注是同一个人)在谈到克里奥帕特拉的鼻子时说,如果它稍为短上一点,整个世界的命运就会有所疑义变。克里奥帕特拉外貌迷人,纤长的鼻子十分醒目,使得裘利吐斯·凯撒和他的继任者马克·安东尼都拜倒在他的面前(在此,我的学者式的自以为是不禁区又要与常规智慧相左了:普鲁塔克称,真正使得这两位动遥了克时奥帕特拉统治的人发疯般迷恋的,是她在谈话中的辨才,而不是她的美貌,对这点我深信不疑)。
进入随机性
当随机性进入这个游戏的时候,事情就变得更有意思了,设想在等候室里挤满了演员等待试镜。能够得胜的演员人数肯定很少,而这些演员,根据我们探计过的幸存者认识偏差,在公从眼里一般被认为是这个行当里的代表。得胜地者会进入贝尔·埃尔区,他们会觉行有必要掌握一些消费高档商品的基本知识,可能由于放荡和无规律的生活方式,他们也进行一些任意挥霍的胡闹。而其他人(大多数),我们可以想像他们的命运;一辈子在社区星巴克咖啡馆端泡沫咖啡加奶,在两次试镜的间隙中奋力调整自已的生物钟。