当20世纪80年代出现了艾滋病(AIDS)这种传染病时,有若干问题需要回答。一旦传染源HIV(human immunodeficiency virus,即人体免疫缺损病毒)确定了,卫生官员需要知道有多少人受到感染,以便安排需要的资源来应付这种传染病。幸运的是,在此之前的20至30年所开发出来的流行病学 数学模型,在这里可派上用场。
从传染病的现代科学观点来看,某些个体病人接触到传染源,其中有些人会被传染,而在经过一段所谓的“潜伏期”之后,那些被传染的人会显现该疾病的症状。一旦被传染,这个人就会成为其他还没有被传染人的潜在传染源。我们没有办法预测谁会与传染源接触,谁会被传染,或谁会传染他人。我们所能做的,只是处理相关的概率分布,并估计这些分布的参数。
参数之一是平均潜伏期,也就是从被传染到症状产生的平均时间。就艾滋病这种传染病来说,平均潜伏期对卫生官员是特别重要的参数。他们没有办法知道究竟有多少人被传染,又有多少人最终会得上这种疾病,但如果能知道平均潜伏期,他们就能根据已经患有这种疾病的人数,估计出受感染的人数。不仅如此,由于艾滋病传染模式的不寻常特征,卫生官员拥有一组患者,并知道这组患者感染的时间和他们的发病时间。有一个小的血友病患者群体由于使用了被污染的血液制剂而感染上HIV,他们提供的数据可以用来估计平均潜伏期这一参数。
这个估计值的准确性如何?流行病学家可以说,他们使用的是费歇尔意义上的最佳估计量。因为他们所得的估计值是一致的,又是最有效的。他们甚至还可以修正可能的偏差,并宣称他们的估计值是无偏的。但是,如果我们在前面章节里指出的,我们没有办法知道某一个具体的估计是否正确。
如果我们不能够说某个估计值是绝对准确的,那么我们还有没有办法可以说这个估计值与参数的真值之间有多接近呢?这个问题的答案在于使用区间估计(interval estimate)。点估计(point estimate)是一个单一的数字。例如,我们可能利用从血友病研究那里得到的数据,估计出平均潜伏期是5.7年。而一个区间估计会这样表述:平均潜伏期在3.7年至12.4年之间。在很多情况下,有区间估计的数字就够了,因为所需要的公共政策对区间估计的两端边界值来说是一样的。但有些时候,区间估计值显得太宽了,对最小的边界值和最大的边界值需要制定不同的公共政策。根据一个很宽的区间估计值所能得出的结论是,利用已有的信息不足以做出充分的决策,应寻求更多的信息,可以通过扩大调查的范围或进行一系列其它的实验来得到。
举例来说,如果艾滋病的平均潜伏期长达12.4年,则感艾滋病毒的人当中约有五分之一的人在感染之后要存活20年以上;如果平均潜伏期是3.7年,那么几乎每一个被感染的人在20年内都会发病。这两个结果相差太大。没有任何一种最佳的公共政策可以兼顾,因此需要更多的信息。
在20世纪80年代末期,美国国家科学院(National Academy of Science)如今国内一批顶尖的科学家组成一个委员会,讨论臭氧层破洞的问题。臭氧层可保护人类不受紫外线辐射的伤害,但由于人类使用的喷雾剂中含氟氯碳化物,可能破坏外层空间的臭氧层。这个委员会(主席为约翰?图基(John Tukey),是本书第22章讨论的主角)不做是或否的二分法回答,而是决定以概率分布的形式建立氟氯碳化物对臭氧层的影响模型。于是,他们计算出了臭氧层每年平均变化的区间估计值。虽然使用的数据量不是很多,但他们发现,该估计区间的下边界值暗示,每年臭氧层将以一个较大的幅度减少,而这将使人类的生命在50年内受到严重的威胁。
区间估计现在已经普及到几乎所有的统计分析领域。当一项民意调查指出44%的一般民众认为总统干得不错时,通常会加上一个附注,说明这个数字“具有正负3个百分点的误差”。上述民意调查结果的意思是,44%被调查的民众认为总统干得不错。由于这是个随机的调查,所求的参数是全国所有的民众中认为总统干得不错的人数的百分比。由于样本的容量较小,因此一个合理的猜测是,总体的参数值应落在41%(44%-3%)与47%(44%+3%)之间。
怎样计算区间估计值?怎样解释一个敬意估计值的涵义?我们能对一个区间估计值做出相应的概率表述吗?我们有多大的把握确信总体参数的真值会落在所估计的区间里?
奈曼的解
1934年,耶日?奈曼在皇家统计学会做了一个演讲,题目是“论代表性方法的两个不同方面”(On the Two Different Aspects of the Pepersentative Method)。他的论文是关于抽样调查分析的。正如奈曼作品的一贯风格,这篇文章非常优美,导出了形式简单具直观易懂的数学表达式(当然是经过奈曼的推导之后才会如此)。但全文最重要的部分却在附录里,奈曼在这个附录中提出了一个很直接的方法,用来创建区间估计,并确定所得的区间估计值有多准确。奈曼称这个新的方法为“置信区间”(confidence intervals),而把置信区间的两端称为“置信界限”(confidence bounds)。
G?M?鲍利(G. M. Bowley)教授是大会的主席,起身致谢辞。他先用几段话讨论了论文的主要部分。接着就说到了附录:
我不太确定是否应该要求给出一个说明,或者直接提出质疑。论文的字里行间暗示,论文很难读懂,而我可能是被这个暗示误导的人之一(在这段话之后,他举出一个例子,表明他完全理解了奈曼提出的方法)。我只能说,从我一看到这篇论文开始,我就很认真地读它,而且昨天我还很仔细地读了奈曼博士对这篇论文的补充资料。我指的是奈曼博士的置信界限。我不太有把握地说,这里的“置信”是不是一个“置信诡计”。
鲍利接着举了一个例子说明奈曼的置信区间,然后继续说道:
这个方法真的会将我们引向深入吗?我们会比艾萨克?托德亨特(Isaac Todhunter,一位19世纪末的概率学家)知道的更多吗?它会让我们超越K?皮尔逊和埃奇沃思(Edgeworth,数理统计发展早期的先驱之一)吗?它真的会引领我们到我们所需要的地方去吗?就是说我们所从中抽取样本的总体其比重会正好落在这些界限内吗?我看并不见得,……我不知道我是否已把我的想法表达清楚了,……自从我看到这个方法,我就觉得它是个难题。其理论陈述没有说服力,除非有人能说服我,否则我还是怀疑它的有效性。
鲍利对置信区间这个新方法的疑惑,是自从置信界限的概念被提出来以后大家对它的普遍迷惑之一。显然,奈曼在推导其结果过程中所用的四行优美的微积分式子,在抽象的概率数学理论上是正确的。它也确实能算出一个概率值。但这个概率值究竟代表什么则并不清楚。数据是观测得来的,参数是固定的值(尽管是未知的),因此参数取某个特定值的概率只有两个结果,或者是100%(如果它就是那个值),或者是0(如果它根本不是那个值)。然而,一个95%的置信区间涉及的是95%的概率。这个概率指的是什么?奈曼在此绕过了这个问题,把他的创造称为置信区间,回避使用概率这个词。但是鲍利及其他同行一眼就看穿了这个手法。
费歇尔也在批判者之中,不过他没有抓住这个要点。他所讨论的内容空洞又含混,而且根本不是奈曼论文里的内容。因为费歇尔根本没有完全弄清楚区间估计值的计算过程。在他的评论里,他所指的是“信念概率”(fiducial probability),而奈曼的论文里并没有这个词汇。长久以来,费歇尔一直试图解决这个问题——怎样确定与一个参数的区间估计相关联的不确定度?费歇尔从一个很复杂的角度来解决这个问题,有点像他的似然函数。不过他很快就证明,用这种方式研究这个公式并不符合概率分布的要求。费歇尔称这个函数为“信念分布”(fiducial distribution),但他后来又违反了他自己的思路,使用了其他人在处理适当概率分布时可能会用到的相同数学方法。费歇尔所希望的结果,是从观测数据中得到参数的一组合理的值。
这也正是奈曼所得的结果,而且如果该参数为正态分布的平均数时,两个方法会得到相同的答案。据此费歇尔认为奈曼窃取了他的偏偏分布的思想,只是换了个名字而已。费歇尔对他的信念分布的研究从来没有取得进一步的发展,因为他的方法在遇到更复杂的参数(比如标准差)时就不管用了。奈曼的方法对处理任何类型的参数都是有效的。费歇尔似乎从未理解这两种方法之间的差异,直到死前他还坚持认为,奈曼的置信区间最多只是他的信念区间(fiducial intervals)概念的推广。他坚信,在碰到足够复杂的问题时,奈曼的显然是推广的方法也不会奏效——就像他自己的信念区间方法一样。
概率与置信水平
不管碰到的问题有多复杂,奈曼的方法没有失败,这也是该方法在统计分析中得到广泛应用的原因之一。奈曼置信区间中的真正问题,倒不是费歇尔所提出的那个,而是鲍利在一开始讨论时就点出来的问题,即这个方法中的概率到底指的是什么?奈曼的回答又回到了现实生活中概率的频数定义上。正如他在这篇论文里所说的(他在稍后的另一篇探讨置信区间的论文里,对这一点做了更清楚的解释),不应该从每一个结论的角度看待置信区间,而应该其视为一个过程。从长期来看,对于一直计算95%的置信区间的统计学家来说,他们将发现,在总次数中,参数的真值将有95%的机会落在所计算的区间内。请注意,对奈曼来说,与置信区间相联系的概率并不是我们“答对”的概率,而是统计学家使用某种方法从长期来看做出正确陈述的频率。这个数字与当前的估计值有多“准确”根本没有任何关系。
尽管奈曼定义这个概念时非常仔细,尽管许多像鲍利这样的统计学家也都非常小心,力图保持对概率概念的清晰理解并使其不被误用,但在科学领域中对置信区间的普遍应用却导致了许多草率的思维。举例来说,有人使用95%的置信区间来表示他有“95%的把握”保证参数的真值会落在这个区间里,这是很普遍的。我们在13章会碰到:L?J?萨维奇和布鲁诺?德费奈蒂(Bruno de Finetti),并介绍他们对个人概率的研究,他们的研究结果证明了使用上述陈述的合理性。但是,计算某人对某一件事的把握程度,与计算一个置信区间完全是两回事。统计文献里有很多文章都谈到,根据一组相同的数据,以萨维奇和德费奈蒂的方法所推导出的参数范围,和以奈曼的方法为基础推导出的置信界限,两者之间是截然不同的。
尽管在奈曼的方法中人们对概率的涵义仍存有疑问,但是奈曼的置信界限已经成为计算区间估计值的标准方法。许多文学家计算90%或95%的置信界限,而且看上去好像他们有把握认为,该区间包含了参数的真值。
时至今日,已无人再谈论或在写作中涉及费歇尔的“信念分布”的话题了。该思想已随费歇尔的去世而消失。费歇尔竭力让他的思想能发挥作用,他做了大量的相当聪明而且非常重要的研究工作,其中有些研究成果已成为当今的主流,而其它部分则仍停留在费歇尔搁笔时的不成熟状态。
在费歇尔的研究过程中,他曾有好几次差点儿就建立一门统计学业的分支学科,也就是他所称的“逆概率”(inverse probability),但每次他都半途而废。逆概率的思想起源于18世纪的一位业余数学家雷韦朗?托马斯?贝叶斯(Reverend Thomas Bayes),贝叶斯与很多同时代的顶尖科学家都有密切的书信往来,并经常提出一些很复杂的数学问题给他们。有一天,他随意玩弄一些概率的标准数学公式,用简单的代数把其中两个式子结合在一起,竟发现一些令他很惊讶的结果。
下一章,我们来谈谈贝叶斯异论(Bayesian heresy),并且看看为什么费歇尔拒绝使用这种逆概率。