在20世纪40年代,美国氰胺公司的化学家弗兰克?威尔科克森(Frank Wilcoxon)深为一个统计问题所困扰。针对不同化学处理的结果,他采用“学生 ”t检验和费歇尔的方差分析做假设检验,,进行比较。这是当时分析实验数据的标准方法,统计革命已经深入到了科学实验室,有关解释这些假设检验所用统计图表的书,已经摆到了每位科学家的书架上。但是威尔科克森所关心的,是这些方法常常表现为失效的情形。
他进行了一系列的实验,在他看来,这些实验中不同处理的结果显然是并不相同的。但是,有时候t检验显示了统计上的显著性,而有时候却没有。当进行一项化学实验时,常常碰到,在实验程序之初反应发生器(即化学反应进行的地方)并未充分预热,也会碰到某种特殊酶的反应力开始发生变化,结果使得实验结果似乎有误,常常是某个数据要么过大,要么过小。有时可以找到产生异常结果的原因,而有时虽然结果是一个异常值(outlier),显著地不同于其它结果,但又找不到明确的原因。
威尔科克森考察了t检验和方差分析的计算公式,意识到这些极端的异常值显著地影响了结果,导致“学生”t检验统计量的数值比正常情形下的数值更小(一般而言,大的t检验统计量对应着小的P值)。这诱使他从观测值的集合中剔除异常值,用剩下的观测值计算t检验统计。这样一来,假设检验中的数学推导便出了问题。化学家如何才能知道一个数到底是不是异常值呢?必须剔除多少个异常值呢?当异常值被剔除之后,化学家还能继续使用那些基于标准检验统计量的概率图表吗?
弗兰克?威尔科克森着手搜集有关的文献,他确信那些发明统计方法的伟大数学家们早已注意到了这一问题。然而,他没有发现相关的参考文献。威尔科克森认为他找到了一个解决该问题的思路,但这一思路计算非常繁琐,要用到观测数据的组合与排列(前一章已经提到了F?N?大卫的组合数学)。于是,他便着手寻找计算那些组合数的方法。
唉,这实在是太荒唐了!为什么要由一个像威尔科克森那样的化学家去研究这些简单而繁琐的计算方法呢?统计学界早应有人完成了这一工作!他于是又回到统计学文献中去找以前的论文,但他还是没有找到这种论文。他便寄了一篇论文给《生物统计学》(Biometrics)杂志(不要与K?皮尔逊的《生物统计》(Biometrika)混淆),主要是想验证一下自己的数学方法。他并没有想过自己的研究会是一个原创性的工作,还想着审稿人一定知道文中内容早已在哪儿发表过了,从而拒绝他的论文,这样一来,也就等于审稿人告诉了他所需要的那些参考资料。然而,就审稿人和编辑们所知,这是一个原创性的研究,以前没有人思考过这一问题,他的论文在1945年发表了。
威尔科克森和《生物统计学》的编辑们都不知道,一个名叫亨利?B?曼(Henry B. Mann)的经济学家和俄亥俄州立大学(Ohio State University)一个名叫D?兰塞姆?惠特尼(D. Ransom Whitney)的统计学研究生都在研究一个相关的问题。他们正试图给统计分布排序,这样一来人们便可以认为,在某种意义上,1940年的工资分布“小于”1944年的工资分布。他们找到了一种排序方法,但要用到一系列简单而繁琐的计数方法。
这促使曼和惠特尼设计了一个检验统计量,该统计量的分布也能用组合数学计算出来,与威尔科克森的计算类型一样。他们在1947年发表了一篇论文,介绍这种新方法,这已经比威尔科克森发表的论文晚了两年。很快便发现,威尔科克森检验(Wilcoxon test)和曼-惠特尼检验(Mann-Whitney test)密切相关,产生同样大小的P值。但是,这两个检验统计量引出了一些新的东西。直到威尔科克森发表之时,统计学界普遍认为,所有检验统计量都是建立在数据分布的参数估计基础上的。但是新的方法是一种无需估计任何参数的检验方法,仅需要将观测数据的散点图与纯随机分布所预期的情形进行比较,这属于一种非参数检验(nonparametric test )。
由此,统计学在K?皮尔逊一些初步的想法之上迈出了革命性的一步,现在无需使用参数就可以处理数据分布的问题了。在西方,多数人都不知道,其实在20世纪30年代后期,苏联的安德烈?柯尔莫哥洛夫和他的一个学生N?V?斯米尔诺夫(N. V. Smirnov)就发展出了一种不同的无需使用参数的分布比较方法。威尔科克森、曼和惠特尼的研究发展了数学研究的一个新领域,将注意力引致了有序秩(ordered ranks)的根本性质上,斯米尔诺夫-柯尔莫哥洛夫的研究成果也很快被纳入其中了。
进一步的发展
一旦在数学研究中出现了一个新的领域,就会有人用不同的方法去思考。在威尔科克森最初的研究后,很快就涌出了许多不同的替代方法。赫尔曼?谢诺弗(Herman Chemoff)和I?理查德?萨维奇(I. Richard Savage)发现,威尔科克森检验可以看作是次序统计量(ordered statistics)的期望均值,他们还能将非参数检验扩展为关于不同基础分布(different underlying distribution)的一系列检验,都不需要进行参数估计。到了20世纪60年代早期,这类检验(现在被称为“非参数检验”(distribution-free tests)成了最热门的研究课题。一些博士研究生选择该理论中的某些小问题来做学位论文,一些会议专门讨论这种新的理论。威尔科克森也继续进行该领域的研究,提出了组合计算的更为精巧的算法,扩展了检验的应用范围。
1971年,捷克斯洛伐克的雅罗斯拉夫?哈耶克(Jaroslav Hájek)写了一本权威的教科书,书中提出了该领域的一般性理论。他针对所有的非参数检验作了根本性的一般化,将一般化的方法与中心极限定理(the central limit theorem)的林德伯格-利维条件(Lindeberg-Lévy conditions)联系起来了。这正是数学研究中常用的方法。从某种意义上说,所有的数学实际上都是相互联系的,但是这些联系的准确性质和用于挖掘这些联系的见识,常常需要很漫长的时间才能显现。哈耶克于1974年去世,年仅48岁。
当弗兰克?威尔科克森试图将其在统计上的研究成果推广应用时,他放弃了最初的化学领域,而是在美国氰氨公司及其勒德勒实验分室(Lederle Labs divison)建立了一个统计服务小组。1960年,他来到了弗罗里达州立大学(Florida State University)的统计系,成为一名倍受尊敬的老师和研究人员,指导了几名博士研究生。当他在1965年去世后,身后的学生和统计创新方法,仍然对统计学产生着重大的影响。
尚未解决的问题
非参数检验的发展促使人们在这一新领域进行了大量的研究。然而,在以前所用的参数方法与非参数方法之间,好像并没有什么明显的联系,因而还有两个问题尚未解决:
1. 若数据具有一个已知的参数分布,如正态分布,这种情况下我们采用非参数分析方法会有多不好?
2. 若数据不太适合采用参数模型(parametric model),那么数据必须偏离参数模型多远时,使用非参数方法才会更优?
1948年,《数理统计学年报》的编辑收到了一篇来自塔斯马尼亚大学(the University of Tasmania)的一位不出名的数学教授的论文,这所学校位于澳大利亚南部的海滨小岛上。这篇杰出的论文一举解决了上述两大难题。那时,埃得温?詹姆斯?乔治?皮特曼(Edwin James George Pitman)已经在《皇家统计学期刊》上发表了3篇早期的论文,在《剑桥哲学学会会刊》(the Proceedings of Cambridge Philosophical Society)上发表了一篇论文,回过头去看,后一篇论文奠定了他后续研究的基础,但是它被人们忽略或是遗忘了。除了那4篇论文,在向《数据统计学年报》投稿时,已经52岁的皮特曼没有发表过其它的著作,也没什么名气。
E?J?G?皮特曼于1897年生于澳大利亚的墨尔本。他考入墨尔本大学(the University of Melbourne)念本科后,由于第一读世界大战而中断了学业,服了两年兵役后,他回到学校念完了本科。“那时,”他后来写道:“澳大利亚的大学没有数学方面的研究生院。”一些大学为优秀学生提供奖学金,到英国继续上研究生,但是墨尔本大学没有。“当我学习4年后离开墨尔本大学时,我尚未接受过研究方面的训练,但是我想我已经学会该怎么去学习和使用数学,可以去就应付所碰到的任何问题……”然而,首要的问题是要赚钱来养活自己。
塔斯马尼亚大学正要找人教数学,皮特曼去应聘而成为了一名数学教授。整个系就两个人,一位新来的教授和一位兼职计量。该系要为所有其它系的本科生上数学课,因此新教授忙着讲课,占去了几乎所有的时间。当理事会决定招聘一位全职的数学教授时,一位理事曾听说过数学有一悠闲的的分支叫做统计学,因此问应聘者是否准备讲统计学的课程(不管统计学到底是什么东西)。
皮特曼回答:“我并不能说我具备统计学的专业理论知识,但是如果被聘用,我将稍做准备,在1927年开出这门课。”他不具备统计的专业知识,也不具备统计理论的任何其它相关知识。在墨尔本大学,他学地一门高级逻辑学的课程,老师用了几次课来介绍统计学。正如皮特曼所指出的,“当时,也就是在那里,我认定统计学并不是我所感兴趣的东西,也永远不会为它而苦恼。”
年轻的E?J?G?皮特曼在1926年秋天来到了塔斯马尼亚州的霍巴特(Hobart),只不过是一个本科生而已,却顶着教授的头衔。这是一个偏远的省级学校,根本感受不到身处伦敦和剑桥那种学术圈内的骚动。他写道,“直到1936年我没有发表过任何东西。之所以迟迟没有东西发表,主要有两个原因:一个是工作负担繁重,另一个是我所受教育背景的限制。”他的意思是说,他在数学研究方法上的训练不够。
到了1948年,当他将那篇非凡的论文投到《数理统计学年报》的时候,塔斯马尼亚大学数学系队伍有所壮大,已有一位教授(皮特曼)、一位副教授、、两位计量和两名助教。他们所开的数学课名目众多,既有应用数学方面的,也有理论数学方面的。皮特曼每周上12次课,周六也上课,同时获得了一些研究资助。从1936年开始,联邦政府为了促进澳大利亚高校的科学研究,每年拨出30000英镑进行资助。这些经费按人口在各州分配,因为塔斯马尼亚是一个较小的州,因此全校每年总共能得到2400英镑的资助。至于皮特曼能分到多少,他没有说。
慢慢地,皮特曼开展了多方面的研究,他发表的第一篇论文是关于流体力学中的一个问题。随后的3篇论文研究假设检验理论中几个特别的问题,这些论文本身倒并不怎么值得称道,但却是皮特曼的习作,探讨如何来发展自己的观点,怎样将数学的不同分支想到联系起来。
直到他开始撰写1948年那篇论文,皮特曼才建立起有关统计假设检验的性质以及过去的检验(参数方法)与新的检验(非参数方面)之间相互关系的一个清晰的逻辑框架。凭借着新方法,他解决了上述两大难题。
他的发现令人惊讶,甚至当原来的假设为真时,非参数检验也几乎与参数检验一样的棒。皮特曼成功地回答了第一个问题:当我们知道参数模型和本应使用特定的参数检验时,如果还使用非参数检验,结果会有多差呢?皮特曼的答案时,根本不差。
第二个问题的答案更让人吃惊。如果数据不适合用参数模型,得差多远时使用非参数检验才会更好呢?皮特曼的计算表明,只需稍稍偏离参数模型,则非参数检验将远远地胜过参数检验。看起来,曾经深信别人早已做出了这个简单发现的化学家弗兰克?威尔科克森,似乎也是在无意中碰到了统计学中一块真正的点金石(philosopher’s stone)。皮特曼的结论表明,所有的假设检验都应该是非参数方法的。K?皮尔逊发现了带参数的统计分布,这仅仅是第一步,现在,统计学家们在解决统计分布的问题时,无需再为参数而烦恼了。
数学这东西往往是玄而又玄。在那些看似简单的方法背后,威尔科克森、曼、惠特尼和皮特曼对数据的分布作了一系列的假设,要理解这些假设或许又得花上一个25年的时间。第一个烦人的问题是由芝加哥大学(the University of Chicago)的R?R?巴哈杜尔(R. R. Bahadur)和L?J?萨维奇(L. J. (“Jimmie”) Savage)在1956年提出来的。几年前,当我将巴哈杜尔和萨维奇的论文给我的一位来自印度的朋友看时,他拿他们两人的名字匹配当戏谑,“Bahadur”一词在印度语是“勇士”(warrior)的意思,率先质疑非参数统计检验理论的是一名勇士和一个野蛮人(savage)。
巴哈杜尔和萨维奇所提出的那些问题实际上也正是源于异常值的问题,威尔科克森正是由该问题而首次提出了非参数检验方法。如果异常值极少,并且是完全“错误”的观测值,那么非参数方法将降低它们在统计分析中的影响。但是如果异常值系统性地污染了数据,采用非参数方法可能只会使分析更糟糕。我们将在第23章讨论有瑕疵数据分布(contaminated ditributions)的问题。