饭饭TXT > 海外名作 > 《女士品茶》作者：[美]萨尔斯伯格/译者：邱东等【完结】 > 【书香门第】女士品茶.txt

第10 章拟合优度检验

作者：美-萨尔斯伯格/译者：邱东等当前章节：8794 字更新时间：2026-6-16 06:22

20世纪80年代，出现了一种新型数学模型，激起了公众的遐想，主要是因为这种数学模型的名字——混沌理论（chaos theory ）。这个名字提示着某种形式的统计建模明显带有杂乱无序特征的随机性。创造了这个名字的人有故意避开使用随机（random）这个词的嫌疑。实际上混沌理论是尝试着在一个更高端的层次上，通过复兴决定论（determinism）来动摇统计革命。

回想一下，在统计革命之前科学所处理的那些“事件”，要么是已有的测量，要么是生成这些测量值的自然事件。伴随着统计革命，科学的事件变成了能左右测量值分布的参数。在早期的确定性方法中，有一个信条是，越精确的测量，对所考察的自然客体的描述也就越精确；而在统计方法中，分布参数有时候不必有一个自然客体，无论多么精确的测量系统，分布参数的估计值终究是有误差的。例如，在确定性方法中，重力常数是描述物体如何向地球下落的一个恒定不变的值；而在统计方法中，我们对重力常数的测量值永远都不会是一样的。为了“通晓”落体的性质，这些测量值分布的离散状态才是我们想要确立的。

1963年，混沌理论专家爱德华?洛伦兹（Edward Lorenz）做了一个后来时常被引用的演讲，演讲题目为“巴西一只蝴蝶翅膀的翩翩舞动，会引起德克萨斯州的龙卷风吗？”洛伦兹的主要论点是，混沌的数学函数对初始条件非常敏感，初始条件的些微差异，经过多次迭代之后，中以导致全然不同的结果。洛伦兹相信，由于存在这种对初始条件微波差异的敏感性，以至于对所研究的问题不可能得出一个确定的答案。隐含在洛伦兹演讲中的是确定性假设，即理论上每一个初始条件都是促成某个最终结果的一个起因。这个被称之为“蝴蝶效应”（butterfly effect）的观念，已经被那些混沌理论的普及者们当作一个深邃而睿智的真理接受下来了。

然而，没有任何科学的证明揭示了这样一种因果关系的存在，也没有任何数学模型有准确的依据表明客观现实中存在着这一效应。它只是一种信念的表述而已，就其科学的有效性而言，它与关于鬼神的描述相去无几。而统计模型是用分布参数来对科学探索明确地进行解释，它们也是建立在对现实世界的一种信念所做的描述上。然而，我自己在科学研究上的经历让我确信，比起对信念的确定论的陈述，统计上的陈述更有可能是真实的。

混沌理论与拟合优度

混沌理论源于这样的观察：一个固定不变的确定性公式生成的数字有可能看上去是一个具有随机性的模型。早在一批数学家处理相对简单的迭代公式并绘出其结果的时候，就曾经发现过这种现象。在第9章，我曾经把一个迭代公式描述为：首先得到一个数，接着把这个数代入方程式中得到另一个数，用第二个数又得到第三个数，如此等等。其实，早在20世纪的最初几年，法国数学家亨利?普安卡雷（Henri Poincaré）就尝试着把这些连续的成对数值绘在图上，用这种方式理解一组复杂的微分方程式。普安卡雷在图中发现了一些值得关注的图式，却因不知道如何对这些图式做进一步的研究而放弃了深入研究的想法。而混沌理论就是以普安卡雷的这些图式为起点发展起来的。当你在绘制一张普安卡雷图形（Poincaré plots）时，会发现图纸上出现的那些点起初好像完全不成形状，表面上这些点以一种偶然的方式出现在随便什么地方，但承受着绘在图上的点数的不断增加，图式开始显现出来，有时是几组平行线，有时也可能是一组相互交叉的线，或许是很多个圆，或是和直线相交的圆。

混沌理论的拥护者认为，现实生活中那些看上去是纯随机的测量值，实际上是由某个确定性的方程组生成的，这些方程可以从普安卡雷图形的模式推演出来。例如，有些混沌理论的拥护者记录下了人类心脏动脉搏动的间隔时间，并绘成普安卡雷图形。他们声称在这些图上看到了一些形状，并且已经发现一些似乎能产生同类形状的确定性生成方程。

直到写这本书时为止，以这种方式应用的混沌理论仍存在着一个严重的缺陷。根据数据绘出的图形与用一组特定方程组生成的图形，这两者之间的拟合度如何，并未测量。他们只是要求读者观察两种相似的图形，并以此为依据证明给出的生成方程是正确的。统计分析上已经证明这种用肉眼检验的方式难免出错。因为，用肉眼判断类似的或几乎完全相同的两个图形，如果改用为此目的创建的统计分析工具仔细检验之后会发现，两者往往是大不相同的。

皮尔逊的假使优度检验

这是K?皮尔逊在他的学术生涯早期就已经意识到的一个问题，K?皮尔逊最伟大的成就之一就是创造出第一个“拟合优度检验“（goodness of fit test）。通过观测值与预测值的比较，皮尔逊构造出一种能对拟合优度进行检验的统计量，并称之为“χ2拟合优度检验”（chi-square goodness of fit test）。之所以用希腊字母χ（读作“kai”），是因为这个检验统计量的分布属于一组偏斜分布，而他称这组偏斜分布为χ家族(chi family)。实际上，这个检验统计量很像χ的平方，因此命名为“χ2”。在费歇尔看来，既然是一个统计量，就会服从一种概率分布。K?皮尔逊证明了无论用哪一种类型的数据，χ2拟合优度检验都服从相同的分布。也就是说，他能列出这个统计量的概率分布表。每一个检验都能用到同样的那套表。χ2拟合优度检验只有一个参数，费歇尔称之为“自由度”。费歇尔在1922年的那篇论文里，首次批评了皮尔逊的研究，指出在比较两种比例时，皮尔逊得出的那个参数值是错误的。

但是，没有任何理由只因为皮尔逊理论上的一个很小的错误，就贬低他的这项伟大成就。皮尔逊的拟合优度检验是现代统计分析中一个重要组成部分的先驱，这个重要组成就是“假设检验”（hypothesis testing）或“显著性检验”（significance testing），它允许分析人员提出用来模拟现实的两种（或多种）不一致的数学模型，然后利用数据来放弃其中的一个。假设检验应用得如此广泛，以至于很多科学家认为这是他们唯一能用的统计方法。在后面的章节中我们会发现，假设检验的应用甚至涉及到一些严肃的哲学问题。

检验女士是否真能品尝出茶的区别

假设我们要检验那位女士能否品尝出两杯茶的不同：是把牛奶倒进了茶水里，还是把茶水倒进牛奶里。我们给她两杯茶，告诉她一杯是茶水倒入牛奶里，另一杯是牛奶倒入茶水中。她尝了尝，正确区别开了这两杯茶。有可能她是凭猜测，猜对的机会是一半对一半。我们再给她同样的这样两杯茶，她又说对了。如果她仅仅靠猜测，那么连续两次都猜对的机会是四分之一。如果我们再给她两杯茶，假如她仍然能正确地分辨出来。若这人结果完全是猜出来的，此时猜对的机率则只有八分之一。我们继续两杯两杯地让她品尝更多杯茶，而她依然每次都能够正确地识别出来。某种意义上，我们就不得不相信她真的能品尝出其中的差别了。假定她说错了一次，假定说错的这一次就发生在第24组，而其他的全对，那么我们能否依然认为她真的有分辨不同奶茶的能力呢？假如她的错误是二十四分之四呢？或是二十四分之五呢？

假设检验（或者说显著性检验）是一种正规的统计方法，是在“待检验的假设为真”的假设前提下，用来计算以往观测到的结果发生的概率。当观测结果发生的概率很低时，我们得出原假设不成立的结论。重要的一点是，假设检验提供了一种拒绝某个假设的工具。上述例子中，待检验的假设是：那位女士只是凭猜测。假设检验的目的不是让我们接受某个假设，即使与那个假设有关的概率非常高也不能接受。

在这个普遍被接受的概念发展的早期，“significant”（显著的）这个词只是用来指“概率低到足以拒绝的程度”，数据如果可以用来拒绝某个分布，则它就是显著的。在19世纪后期的英语里，这个词仅仅是指计算结果意味着或表明了什么意思。进入20世纪之后，英语“significant”这个词在原有含义的基础上又扩展了其他的解释意义，也指某些事情是非常重要的。在某个待检验的假设条件下，统计分析仍沿用“significant”这个词“显著的”含义来表示计算结果发生的概率很低，在这个层面上，“significant”这个词有一个精确的数学涵义。但令人遗憾的是，使用统计分析的人常把显著性检验统计量理解为某种更接近这个词的现代语意的东西。

费歇尔对P值的运用

现在运用的显著性检验方法，其中大部分都是费歇尔构造出来的。他把判定具有显著性的那个概率，称为“P值”（P-value）。他对P值的涵义和有效性坚信不疑。在《研究工作者的统计方法》一书中，很多地方都专门介绍了怎么计算P值。正如我在开头的时候谈到的，这是一本专门给想要应用统计方法的非数学专业人士写的书。在这本书中，费歇尔并未解释这些检验是如何推导出来的，也从没有明确指出究竟多大的P值才算是显著的。他只是举出一些计算实例，并说明结果是否显著。在一个例子中，他给出一个小于0.01的P值，并且说明“一百个值当中，只有一个值会偶然超过（计算出来的检验统计量），因此，很显然，计算结果之间的差异具有显著性。”

1929年，费歇尔在《心灵研究学会刊》（Proceedings of the Society for Psychical Research）上发表的一篇论文中，几乎等于定义了一个在任何情况下都将是显著的特殊的P值。“心灵研究”（psychical research）提到试图用科学的方法来证明“超视力”的存在。心理学的研究人员大量运用了统计学的显著性检验来证明，在受实验者完全随意猜测这种假设条件下，其结果是不可能的。费歇尔在他这篇论文中，先是谴责某些作者完全错误地使用了显著性检验，接着他申明说：

运用生物学的方法对生物界进行观察的时候，统计学的显著性检验是必不可少的。其作用就在于防止我们被一些非主要的偶发事件所欺骗。并不是因为我们希望去研究或试图去查明这些偶发事件，而是因为它们与许多我们无法控制的其他境况联系在一起。一个观测的结果，倘若在我们正在寻找的真正原因根本不存在的情况下，几乎从未发生过，可以判断这个观测具有显著性。如果偶然发生的机率低于二十分之一，通常的做法是判断其结果具有显著性。对实际调查者来说，显著性水平的选择是任意的，但便于应用。不过，它并不意味着可以让自己每20次实验中就被骗一次。显著性检验只是告诉他什么是应该忽略掉的，也就是说应该把所有那些无法得到显著性结果的实验忽略掉。当他知道如何设计一个实验，而这个实验几乎一定能给出一个显著性的结果时，他也只能说明，这仅是一种实验上可以验证的现象。所以，对那些孤立的具有显著性的结果，他不知道如何才能让它们再现出来，只能留待以后再做进一步的调查研究了。

注意“……知道如何设计一个实验，而这个实验几乎一定能给出一个显著性的结果……”这句话，正是费歇尔使用显著性检验的核心之所在。对费歇尔而言，显著性检验只有在连续实验的相互联系中才有意义，所有这些实验的目的在于解释特定处理的作用。读过费歇尔的应用性论文之后，你会在他的引导下相信，使用显著性检验是为了得出三种可能的结论之一：如果P值很小（通常小于0.01），他断言某种结果已经显现出来；若P值很大（通常大于0.2），他宣称即便真的存在一个结果，也会因为该结果发生的可能性太小，所以不可能有任何显示出这个结果的大规模的实验；如果P值介于前两者之间，他讨论了应该如何设计下一个实验，才能得到一个更好的结果。除了上述情况，费歇尔从来没有明确说明科学家应该怎么解释P值。对费歇尔而言，看上去是如此显而易见的事，对读者来说可能并不清楚。

我们将在第18章回过头来重新审视费歇尔对显著性检验的态度。费歇尔始终坚持，从来都没有显示过吸烟有害健康，这也正是他的一个较大错误的核心之所在。费歇尔对有关吸烟和健康的证据做了犀利的分析，我们暂且把它放下，以后再谈。现在把话题转到1928年，看看当时35岁的耶日?奈曼。

J?奈曼的数学教育

当第一次世界大战在东欧爆发，奈曼的祖国陷于战火之中的时候，他还是一个在数学系读书的非常有发展前途的大学生。他被迫搬到俄国，就读于卡尔可夫大学（University of Kharkov）——一个远离数学活动的视野偏狭的地方。学校缺少具有当代最新数学知识的合格老师，而且由于受到战争的影响，他是在学期中途才入学的，因此，在卡尔可夫，他只学到一些最基础的数学知识。奈曼只能寄希望于那些能得到的数学期刊，从中查找论文文献。可想而知，奈曼受到的正规的数学教育只相当于19世纪学生学到的内容，20世纪的数学知识则是他通过自学掌握的。

对奈曼来说，可利用的数学期刊仅限于卡尔可夫大学的图书馆和后来在当地的波兰学校图书馆里能找到的。偶然的机会，他发现了亨利?勒贝格（Henri Lebesgue 1857-1941）的一套论文集。20世纪的最初几年，勒贝格提出许多现代数学分析的基本思想，但是他的论文晦涩难懂。后来的数学家把勒贝格积分、勒贝格收敛定理以及这个伟大数学家的其他一些创见简化并整理成更容易理解的形式。现在已经没有人再去读勒贝格的原著了，学生们都是通过阅读这些新版的文章来学习勒贝格的思想。

所谓的“没有人”当然是除了奈曼之外的，当时他只有勒贝格的原文可以读，他苦读这些原文，从中感受到了这些全新的（对他而言）伟大创见所蕴含的辉煌。此后的许多年，奈曼一直非常景仰勒贝格，20世纪30年代末在法国的一次数学研讨会上，终于得以与勒贝格见面。据奈曼所说，勒贝格表现得态度生硬、粗鲁无礼。当奈曼热情洋溢地表达对他的仰慕时，他阴郁冷淡地回应了一句，就转身离开了正在喜出望外地等待与他交谈的奈曼。

这种冷淡让奈曼深受伤害，并且，奈曼可能把这次经历当作了反面教训，他对青年学生一直都格外的亲切有礼，仔细地倾听他们的谈话，并对他们的热情给予鼓励和回应。奈曼正是这样的一个人。所有认识他的人都对他的亲切和蔼、富于同情心的为人记忆犹新。他与人为善、体贴入微、待人真实宽厚。当我见到他的时候，他已经80多岁了，一个身材瘦小、举止高贵、衣着讲究、蓄着整洁白胡须的老人。他在听别人讲话和别人深入交谈的时候，蓝眼睛神采奕奕地闪烁着，对每个人都同样地全神贯注，无论对方是谁。

在他的职业生涯之初，奈曼好不容易才找到工作，成为华沙大学（the University of Warsaw）的一个年轻的教师。当时，刚刚独立的波兰因资金短缺，没钱资助学术研究，也很少有给数学家的职位。1928年，他在伦敦的生物统计实验室呆了一个暑假，并认识了E?皮尔逊和他的太太艾琳（Eileen）以及他们的两个女儿。E?皮尔逊是K?皮尔逊的儿子，但是父子两人在个性上的天壤之别可谓绝无仅有：K?皮尔逊精力充沛，有支配控制他人的欲望；E?皮尔逊却腼腆谦虚。K?皮尔逊喜欢追逐新观念，常在数学概念还相当模糊，甚至还存在某些错误的时候，就忙着发表论文；E?皮尔逊则极其小心谨慎，甚至为每一步计算的细枝末节担忧。

E?皮尔逊与奈曼的深厚友谊长存在两人1928-1933年间的通信中。这些信件展示了他们对社会科学卓越的洞察力，以及两颗富于独创精神的心灵是如何提出各自的想法，或批评对方的想法，并共同解决难题的。E?皮尔逊踌躇地指出奈曼的提议或许不可行，这时他表现出谦逊的一面；奈曼巧妙地剖析复杂的问题，并抓住每个难题的重要本质，这时展现出他的独创力。有人如果想知道数学研究为什么是需要经常进行合作的事业的话，我建议他看看奈曼与E?皮尔逊的通信。

E?皮尔逊对奈曼提出的第一个问题是什么呢？回想K?皮尔逊的χ2拟合优度检验，他创立这种方法来检验观测数据是否与理论分布相符。但事实上根本不存在像χ2拟合优度检验的这种东西。分析人员有无数种方法可用来对给定的一组数据进行检验，似乎没有任何准则能够判定如何在这么多的选择中挑选出“最好的”。每次用到检验的时候，分析人员必须做出一个相当随意的选择。对此，E?皮尔逊问了奈曼以下的问题：

如果我用了χ2拟合优度来检验一组服从正态分布的数据，但我没能得到一个显著的P值，那么我怎么知道这组数据确实服从正态分布呢？也就是说，我怎么知道至今尚未发现的另一种χ2检验或者另一种拟合优度检验不会已经产生了一个显著的P值，而允许我在拟合数据的时候拒绝这个正态分布呢？

奈曼的数学风格

奈曼把这个问题带回华沙，并由此而开始了两人之间的书信往来。奈曼与小皮尔逊都对费歇尔建立在似然函数基础上的估计概念印象深刻。通过检查与拟合优度检验联系在一起的似然函数，他们开始了调查研究。两人联名发表的第一篇论文介绍的就是那些研究的结果。这是他们撰写的三篇顶尖论文当中最难的一篇，它几乎彻底变革了关于显著性检验的全部思想。当他们继续探索这些问题时，奈曼极度清晰的洞察力使问题在蒸馏中不断提纯，精炼出最基本的元素，使他们的研究成果变得更为清晰，也更容易理解。

虽然读者对此可能不太相信，但在数学研究领域，一个人写文章的风格确实发挥着很重要的作用。有些数学文献的作者似乎写不出让人容易理解的文章；有些人则似乎以写成一行又一行的数学符号与注释为乐事，一篇论文中充斥着无比繁琐的细节，以至于把总的思考都迷失在了微不足道的细节中。与之相反，有些作者却总是有能力用非常简单而有说服力的方式表达复杂的思想，数学的发展在他们的表达中显得如此的鲜明而平实。只有在回顾已经学到些什么时，读者才会确实认识到结果的伟大力量。奈曼就是这样的作者，读他的论文是件令人愉快的事，数学观点自然地展开，使用的符号简单得令人无法相信，结论的显现竟如此的自然，以至于让人感到难以理解，不禁要问，为什么很久以来居然没有人发现这项结论？

我在辉瑞的研究中心工作了27年，该中心每年都赞助康涅狄格大学举办一次学术年会。该校的统计系通常会邀请一位生物研究方面的重要人物来一天，与学生们见面聊聊，随后，会在下午的晚些时候发表演讲。由于我曾经参与负责一年一度的研讨会的资金事宜，因此有幸会见统计学界的一些大人物，奈曼就是应邀者之一。在一次研讨会前，奈曼想让他的演讲以一种特殊的方式进行，他先介绍一篇论文，随后组织一个专题组来评判他的论文。由于是大名鼎鼎的奈曼，研讨会的组织者联系了美国新英格兰地区著名的资深统计学家组成了这个专题讨论组。在研讨会开幕前的最后一记得，有位专题组成员无法出席，于是会议安排我代替他。

奈曼事先已经把他打算演讲的论文印发给了我们。那真是篇激动人心的论文！论文中奈曼利用他1939年完成的研究成果，去解决一个天文学上的难题。我知道1939年的那篇论文。几年前，当我还是个研究生的时候就看到了它，并留下了深刻的印象。论文中阐释了奈曼已经发现的一类新的分布，他称之为“散播分布”（contagious distribution）。论文中所提到的问题，开始是试着模拟土壤里昆虫幼虫的分布情形：即将排卵的母昆虫带着满肚子的卵在田野里四处飞，然后随机选取一个地点排卵，一旦排完卵，幼虫孵化出来，就从那个地点钻出地面。现在，从田野里取一个土壤样本，那么，在这个样本里发现的幼虫数量的概率分布是什么？

散播分布描述了这种情形。奈曼1939年的论文，运用一系列看似简单的方程，导出散播分布。推导的过程看上去明显而自然。显然，看完论文之后，读者会觉得除了奈曼的做法之外，再没有更好的推导方法了。但这只是在读了奈曼的文章后才清楚的。自从1939年那篇论文发表之后，人们发现奈曼的散播分布适用于相当多的领域，如医学研究、冶金术、气象学、毒物学，以及解决宇宙中星系的分布问题（就像奈曼在辉瑞的那个研讨会介绍论文所描述的）。

演讲结束，奈曼坐下来听专题小组的讨论。讨论组的其他成员都是著名的统计学家。由于太忙，不能提前阅读他的论文，他们把辉瑞的研讨会作为对奈曼荣誉的肯定。他们的“讨论”包括对奈曼的学术生涯和以往建树的评论。我作为最后一记得的替补者加入到这个专题组中，并且被告之不能提及我先前和奈曼相处的经历（其实我根本没有这种经历）。因此，我就应他的本意，直接评论奈曼那天演讲的东西。我提到在几年前是如何发现了1939年的那篇论文，以及为了准备参加座谈会，重读了论文。我尽一切所能描述论文的内容，谈到奈曼创立的分布参数其意义的巧妙方式时，我显出极大的兴趣。

奈曼对我的评论显得非常高兴。之后，我们俩热烈地讨论了散播分布以及它的用法。几周以后，我收到寄来的一个大包裹，是一本加州大学出版社（The University of California Press）出版的《J?奈曼早期统计论文选》（A Selection of Early Statistical Papers of J. Neyman），在书的内封有一行题词：“致大卫?萨乐斯伯格（David Salsburg）博士，衷心感谢他在1974年4月30日对我演讲的有趣讲评。J?奈曼。”

我把这本书视为珍宝，一是由于奈曼的题字，二是因为书中那一系列精美绝伦、文笔极佳的论文。从那时起，我有机会与奈曼的很多学生和同事交谈，得知这个我在1974年碰到的、友善的、风趣的、有感召力的人，也是他们深知并崇敬的人。

设置

手机

书架

书页

第10 章 拟合优度检验

第10 章拟合优度检验