女士品茶-第14章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
幢硎炯扑憬峁⑸母怕屎艿停谡飧霾忝嫔希皊ignificant”这个词有一个精确的数学涵义。但令人遗憾的是,使用统计分析的人常把显著性检验统计量理解为某种更接近这个词的现代语意的东西。
费歇尔对P值的运用
现在运用的显著性检验方法,其中大部分都是费歇尔构造出来的。他把判定具有显著性的那个概率,称为“P值”(Pvalue)。他对P值的涵义和有效性坚信不疑。在《研究工作者的统计方法》一书中,很多地方都专门介绍了怎么计算P值。正如我在开头的时候谈到的,这是一本专门给想要应用统计方法的非数学专业人士写的书。在这本书中,费歇尔并未解释这些检验是如何推导出来的,也从没有明确指出究竟多大的P值才算是显著的。他只是举出一些计算实例,并说明结果是否显著。在一个例子中,他给出一个小于0。01的P值,并且说明“一百个值当中,只有一个值会偶然超过(计算出来的检验统计量),因此,很显然,计算结果之间的差异具有显著性。”
1929年,费歇尔在《心灵研究学会刊》(Proceedings of the Society for Psychical Research)上发表的一篇论文中,几乎等于定义了一个在任何情况下都将是显著的特殊的P值。“心灵研究”(psychical research)提到试图用科学的方法来证明“超视力”的存在。心理学的研究人员大量运用了统计学的显著性检验来证明,在受实验者完全随意猜测这种假设条件下,其结果是不可能的。费歇尔在他这篇论文中,先是谴责某些作者完全错误地使用了显著性检验,接着他申明说:
运用生物学的方法对生物界进行观察的时候,统计学的显著性检验是必不可少的。其作用就在于防止我们被一些非主要的偶发事件所欺骗。并不是因为我们希望去研究或试图去查明这些偶发事件,而是因为它们与许多我们无法控制的其他境况联系在一起。一个观测的结果,倘若在我们正在寻找的真正原因根本不存在的情况下,几乎从未发生过,可以判断这个观测具有显著性。如果偶然发生的机率低于二十分之一,通常的做法是判断其结果具有显著性。对实际调查者来说,显著性水平的选择是任意的,但便于应用。不过,它并不意味着可以让自己每20次实验中就被骗一次。显著性检验只是告诉他什么是应该忽略掉的,也就是说应该把所有那些无法得到显著性结果的实验忽略掉。当他知道如何设计一个实验,而这个实验几乎一定能给出一个显著性的结果时,他也只能说明,这仅是一种实验上可以验证的现象。所以,对那些孤立的具有显著性的结果,他不知道如何才能让它们再现出来,只能留待以后再做进一步的调查研究了。
注意“……知道如何设计一个实验,而这个实验几乎一定能给出一个显著性的结果……”这句话,正是费歇尔使用显著性检验的核心之所在。对费歇尔而言,显著性检验只有在连续实验的相互联系中才有意义,所有这些实验的目的在于解释特定处理的作用。读过费歇尔的应用性论文之后,你会在他的引导下相信,使用显著性检验是为了得出三种可能的结论之一:如果P值很小(通常小于0。01),他断言某种结果已经显现出来;若P值很大(通常大于0。2),他宣称即便真的存在一个结果,也会因为该结果发生的可能性太小,所以不可能有任何显示出这个结果的大规模的实验;如果P值介于前两者之间,他讨论了应该如何设计下一个实验,才能得到一个更好的结果。除了上述情况,费歇尔从来没有明确说明科学家应该怎么解释P值。对费歇尔而言,看上去是如此显而易见的事,对读者来说可能并不清楚。
我们将在第18章回过头来重新审视费歇尔对显著性检验的态度。费歇尔始终坚持,从来都没有显示过吸烟有害健康,这也正是他的一个较大错误的核心之所在。费歇尔对有关吸烟和健康的证据做了犀利的分析,我们暂且把它放下,以后再谈。现在把话题转到1928年,看看当时35岁的耶日?奈曼。
J?奈曼的数学教育
当第一次世界大战在东欧爆发,奈曼的祖国陷于战火之中的时候,他还是一个在数学系读书的非常有发展前途的大学生。他被迫搬到俄国,就读于卡尔可夫大学(University of Kharkov)——一个远离数学活动的视野偏狭的地方。学校缺少具有当代最新数学知识的合格老师,而且由于受到战争的影响,他是在学期中途才入学的,因此,在卡尔可夫,他只学到一些最基础的数学知识。奈曼只能寄希望于那些能得到的数学期刊,从中查找论文文献。可想而知,奈曼受到的正规的数学教育只相当于19世纪学生学到的内容,20世纪的数学知识则是他通过自学掌握的。
对奈曼来说,可利用的数学期刊仅限于卡尔可夫大学的图书馆和后来在当地的波兰学校图书馆里能找到的。偶然的机会,他发现了亨利?勒贝格(Henri Lebesgue 18571941)的一套论文集。20世纪的最初几年,勒贝格提出许多现代数学分析的基本思想,但是他的论文晦涩难懂。后来的数学家把勒贝格积分、勒贝格收敛定理以及这个伟大数学家的其他一些创见简化并整理成更容易理解的形式。现在已经没有人再去读勒贝格的原著了,学生们都是通过阅读这些新版的文章来学习勒贝格的思想。
所谓的“没有人”当然是除了奈曼之外的,当时他只有勒贝格的原文可以读,他苦读这些原文,从中感受到了这些全新的(对他而言)伟大创见所蕴含的辉煌。此后的许多年,奈曼一直非常景仰勒贝格,20世纪30年代末在法国的一次数学研讨会上,终于得以与勒贝格见面。据奈曼所说,勒贝格表现得态度生硬、粗鲁无礼。当奈曼热情洋溢地表达对他的仰慕时,他阴郁冷淡地回应了一句,就转身离开了正在喜出望外地等待与他交谈的奈曼。
这种冷淡让奈曼深受伤害,并且,奈曼可能把这次经历当作了反面教训,他对青年学生一直都格外的亲切有礼,仔细地倾听他们的谈话,并对他们的热情给予鼓励和回应。奈曼正是这样的一个人。所有认识他的人都对他的亲切和蔼、富于同情心的为人记忆犹新。他与人为善、体贴入微、待人真实宽厚。当我见到他的时候,他已经80多岁了,一个身材瘦小、举止高贵、衣着讲究、蓄着整洁白胡须的老人。他在听别人讲话和别人深入交谈的时候,蓝眼睛神采奕奕地闪烁着,对每个人都同样地全神贯注,无论对方是谁。
在他的职业生涯之初,奈曼好不容易才找到工作,成为华沙大学(the University of Warsaw)的一个年轻的教师。当时,刚刚独立的波兰因资金短缺,没钱资助学术研究,也很少有给数学家的职位。1928年,他在伦敦的生物统计实验室呆了一个暑假,并认识了E?皮尔逊和他的太太艾琳(Eileen)以及他们的两个女儿。E?皮尔逊是K?皮尔逊的儿子,但是父子两人在个性上的天壤之别可谓绝无仅有:K?皮尔逊精力充沛,有支配控制他人的欲望;E?皮尔逊却腼腆谦虚。K?皮尔逊喜欢追逐新观念,常在数学概念还相当模糊,甚至还存在某些错误的时候,就忙着发表论文;E?皮尔逊则极其小心谨慎,甚至为每一步计算的细枝末节担忧。
E?皮尔逊与奈曼的深厚友谊长存在两人19281933年间的通信中。这些信件展示了他们对社会科学卓越的洞察力,以及两颗富于独创精神的心灵是如何提出各自的想法,或批评对方的想法,并共同解决难题的。E?皮尔逊踌躇地指出奈曼的提议或许不可行,这时他表现出谦逊的一面;奈曼巧妙地剖析复杂的问题,并抓住每个难题的重要本质,这时展现出他的独创力。有人如果想知道数学研究为什么是需要经常进行合作的事业的话,我建议他看看奈曼与E?皮尔逊的通信。
E?皮尔逊对奈曼提出的第一个问题是什么呢?回想K?皮尔逊的χ2拟合优度检验,他创立这种方法来检验观测数据是否与理论分布相符。但事实上根本不存在像χ2拟合优度检验的这种东西。分析人员有无数种方法可用来对给定的一组数据进行检验,似乎没有任何准则能够判定如何在这么多的选择中挑选出“最好的”。每次用到检验的时候,分析人员必须做出一个相当随意的选择。对此,E?皮尔逊问了奈曼以下的问题:
如果我用了χ2拟合优度来检验一组服从正态分布的数据,但我没能得到一个显著的P值,那么我怎么知道这组数据确实服从正态分布呢?也就是说,我怎么知道至今尚未发现的另一种χ2检验或者另一种拟合优度检验不会已经产生了一个显著的P值,而允许我在拟合数据的时候拒绝这个正态分布呢?
奈曼的数学风格
奈曼把这个问题带回华沙,并由此而开始了两人之间的书信往来。奈曼与小皮尔逊都对费歇尔建立在似然函数基础上的估计概念印象深刻。通过检查与拟合优度检验联系在一起的似然函数,他们开始了调查研究。两人联名发表的第一篇论文介绍的就是那些研究的结果。这是他们撰写的三篇顶尖论文当中最难的一篇,它几乎彻底变革了关于显著性检验的全部思想。当他们继续探索这些问题时,奈曼极度清晰的洞察力使问题在蒸馏中不断提纯,精炼出最基本的元素,使他们的研究成果变得更为清晰,也更容易理解。
虽然读者对此可能不太相信,但在数学研究领域,一个人写文章的风格确实发挥着很重要的作用。有些数学文献的作者似乎写不出让人容易理解的文章;有些人则似乎以写成一行又一行的数学符号与注释为乐事,一篇论文中充斥着无比繁琐的细节,以至于把总的思考都迷失在了微不足道的细节中。与之相反,有些作者却总是有能力用非常简单而有说服力的方式表达复杂的思想,数学的发展在他们的表达中显得如此的鲜明而平实。只有在回顾已经学到些什么时,读者才会确实认识到结果的伟大力量。奈曼就是这样的作者,读他的论文是件令人愉快的事,数学观点自然地展开,使用的符号简单得令人无法相信,结论的显现竟如此的自然,以至于让人感到难以理解,不禁要问,为什么很久以来居然没有人发现这项结论?
我在辉瑞的研究中心工作了27年,该中心每年都赞助康涅狄格大学举办一次学术年会。该校的统计系通常会邀请一位生物研究方面的重要人物来一天,与学生们见面聊聊,随后,会在下午的晚些时候发表演讲。由于我曾经参与负责一年一度的研讨会的资金事宜,因此有幸会见统计学界的一些大人物,奈曼就是应邀者之一。在一次研讨会前,奈曼想让他的演讲以一种特殊的方式进行,他先介绍一篇论文,随后组织一个专题组来评判他的论文。由于是大名鼎鼎的奈曼,研讨会的组织者联系了美国新英格兰地区著名的资深统计学家组成了这个专题讨论组。在研讨会开幕前的最后一记得,有位专题组成员无法出席,于是会议安排我代替他。
奈曼事先已经把他打算演讲的论文印发给了我们。那真是篇激动人心的论文!论文中奈曼利用他1939年完成的研究成果,去解决一个天文学上的难题。我知道1939年的那篇论文。几年前,当我还是个研究生的时候就看到了它,并留下了深刻的印象。论文中阐释了奈曼已经发现的一类新的分布,他称之为“散播分布”(contagious distribution)。论文中所提到的问题,开始是试着模拟土壤里昆虫幼虫的分布情形:即将排卵的母昆虫带着满肚子的卵在田野里四处飞,然后随机选取一个地点排卵,一旦排完卵,幼虫孵化出来,就从那个地点钻出地面。现在,从田野里取一个土壤样本,那么,在这个样本里发现的幼虫数量的概率分布是什么?
散播分布描述了这种情形。奈曼1939年的论文,运用一系列看似简单的方程,导出散播分布。推导的过程看上去明显而自然。显然,看完论文之后,读者会觉得除了奈曼的做法之外,再没有更好的推导方法了。但这只是在读了奈曼的文章后才清楚的。自从1939年那篇论文发表之后,人们发现奈曼的散播分布适用于相当多的领域,如医学研究、冶金术、气象学、毒物学,以及解决宇宙中星系的分布问题(就像奈曼在辉瑞的那个研讨会介绍论文所描述的)。
演讲结束,奈曼坐下来听专题小组的讨论。讨论组的其他成员都是著名的统计学家。由于太忙,不能提前阅读他的论文,他们把辉瑞的研讨会作为对奈曼荣誉的肯定。他们的“讨论”包括对奈曼的学术生涯和以往建树的评论。我作为最后一记得的替补者加入到这个专题组中,