女士品茶-第5章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
可以用所知的泊松分布(Poisson distribution )来描述,这并不是K?皮尔逊偏斜分布家族中的一种概率分布。事实上,它是一种只有1个(而不是4个)参数的特殊分布。
确定了样本中的活酵母细胞数服从泊松分布,戈塞特就能够设计规则和测量方法,从而得到对酵母细胞浓度更为精确的测量。用戈塞特的方法,吉尼斯能够生产质量更稳定的啤酒。
“学生”的诞生
戈塞特想找一份适合的期刊发表这个结果,泊松分布(或相应的公式)已经被发现100多年了,过去一直试图在现实生活中寻找实例,其中之一,便是计量普鲁士军队中被马踏死的士兵人数。在酵母细胞计量中,戈塞特有一个清楚的实例,还有对统计分布新观念的重要应用。然而,这违背了公司不准许雇员发表文章的政策。几年前,吉尼斯一位优秀的酿造师写了一篇文章,其中泄露了他们某个酿造过程的秘密成份。为了避免进一步损失,吉尼斯禁止它的雇员发表文章。
戈塞特成了当时《生物统计》编辑之一的K?皮尔逊的好朋友,而K?皮尔逊对戈塞特的数学能力印象很深。1906年,戈塞特说服了他的老板,数学的新思想对啤酒公司是很有用的,并到高尔顿生物统计室在K?皮尔逊门下脱产学习一年。这之前两年,当戈塞特描述他处理酵母的结果时,K?皮尔逊急于将之付印于他的期刊。他们决定用匿名的方式发表文章,于是,戈塞特的首次发现是仅是以“学生”的名义发表的。
在其后30年中,“学生”写了一系列极为重要的论文,几乎所有的都发表在《生物统计》上。从某些方面看,吉尼斯家族已经发现了他们“亲爱的戈塞特先生”违反了公司的规定,一直私下里撰写并发表科学论文。“学生”的数学活动大多是在家里进行,并且是在正常的工作时间之外。戈塞特在公司升迁到了负更多责任的位置,这表明他的副业并没有使吉尼斯公司受损。有这样一种不足为凭的说法:吉尼斯家族第一次知道这件事是在1937年,戈塞特突然死于心脏病,他数学界的朋友与吉尼斯公司探讨,想帮助支付其论文集的印刷成本。不管这事真实与否,美国统计学家哈罗德?霍特林(Harold Hotelling)的回忆录里清楚地记载,霍特林在20世纪30年代后期要与“学生”会谈,安排是秘密的,带有间谍小说的各种情节。这表明“学生”身份的真正确认,对吉尼斯公司仍是个秘密。“学生”在《生物统计》发表的论文涉及理论和实践的尖端问题,戈塞特将非常实际的问题带入有难度的公式,又把结论带回现实实践,后来者便照此办理。
尽管有很高的成就,戈塞特仍是个谦逊的人。在他的信中,人们经常可以发现这样的字眼:“我的研究只是提供了粗浅的想法”;或者,当他的某些发现被给予过多的荣誉,他会说:“费歇尔实际上已经能完成了整个数学结构。”在人们的记忆中,戈塞特是一个和善的、体贴的同事,很在意别人的情感。他去世的时候61岁,离开了他的妻子马乔里(Majory)(一个精力充沛的运动员,曾经担任英国女子曲棍球队的队长)、一个儿子、两个女儿和一个孙子,当时他的父母还健在。
“学生”的t检验
如果不算别的,所有的科学家都受惠于戈塞特的一篇短文,该文的题目是“平均数的可能误差”(The Probable Error of the Meam),1908年发表在《生物统计》上。是费歇尔点出这篇杰出论文的一般性意义。对戈塞特来说,有一个特定的问题需要解决,一到晚上,他就习惯性地带着耐心和小心投入于这个问题。发现了结论,他就用其它资料来检查,重新验证他的结果,努力去确认是否遗漏了什么细微的差别,考虑他必须设定哪些假设,并一再重复计算自己的发现。他提前采用了现代计算机基础上才出现的蒙特卡罗技术(Monte Carlo techniques);这是一种一再模拟的数学模型,以确定相关数据的概率分布。然而,当时他没有计算机,只能不辞辛苦地加总数据,从上百个样本中计算平均数,并绘制所得出频率的图表,所有这些都靠手工完成。
戈塞特所专注的特定问题是小样本(small sample)问题。K?皮尔逊计算了某一分布的4个参数,这是在单一样本就积累了上千个测量数据的基础上完成的,因为使用了大样本,他设定所得到的参数估计是正确的。费歇尔要证明他的错误。根据戈塞特的经验,科学家很少能三八线以有如此大的样本,更为典型的实验通常能够看到10到20个观测数据,他还理解到,这种现象在所有的学科中都很普遍。在一封给K?皮尔逊的信中,他写道:如果我是你遇到的用小样本工作的唯一一人,那你太特异了,在这个题目上我与斯特拉顿(Stratton)(剑桥大学的一位研究员)相伴,他曾经用4个样本来做说明。
K?皮尔逊所有的工作都假定:样本足够大,以至于确定参数可以没有误差。戈塞特设问:如果是小样本会怎么样?我们将如何处理自己的计算中肯定会出现的随机误差?
晚间,戈塞特坐在自己的餐桌旁,取出一小组数据,算出平均值和标准差估计值,再将二者相除,并将结果绘在图纸上。他发现这个比率与K?皮尔逊的四个参数相关,并与K?皮尔逊的偏斜分布系列中的某一分布相配。他的伟大发现在于:你不必知道原始分布的4个参数的确切值。前两个参数估计值的比率有一个可以制表的概率分布,不管数据从哪里来,或者标准差的真实值是多少,计算这两个样本估计值的比率,你就可以得到一个已知的分布。
正如弗雷德里克?莫斯特勒(Frederick Mosteller)和约翰?图基(John Tukey)所指出的那样,没有这一发现,统计分析注定要使用无限次的回归,没有“学生”的t检验 (这是该发现后来的称谓),分析者将不得不估计观测数据的4个参数,再估计这4个参数估计值的4个参数,接着估计4个新估计值的4个参数……这样继续下去,没有机会得到最终的结果。戈塞特表明,分析者可以在第一步就停止这种估计。
戈塞特的工作有一个基本的假设,即原始测量值服从正态分布。多年以来,科学家使用着“学生”的t检验,许多人渐渐相信,并不需要这项假设。他们经常发现:不管原始测量是否服从正态分布,“学生”的t检验都有相同的分布。在1967年,斯坦福大学(Stanford University)的布拉德利?埃弗龙(Bradley Efron)证明了这一点,更确切地说,他发现了不需要戈塞特假设的一般条件。
随着“学生”t检验的发展,我们不知不觉地习惯于统计分布理论的应用,这一理论在科学界广为流传,相伴而来的是更深层次的哲学问题,这就是我们所说的“假设检验”(hypothesis tests)或“显著性检验”(significance tests)的使用。后面我们会剖析这个问题,现在我们只想强调:“学生”提供了几乎每个人都使用的科学工具,尽管没有多少人真正理解它。
与此同时,“可爱的戈塞特先生”成了两个长期不和的超级天才——K?皮尔逊和费歇尔之间的中间人。尽管他经常对K?皮尔逊抱怨他看不懂费歇尔写给他的东西,他还是保持了与两个人的友谊。他与费歇尔的友谊开始于费氏在剑桥大学读本科的时候,那是在1912年,费歇尔刚刚成为剑桥大学数学学位甲等及格者(最高的数学荣誉),他的天文学导师 介绍两个人认识。当时费歇尔正在研究一个天文学问题,他写了一篇论文,在其中他重新发现“学生”在1908年得到的结果。年轻的费歇尔显然不大知晓以前戈塞特所做的工作。
在费歇尔给戈塞特看的这篇论文中,有一个小错误被戈塞特指了出来。当戈塞特回家的时候,他发现费歇尔写的两大页数学论证正等着他。这个年轻人把自己原先的工作又做了一遍,并加以扩充,还批评了戈塞特所犯的一个错误。戈塞特在给K?皮尔逊的信中写道:“附上一封信,它证明了我关于“学生”t检验的频率分布公式,您是否介意替我看一下。即使我可以理解,超过三维空间我还是觉着不自在。”费歇尔用多维几何证明了戈塞特的成果。
在这封信中,戈塞特说明了自己的如何到剑桥去与朋友会面,而这个朋友恰巧在冈维尔与凯厄斯学院(Gonville and Caius College),是费歇尔的导师,他如何被介绍给这位22岁的学生。他接着写道:“费歇尔这小子写了一篇论文,提出概率的新标准或诸如此类的东西,看起来不错,但就我所能理解的,是一种不切实际且不大管用的认识事物方式。”
在描述了他在剑桥与费歇尔的讨论后,戈塞特写道:
对我们之间的讨论,他的回复是两大页书写纸,上面用最深的墨水写满了他所证明的数学(跟着是一组数学公式)……我看不大懂这些内容,回复他说等我闲下来时准备研究它,实际上我去湖区时随身带着它,可弄丢了。
现在他将这封信寄给我,我觉得如果它还可以的话,您也许愿意发表这个证明,它是这样的完美和数学化,对某些人也许有吸引力。
K?皮尔逊在《生物统计》上发表了费歇尔的短文,就这样,20世纪最伟大的天才之一面世了。3年以后,经过了一连串俯就的信件往来,K?皮尔逊发表了费歇尔的第二篇论文,但事先约定论文须以这种形式出现:它不过是对K?皮尔逊合作者之一所做工作的细微补充。K?皮尔逊再也没有允许他的期刊发表费歇尔的论文。费歇尔继续在K?皮尔逊许多最感自豪的成就中挑毛病,而K?皮尔逊则在稍后几期的《生物统计》中,以社论的方式点出“费歇尔先生”或“费歇尔先生的学生”在其它期刊所发表论文中的错误。这些都将是下一章介绍的内容,戈塞特会在以后几章中的某些地方再度出现,作为一个和蔼可亲的良师益友,他帮助年轻男女进入统计分布的新世界。他的许多学生和合作者都对新数学做出了重要贡献。尽管他本人谦逊地表示异议,但戈塞特的确做出了许多影响深远的贡献。
第4章 在“垃圾堆”中寻觅
1919年春天,费歇尔29岁,他带着妻子、三个孩子和小姨子,搬到了伦敦北部的一间旧农舍里,那儿靠近罗森斯特农业实验站(the Rothamsted Agricultural Experimental Station)。从许多方面来看,费歇尔的人生在别人眼里是失败的。他在孤单和多病的童年中长大,并有严重的视力损伤。为了保护他的近视眼,医生禁止他在人工灯光下阅读。但他很小就接触了数学和天文学,在6岁时他迷上了天文学,七八岁时,他就跑去听由著名天文学家罗伯特?鲍尔(Robert Ball)爵士主讲的通俗讲座。
费歇尔被著名的哈罗公学(Harrow Public School )录取,在那里他的数学是出众的。由于不允许他使用电灯,他的数学导师在晚上教他时,不用铅笔、纸和任何其它视觉辅助品。久而久之,费歇尔发展了一种很强的几何直觉能力。在后来的岁月中,他那非凡的几何洞察力,使他得以解决许多数理统计中的难题。这种洞察力对他而言是那么明显,从而导致他经常不能被别人所理解。在他看来是显而易见的事情,别的数学家往往要花几个月甚至几年的时间去证明。
他于1909年进入了剑桥,在1912年获得了数学学位甲等及格者的头衔,对剑桥学生来说,这是一个很高的荣誉,要得到它必须通过一系列极为困难的口头和笔头数学考试,一般一年只会有一两个学生成功,有的年份甚至没有人能得到这种头衔。当费歇尔还是本科生时,他就发表了他的第一篇科学论文,其中复杂的迭代公式(iterative formulas)被转换成多维的几何空间形式。在这篇论文中,那些在人们眼里一直特别复杂的数学计算公式被转换成简单的几何形式。毕业后他花了一年时间,研究统计力学(statistical mechanics)和量子理论(quantum theory),到1913年,统计革命已经进入了物理学,而新观念已经较为系统地进入这两个领域,并成为正式的大学课程。
费歇尔的第一份工作是在投资公司的统计室,其后他突然离开那里,到加拿大去从事农场工作。后来又在第一次世界大战开始时突然离开农场,回到了英格兰。虽然他被批准入伍,但他那很差的视力使他免于军事服务。战争年代,他在许多公共学校教授过数学,但每一次的经历都比上一次更糟,他对学生们没耐心,因为他们都是不能理解在他看来很明显的事情。
费歇尔与K?皮尔逊
前一章提到,当费歇尔还是本科生时,就在《生物统计》发表了一篇短文。这使得费歇尔有机会见到