科学网

 找回密码
  注册

tag 标签: 显著性检验

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

Fisher的“女士品茶”和假设检验
热度 1 yunlongwang 2014-5-19 09:23
老板 上周去 欧洲开大会,于是楼主 就很荣幸的又帮他上课啦 。 本学期最后一次课,需要给学生做一个关于假设检验的介绍。 整堂课气氛还不错,有两个故事我觉得挺适合作为假设检验的开篇。 其中之一 便 是著名的“女士品茶”。 考虑到这个经典的故事在中文网络世界中貌似还并没有广为人知,楼主就抛砖引玉对此推广一番。 这个故事最早出现在统计学家 Fisher 发表于 1935 年的著作《 the design of experiment 》中被用来描述原假设( null hypothesis) 。据 Fisher 教授 描述有一位女士声称自己在喝英式茶的时候 能区分出来是茶先倒进杯子还是奶先倒进杯子。 于是 Fisher 教授就打算设计一个实验来验证这位女士是否真的具有她描述的这种能力。楼主暗自揣测着教授当时的心情可能就跟我听见我朋友说“我能抽出什么烟比什么烟好”,或者告诉我“ A 牌子的咖啡机比 B 牌子的机器的 做出来的咖啡好喝”一样半信半疑吧。 在继续讲故事之前,咱 先看看老外喝茶搞得有多繁复 。具体的我也不太懂,总之我不喜欢外国茶,已经失去了茶叶本来的味道。 好啦好啦,言归正传。常识告诉我们,如果想得到有意义的结论,就应该随机给女士几杯茶让女士鉴别一番,根据她答对的次数(或者答对的比例)来判断她是否有这个能力。可是问题是,要做多少次实验呢?根据结果我们又如何来给出定量的结论呢? Fisher 君在当年就给出了他的一套实验方法: 他调配出了 八杯其他条件一模一样而仅仅是倒茶倒奶顺序相反的茶 ,其中两类各四个(为了少打几个字,我在下文中称其为“奶”或者“茶”)。然后他让女士品尝之后告诉他哪四杯是“奶”。当然,剩下的就都是“茶”了。 在分析实验结果的时候,他运用了这样的逻辑: 他首先假设女士没有这个能力(这个假设被称为原假设),然后如果女士很好的鉴别了这八杯茶,那就说明在原假设成立的情况下,发生了非常反常的现象,以至于说明原假设是令人怀疑的。从统计上来说,如果在原假设成立的前提下,发生了非常小概率的事件,那我们就有理由怀疑原假设的真实性。 这也是 Fisher 的假设检验的基本思路。在我看来这有点像反证法,我首先假设我想推翻的命题成立,然后试图找出矛盾,找出不合理的地方来证明否命题为假命题。不同之处在于在随机实验中,经常找不到完全不可能发生的事情。 Fisher 君的原假设是: : 女士没有这样的能 力 。 实验可能出现的结果是: 设女士选对了 X 杯“奶”。因为两种各 4 杯,所以 X 可能出现的值是集合 中的一个。在原假设的前提下, 女士是毫无根据的瞎猜 ,这就好比一个袋子里放了 8 个球,红黑各 4 个。不放回的情况下随机的抽取 4 个球,其中红色球数目 X 的概率分布是多少?【 1 】 好熟悉的感觉,这让我不禁想起了高二那天在夕阳下的奔跑。对,这仅仅就是个高二课后作业题。答案如下: 对于这样的分布,Fisher 又说了,即使 X=3 ,女士鉴别出来了 6 杯茶,我们也不能拒绝原假设(认为女士有鉴别能力)。因为如果在 X=3 的情况下拒绝了原假设,那在 X=4 的情况下(女士鉴别出了 8 杯茶!)也要拒绝原假设。所以在原假设成立的前提下,拒绝原假设的概率变成了 17/70 。 也就是说如果女士没有这个能力,但是她侥幸靠瞎猜通过了测试,使我们我们错误的认为她有这个能力的概率居然有 17/70 ! 这种错误被称为第一类错误,一般来说不希望这个错误发生的概率超过 5% 。 所以 Fisher 只有在女士在 把 8 杯茶都鉴别出来的情况下,才会认为她有这个能力。 后来有位叫 David Salsburg 的统计学家写了一本书《 The lady tasting tea 》 , 在书中他告诉我们这位女士还真把 8 杯茶都鉴别出来了!据说这位女士是 Fisher 的同事,植物学家 Muriel Bristol 。 好吧,在楼主看来,这简直就是一个较真理科男和感性小资女的故事。 Fisher 君你太不浪漫了,绝对是个泡妹子的反面教材。试想,万一姑娘没把 8 杯茶都鉴别出来, Fisher 君出于对数学的忠诚拒绝了原假设,这还怎么让姑娘跟他继续聊天。 Fisher 君在 1956 年发表了一篇《 6 Mathematics of a Lady Tasting Tea 》 , 继续讨论了随机试验的重要性,以及增加样本数量和重复实验会带来的益处,还讨论了实验设计中为什么“茶”和“奶”的数量应该相等。 我将这篇文章放在了本文的附件之中。 在今天看来,这个一百多年前的小实验也许并不复杂,但其中展示出的先驱性的思想让学生我深感佩服。 留个课后思考题。约会的时候如果妹子自称她的气质很像林黛玉。那么男主应该设计一个什么实验,得到一个什么样的结论呢?如果您的结论不太支持她的论断,又如何让妹子不要生气呢?(我的答案在回复里) %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 下面是我对这个问题的一些看法和补充,与故事无关了。 首先,我认为女士的鉴别能力不像很多其他的问题,比如“发送的信号是 0 还是 1 ”,“监测区域有没有目标”,等等。很难简单地说她有还是没有这个能力。我个人感觉女士品茶问题说不定更适合用模糊逻辑来解决。虽然有些统计学家并不喜欢模糊数学,不过我还是对这种相对“新生事物”更加充满好奇。以后有机会再好好深入的学一学。 其次,作为介绍性的故事,我觉得没必要铺展的太开,要不然学生可能就跟不上,听不懂,失去兴趣。 这也是我没有提备择假设和第二类错误,也没有引入显著性水平的概念的原因。按照这个故事的思路继续往下讲,可以发散出很多很多东西。 再次,在我这种喜欢贝叶斯,喜欢后验概率的人看来,我可能会把这个问题理解成一个参数估计问题。我认为女士能鉴别出来某一杯茶的概率是 p ,我随机的给她上 N 杯茶(为了样本独立), 看他能鉴别出来的有多少,假设是 M 杯。这不就变成了最大似然估计 了么 ? 或者假设 p 服从 beta 的先验分布,于是后验也服从 beta ,推导就不写了。当然,我也可以把 M 作为 test statistic 来构建其他的检验。 最后,我感觉自己很少有机会直接用假设检验里这一套东西了,但也不是说完全脱离假设检验的理论,只是把它当做一个基础。经常还是要用机器学习里的分类器的那些东西,感觉要更干脆一些。根据样本,根据距离分割空间,貌似会比较健壮。我就是菜鸟一枚,半瓶子晃荡,理解的也不深刻,要是写的不对请老师不吝赐教啊。 附件: Fisher-1956.pdf 【 1 】 Fisher 计算概率的时候似乎用的是排列,不过我觉得组合似乎更容易让人理解,毕竟高中数学课本上这种题都是用的组合。
27523 次阅读|5 个评论
关于显著性检验
热度 2 csiro 2013-1-11 10:07
昨天审阅一篇论文,用遥感资料做全国的分析,弄到每个像元。问题是它对每个像元的植被指数的时间变化趋势都做分析,即使时间趋势不显著的情况,也分析它的变化率。 我想强调一点的是,如果没有通过显著性检验,一般p值小于0.05认为显著,0.01认为极显著,再分析就没有意义了。这个道理很浅显,但是竟然有不少人还是这么做。 是数学老师的责任吗?
个人分类: 交流篇|5581 次阅读|2 个评论
直线斜率差异显著性检验(SPSS)
热度 3 Bearjazz 2011-12-31 14:29
直线斜率差异显著性检验( SPSS ) 熊荣川 六盘水师范学院 xiongrongchuan@126.com 变量与变量之间的关系可分为确定性关系和非确定性关系两类。函数表达式确定关系。研究变量间的非确定关系,构造变量间经验公式的数理统计方法称为回归分析。 线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛。分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。 如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。然后自变量的和因变量中的这种线性关系可能还会受到其他因子的影响,比如生物不同阶段的生长曲线等等。 当条件改变时,我们想检验不同条件下的回归关系是否有显著差异,这时候就需要对回归直线的回归系数进行检验,比如斜率和截距。以下我们简单总结一下使用 SPSS 进行斜率差异性检验的详细步骤。 为了图文并茂请下载pdf文件观看 直线斜率差异显著性检验.pdf
个人分类: 我的研究|22938 次阅读|7 个评论
[转载]T检验、F检验及其统计学意义
estudy 2010-10-4 14:54
1. T检验和F检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。 通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现,出现这结果的机率很少,亦即是说,是在机会很少、很罕有的情况下才出现;那我们便可以有信心的说,这不是巧合,是具有统计学上的意义的(用统计学的话讲,就是能够拒绝虚无假设null hypothesis,Ho)。相反,若比较后发现,出现的机率很高,并不罕见;那我们便不能很有信心的直指这不是巧合,也许是巧合,也许不是,但我们没能确定。 F值和t值就是这些统计检定值,与它们相对应的概率分布,就是F分布和t分布。统计显著性(sig)就是出现目前样本这结果的机率。 2. 统计学意义(P值或sig值) 结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研究领域,0.05的p值通常被认为是可接受错误的边界水平。 3. T检验和F检验 至于具体要检定的内容,须看你是在做哪一个统计程序。 举一个例子,比如,你要检验两独立样本均数差异是否能推论至总体,而行的t检验。 两样本(如某班男生和女生)某变量(如身高)的均数并不相同,但这差别是否能推论至总体,代表总体的情况也是存在著差异呢? 会不会总体中男女生根本没有差别,只不过是你那麼巧抽到这2样本的数值不同? 为此,我们进行t检定,算出一个t检定值。 与统计学家建立的以「总体中没差别」作基础的随机变量t分布进行比较,看看在多少%的机会(亦即显著性sig值)下会得到目前的结果。 若显著性sig值很少,比如0.05(少于5%机率),亦即是说,「如果」总体「真的」没有差别,那么就只有在机会很少(5%)、很罕有的情况下,才会出现目前这样本的情况。虽然还是有5%机会出错(1-0.05=5%),但我们还是可以「比较有信心」的说:目前样本中这情况(男女生出现差异的情况)不是巧合,是具统计学意义的,「总体中男女生不存差异」的虚无假设应予拒绝,简言之,总体应该存在著差异。 每一种统计方法的检定的内容都不相同,同样是t-检定,可能是上述的检定总体中是否存在差异,也同能是检定总体中的单一值是否等于0或者等于某一个数值。 至于F-检定,方差分析(或译变异数分析,Analysis of Variance),它的原理大致也是上面说的,但它是透过检视变量的方差而进行的。它主要用于:均数差别的显著性检验、分离各有关因素并估计其对总变异的作用、分析因素间的交互作用、方差齐性(Equality of Variances)检验等情况。 4. T检验和F检验的关系 t检验过程,是对两样本均数(mean)差别的显著性进行检验。惟t检验须知道两个总体的方差(Variances)是否相等;t检验值的计算会因方差是否相等而有所不同。也就是说,t检验须视乎方差齐性(Equality of Variances)结果。所以,SPSS在进行t-test for Equality of Means的同时,也要做Levene's Test for Equality of Variances 。 4.1 在Levene's Test for Equality of Variances一栏中 F值为2.36, Sig.为.128,表示方差齐性检验「没有显著差异」,即两方差齐(Equal Variances),故下面t检验的结果表中要看第一排的数据,亦即方差齐的情况下的t检验的结果。 4.2. 在t-test for Equality of Means中,第一排(Variances=Equal)的情况:t=8.892, df=84, 2-Tail Sig=.000, Mean Difference=22.99 既然Sig=.000,亦即,两样本均数差别有显著性意义! 4.3 到底看哪个Levene's Test for Equality of Variances一栏中sig,还是看t-test for Equality of Means中那个Sig. (2-tailed)啊? 答案是:两个都要看。 先看Levene's Test for Equality of Variances,如果方差齐性检验「没有显著差异」,即两方差齐(Equal Variances),故接著的t检验的结果表中要看第一排的数据,亦即方差齐的情况下的t检验的结果。 反之,如果方差齐性检验「有显著差异」,即两方差不齐(Unequal Variances),故接著的t检验的结果表中要看第二排的数据,亦即方差不齐的情况下的t检验的结果。 4.4 你做的是T检验,为什么会有F值呢? 就是因为要评估两个总体的方差(Variances)是否相等,要做Levene's Test for Equality of Variances,要检验方差,故所以就有F值。 另一种解释: t检验有单样本t检验,配对t检验和两样本t检验。 单样本t检验:是用样本均数代表的未知总体均数和已知总体均数进行比较,来观察此组样本与总体的差异性。 配对t检验:是采用配对设计方法观察以下几种情形,1,两个同质受试对象分别接受两种不同的处理;2,同一受试对象接受两种不同的处理;3,同一受试对象处理前后。 F检验又叫方差齐性检验。在两样本t检验中要用到F检验。 从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t'检验或变量变换或秩和检验等方法。 其中要判断两总体方差是否相等,就可以用F检验。 若是单组设计,必须给出一个标准值或总体均值,同时,提供一组定量的观测结果,应用t检验的前提条件就是该组资料必须服从正态分布;若是配对设计,每对数据的差值必须服从正态分布;若是成组设计,个体之间相互独立,两组资料均取自正态分布的总体,并满足方差齐性。之所以需要这些前提条件,是因为必须在这样的前提下所计算出的t统计量才服从t分布,而t检验正是以t分布作为其理论依据的检验方法。 简单来说就是实用T检验是有条件的,其中之一就是要符合方差齐次性,这点需要F检验来验证。 5. 如何判定结果具有真实的显著性 在最后结论中判断什么样的显著性水平具有统计学意义,不可避免地带有武断性。换句话说,认为结果无效而被拒绝接受的水平的选择具有武断性。实践中,最后的决定通常依赖于数据集比较和分析过程中结果是先验性还是仅仅为均数之间的两两比较,依赖于总体数据集里结论一致的支持性证据的数量,依赖于以往该研究领域的惯例。通常,许多的科学领域中产生p值的结果0.05被认为是统计学意义的边界线,但是这显著性水平还包含了相当高的犯错可能性。结果0.05p0.01被认为是具有统计学意义,而0.01p0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。 6. 所有的检验统计都是正态分布的吗 并不完全如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验、f检验或卡方检验。这些检验一般都要求:所分析变量在总体中呈正态分布,即满足所谓的正态假设。许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就产生了,(参阅非参数和方差分析的正态性检验)。这种条件下有两种方法:一是用替代的非参数检验(即无分布性检验),但这种方法不方便,因为从它所提供的结论形式看,这种方法统计效率低下、不灵活。另一种方法是:当确定样本量足够大的情况下,通常还是可以使用基于正态分布前提下的检验。后一种方法是基于一个相当重要的原则产生的,该原则对正态方程基础上的总体检验有极其重要的作用。即,随着样本量的增加,样本分布形状趋于正态,即使所研究的变量分布并不呈正态。
个人分类: 研究方法|5581 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 08:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部