科学网-双样本t-检验连最简单的实际问题都无法给出一个结论性的答案-谢钢的博文

双样本t-检验连最简单的实际问题都无法给出一个结论性的答案

2022-3-8 18:02

阅读：2326

“由 A 和 B 表示提供某商品的两个制造商。我们关心该商品的使用寿命，希望选择使用寿命较长的商品。制造商 A 提供 9 个样品用于使用寿命测试。制造商 B 提供 4 个样品。测试数据表明，制造商 A 和 B样品平均使用寿命分别为 42 和 50 小时，样本标准差分别为 7.48 和 6.87 小时。 Roberts [3]采用双尾 t-检验讨论了这个例子，得出的推论是，在 90% 的置信水平上，两个制造商的商品样本没有“显著差异”，即没有显著证据偏向选择任何一个制造商。 Jaynes [4]用贝叶斯方法讨论了这个例子。他认为，无需任何计算，常识就已经告诉我们测试数据提供了偏向选择制造商 B 商品的证据。”

这是黄河宁老师在他的博文

科学网—双样本t-检验能够解决实际问题吗？ - 黄河宁的博文 (sciencenet.cn) 所举出的一个非常简单但又是很实际的一个统计数据分析问题。

下面我通过应用不同的统计分析方法/范式来对这个最简单的实际问题做出回答。从中我们或许能得出这样的结论：双样本t-检验连最简单的实际问题都无法给出一个结论性的答案。

用于t-检验的统计量为Cohen定义的d 标准化效应值【1】，其公式为

S_pooled为样本均值的差的综合标准差。

为了能算出p-值，我们首先要定义无效假设(null hypothesis) Ho: 制造商 A 和B的产品使用寿命是相同的（没有差别），也就是说d = 0。根据这个无效假设我们就可以为了能算出p-值。将博文开头第一段中的相关数据代入公式，可得出：S_pooled = 7.3187 （精确到四位小数）；d = 1.093（精确到三位小数，下同）。若假定d 标准化效应值服从标准正态分布（即，均值=0，标准差=1），则可算出双尾检验的p-值为0.274；若假定d 标准化效应值服从t分布，则该t分布的自由度为9+4-2=11 ，因此，可算出双尾检验的p-值为0.298 。这些数值结果可以用下图表示：绿色区域代表了按标准正态分布计算的一半的p-值；红色区域代表了按t(自由度=11)分布计算的一半的p-值。

按目前主流统计教科书的‘无效假设显著性检验’(null hypothesis significance test = NHST)的标准操作分析，‘正确’答案应该是“根据这样的统计检验结果，我们无法对制造商 A及B的相关受检验的商品哪一个使用寿命更长得出结论性的答案。”但在目前的统计分析实践中，很多的研究人员就此得出“制造商A和B的产品使用寿命是应被认为没有差别”的结论。

按费雪所定义的‘显著性检验’的规则分析，‘正确’答案应该是“根据这样的统计检验结果我们无法否定无效假设，如要找出出现这种结果的原因，则需调整抽样方案（比如加大样本容量或减小样本数据的方差）继续进行抽样检验分析。”（如果我们还记得，即使是一个‘显著性’的结果，在费雪的眼里结论也不过是一个‘值得多看一眼的结果’。因此可以说，费雪把他所定义的‘显著性检验’的分析实质上是当作探索性分析来对待的，并非仅仅从分析一组样本数据就可以得出结论性的结果。）

按奈曼-皮尔逊的‘假设检验’的规则分析，首先在计算p-值前要先确定可接受的一类错误与二类错误的最大可能水平（即先要确定alpha值及beta值，最常选取的为alpha=0.05，统计功效（1 - beta）= 0.8 。之后，对制造商A和B的产品按同样的抽样方案（比如每次都是制造商A抽24件，制造商B抽10件；或者制造商 A和制造商B各抽取15件。注：若按制造商A抽9件，制造商 B抽4件的方案，其统计功效只有0.382，计算见后）不断抽样并计算相应的p-值，凡是p-值<0.05的样本就拒绝无效假设；凡是p-值≥0.05的样本就接受无效假设。最终，我们的决策错误的程度会被控制在一类错误小于5%，二类错误小于20%的范围。具体每次检验的p-值不被作为判断无效假设是否为真的依据/证据。

从上述的详细描述可知，统计教科书的‘无效假设显著性检验’的分析范式既非费雪所定义的‘显著性检验’也不是奈曼-皮尔逊的‘假设检验’。

对于p-值，一个根本的问题是Cohen【2】在20多年前就指出了的：科研人员想通过统计检验知道相关的假设为真的概率有多大，用数学符号可表示为Pr(假设为真|观察数据)；可是p-值告诉我们的是Pr(观察数据|假设为真) – 假设为真的条件下出现观察到的数据的概率。很多的科研人员往往错把p-值等同于Pr(假设为真|观察数据)。

在一定的假设条件下，我们的确可以应用贝叶斯定理通过p-值算出Pr(假设为真|观察数据)。以下是我给出的贝叶斯方法的答案。按贝叶斯定理我们可以得到这个公式【3】（详见附件）： Pr(无效假设为真|观察数据) = (1 – α)/[(1 – α) + β]，其中alpha是一类错误最大允许值取0.05；beta值为以样本数据算出的二类错误的最大可能水平；最后假设我们对制造商 A 和B的产品寿命一无所知，即验前概率（prior probability）为0.5 （即假设产品寿命没有差别）。在下图我们展示了如何用GPower软件【4】来计算beta值：（1 - beta）= 0.382，所以 beta = 0.618 。这样我们就可算出Pr(无效假设为真|观察数据) = (1 – α)/[(1 – α) + β]=0.95/（0.95+0.618） = 0.606 。这样我的贝叶斯方法的答案说有60.6%的可能性无效假设为真。注意，这个结果是基于一系列的假设条件成立的前提下得出的。而且，如何在现实生活的意义下解释60.6%的可能性这个结果又扯回到了如何定义概率这个基本问题，真是‘剪不断理还乱’。至此，我们可以看出想从统计推断分析得出科学研究发现的一般性结论是多么的困难。

最后，让我们来看看按‘统计思维’的方法应该如何得出答案。统计推断理论告诉我们，仅仅对一组样本数据做统计检验得出的结果，无法判断其“统计显著性”的结果究竟是由于两个制造商生产的同一种产品的使用寿命的真正的差别造成的，还是碰巧由于抽样的随机变化造成的。还有，这一组样本数据的分析结果最多可以推广到对应的抽样总体，不能推广到两个制造商生产的同一种产品的其它批次产品。更根本的问题是，任何一个人为确定的统计显著性的阈值都是没有科学理论依据的，是逻辑上经不起推敲的。要想得到相对可靠的答案，只能是首先看它的样本数据的描述性分析结果（假定两组数据都是随机样本）：制造商A和B样品平均使用寿命分别为 42 和 50 小时，样本标准差分别为 7.48 和 6.87 小时。在没有其它更多的信息的条件下，我们仅仅对样本所代表的抽样总体而言，最佳的判断是B产品比A产品使用寿命更长，这个结论还要取决于有了新的样本数据的分析结果后的修正/更新。最好是对这两个制造商的其它信息的获取（比如，其过往的产品性能记录，生产管理的水平等等）来进行进一步的综合判断。

其实，正如黄老师的博文所引述的， Jaynes [4]认为，无需任何计算，常识就已经告诉我们测试数据提供了偏向选择制造商B商品的证据。从下图我们可以很清楚地印证这一推论。

从这个非常简单但很实际的统计数据分析案例我们可以得出这样的结论：统计推断分析的正当性与适用性取决于统计抽样分布数据分析，即首先要确定抽样总体及抽样框(target population and sampling frame)，然后要获取有代表性的样本(representative sample)，最后要不断重复这样的抽样分析，再通过结合学科内容进行专业性的判断来最终决定我们是否已得出了一个“满意的/可信的”、可支持科学发现结论的统计抽样分布的数据分析结果的结论。这样的统计推断分析实践才是与可重复验证的科学分析结果的要求相一致的。当然，我们也不可忘记，没有把实验设计(experimental design)包含在内的观察性统计数据分析(observational study)结果是不能作为因果关系的分析结果来解释与应用的。

目前普遍流行的仅仅依靠一组抽样数据+统计假设检验的分析结果就做出科学发现的结论的做法是错误的统计推断分析实践，因为它没有相应的统计理论做支撑，技术上有太多的不完善之处，更培养了我们忽视相关的学科内容、盲目地依靠数据分析结果的有害的思维模式。

如下面两个图所示，用GPower软件做前验统计功效分析可以估算两个独立样本的t检验的样本容量【4】：（1）两个等容量的独立样本（15+15 = 30）；（2）两个不等容量的独立样本（24+10 = 34）。

参考文献：

【1】 Cohen, J. (1988). Statistical power analysis for the behavioural sciences (2^nd Edition). Hillsdale, NJ: Erlbaum.

【2】 Jacob Cohen (1994). The Earth Is Round (p < .05). American Psychologist, Vol.49, No. 12, 997-1003。

【3】 Gang Xie and Jason White, Please Join Us – Say ‘No’ to Null Hypothesis Significance Testing, a poster presented in Statistical Society of Australia and New Zealand Statistical Association mini-virtual conference, 9 July 2020, DOI: 10. 13140/RG.2.2.27275.72482

【4】 F. Faul, E. Erdfelder, A.Lang, and A. Buchner. G*Power 3: A flexible statistical power analysis program for the social, behavioural, and bioedical sciences, Behavior Research Methods, 2007, 39(2), 175-191.

转载本文请联系原作者获取授权，同时请注明本文来自谢钢科学网博客。

链接地址：https://m.sciencenet.cn/blog-3503579-1328583.html?mobile=1

分享到:

当前推荐数：5

推荐人：

黄河宁李宏翰檀成龙范振英杨正瓴

推荐到博客首页

网友评论7 条评论

该博文允许注册用户评论请点击登录