博文

建议放弃显著性检验和置信区间的三篇最新论文

已有 2423 次阅读 2022-6-27 12:03 |个人分类:统计推断与概率|系统分类:科研笔记

统计学改革可以说是统计学界乃至整个科学界进入21 世纪以来面临的最大挑战和机遇之一。倡导统计学改革的学者（改革派）的主要观点是放弃显著性检验，实行“效应量估计”。以下是建议放弃显著性检验和置信区间的三篇最新论文的题目和摘要（原文为英文，2022年发表）。感兴趣的读者可以通过提供的链接查阅整篇论文。

（1）张文军(中山大学生命科学学院教授), “t 检验的困境：保留或放弃的选择和解决方案” Dilemma of t-tests: Retaining or discarding choice and solutions, Computational Ecology and Software, 2022, 12(4): 181-194 . https://www.researchgate.net/publication/361510115_Dilemma_of_t-tests_Retaining_or_discarding_choice_and_solutions

摘要：t检验理论奠定了现代统计学的基础，是统计学的主要内容之一。这个理论可以在所有统计学教科书中找到，并且是几乎所有应用统计学课程的核心。同时，几乎所有的统计软件或工具都有t检验的内容，如Matlab、SAS、SPSS、R等。然而，t检验理论由于其理论缺陷和误用近年来受到广泛批评。 t检验仅用于取自正态分布总体的样本量较小的问题。即便如此，由于 t 转换扭曲等问题，样本量不能太小。在显著性检验方面，t检验具有统计显著性检验的普遍缺陷，加上置信区间的固有谬误和 t 区间特有的不确定性问题，使 t 检验方法显然不够好。 t检验理论面临在统计学中保留还是丢弃的抉择，一些统计学家已经提倡从统计学教科书中废除t检验理论。对于显著性检验，取代t检验的解决方案包括使用贝叶斯方法，进行荟萃分析，使用效应量，强调统计有效性，使用非参数统计量，使用良好的实验和抽样设计和确定适当的样本量，使用网络方法代替还原论方法获取和分析数据，统计结论与机理分析相结合以得出科学推论等。对于 t 区间方法评估[测量]不确定度问题，其解决方案包括使用贝叶斯可信区间法，使用 Bootstrap 可信区间法，直接从中心极限定理进行推断，使用[测量误差与] 不确定度的统一理论等。

(2) 张文军(中山大学生命科学学院教授), “置信区间：概念、谬误、批评、解决方案及其它” Confidence intervals: Concepts, fallacies, criticisms, solutions and beyond , Network Biology, 2022, 12(3): 97-115. https://www.researchgate.net/publication/361266357_Confidence_intervals_Concepts_fallacies_criticisms_solutions_and_beyond

摘要：长期以来，置信区间理论是统计学的基础，置信区间一直被视为统计分析的重要内容。几乎所有的统计教科书和统计分析软件都包含置信区间的内容，用于估计统计参数或数学模型的参数，是区间估计、方差分析、回归分析等诸多方法的重要组成部分. 它们被许多著名期刊的方法指南推荐或要求。迄今为止，置信区间理论和方法已广泛应用于生命科学、医学、环境科学、化学、物理学和心理学等各个科学或工程领域。然而，由于置信区间理论和方法论的谬误或不足，造成了广泛的误用，近年来受到越来越多的批评。一些统计学家甚至建议放弃置信区间理论。为了避免经典置信区间理论的问题，可以使用贝叶斯可信区间，使用不确定度方法，计算置信区间但避免将其用于统计显著性检验，或者使用本文作者提出的Bootstrap可信区间方法等。在实践中，对于受控实验，应设计多个重复或处理；对于观察性实验，应抽取多个有代表性的样本，如果保证足够的样本量，甚至可以使用单个样本。需要对从抽样到统计分析的每一道工序实施全过程控制。应将置信区间分析结果与其它多源结果进行交叉比较和验证，以获得最可靠的结论。最后，除了尽快编写、出版和采用新的统计著作和教材外，还必须根据新统计学修订和发行新版本的各种统计软件以供使用。

(3) Daniel Berner and Valentin Amrhein, 为什么以及如何加入从显著性检验到估计的转变Why and how we should join the shift from significance testing to estimation, Journal of Evolutionary Biology, 2022. https://www.researchgate.net/publication/360705074_Why_and_how_we_should_join_the_shift_from_significance_testing_to_estimation

简要：从零假设显著性检验的范式转变似乎正在进行中。我们基于仿真模拟阐述一些潜在的动机。首先，p 值因研究而异，因此使用显著性阈值进行二分法推断通常是不合理的。其次，“统计显著”的结果高估了效应量，偏差随着统计效力的增加而减小。第三，“统计上不显著”的结果低估了效应量，并且这种偏差随着更高的统计效力而变得更大。第四，检验过的统计假设通常缺乏生物学依据，并且通常没有提供有用的信息。… 我们得出结论，生态学和进化生物学的研究大多是探索性的和描述性的。因此，对于给定的统计模型，我们应该从宣称统计“检验”特定的假设转变为描述和讨论与我们的数据最兼容的许多假设（可能的真实效应量）。我们已经有了这样做的方法，因为我们经常呈现包涵这些假设的兼容（“置信”）区间。

笔者认为，这三篇最新论文有助于进一步推动统计学改革。特别是张文军教授呼吁“… 除了尽快编写、出版和采用新的统计著作和教材外，还必须根据新统计学修订和发行新版本的各种统计软件以供使用。”无容置疑，张文军教授呼吁的这些举措将使统计学改革突破长期进行的哲学论战的局面，进入实行阶段。尽管统计学改革依然受到保守派的强烈反对，改革的潮流似乎已经不可阻挡。如果有中、年轻学者加入到统计学改革的大潮中来，那么改革的成功也许会更快到来。

转载本文请联系原作者获取授权，同时请注明本文来自黄河宁科学网博客。
链接地址：https://m.sciencenet.cn/blog-3427112-1344757.html

上一篇：“木匠都会嘲笑的”— 置信区间理论用于测量不确定度评定的一个谬误
下一篇：葡萄酒的阴阳之道与顺时饮酒

收藏分享

heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

建议放弃显著性检验和置信区间的三篇最新论文

当前推荐数：7 推荐人：王涛 李宏翰 谢钢 尤明庆 周忠浩 杨正瓴 钟定胜

发表评论评论 (3 个评论)

黄河宁

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

建议放弃显著性检验和置信区间的三篇最新论文

当前推荐数：7 推荐人： 王涛 李宏翰 谢钢 尤明庆 周忠浩 杨正瓴 钟定胜

发表评论 评论 (3 个评论)

黄河宁

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：7 推荐人：王涛李宏翰谢钢尤明庆周忠浩杨正瓴钟定胜

发表评论评论 (3 个评论)