博文

“木匠都会嘲笑的”— 置信区间理论用于测量不确定度评定的一个谬误

已有 3152 次阅读 2022-5-27 08:00 |个人分类:测量不确定度|系统分类:观点评述

科学网杨正瓴博主在最近发表的一篇博文【1】中提出了3个颇有意义的疑问。这里尝试探讨杨老师的第一个疑问（黏贴如下）。

事实上，奈曼在上个世纪30年代提出置信区间理论时立刻就受到质疑。谢刚谢老师在他对杨老师博文【1】的评论中对此有详细的论述。尽管置信区间理论通过统计学教科书的传播成为主流范式，学术界对它的质疑和批评时而有之。比较近期的是Morey 等人2016年的论文【2】。该论文详细论述了置信区间的局限性和缺陷，指出置信区间不是用来推断未知参数的, 并建议科学界摒弃置信区间。该论文至今已经被引用了505次，其影响力可以略见一斑。

国际标准化组织(ISO) 联合7个国际组织于1993年发布了《测量不确定度表示指南》（简称《指南》) 【3】。《指南》的发布标志用测量不确定度理论“正式”取代传统的测量误差理论。《指南》测量不确定度体系的统计学基础是奈曼的置信区间理论和基于学生氏t分布的小样本理论。对于n次重复测量，当总体标准差未知时，根据学生氏t分布给出的置信水平为p%的置信区间为：

那么，如同杨老师所质疑的：“问题到底出在哪里？”

在2005年前后，笔者因为在工作中需要处理大量的小样本数据得以发现按照《指南》方法计算的扩展不确定度很不合理。当时也十分疑惑：“问题到底出在哪里？”“为什么经典的小样本理论不好用呢？”这个问题困惑了笔者整整9年。长话短说，笔者终于发现 “t-转换扭曲”和在t-转换扭曲了的样本空间进行统计推断是一个方法论的错误【5】。学生氏t分布在数学推导上没有问题，但是根据学生氏t分布进行统计推断可能是错误的。 “t-转换扭曲”是扩展不确定度在小样本时极不合理的根源。

t-转换扭曲动摇了基于学生氏t-分布的小样本理论的基础。那么有没有适合小样本的统计推断方法呢？其实，统计推断的本质是“根据样本统计量来推断未知总体参数”。所以无论在理论上还是实际应用中，不需要人为地区分大样本和小样本。换句话说，一个有效的统计推断方法应该适用于任何样本量，只不过对于小样本，推断结果的不确定度会比较大。比如“无偏估计”法是一个有效的统计推断方法，可以应用于任何样本量。

事实上，学生氏t-分布误导了小样本统计推断。这其实有一点讽刺意义，因为按照统计学教科书的说法，学生氏t-分布是解决小样本问题的工具。那么问题是：为什么学生氏t-分布一直见于统计学教科书而很少见到质疑？笔者猜测的第一个原因是：t-转换扭曲造成的偏差只有在样本量很小时才显著，如果样本容量不是很小，比如n ≥10，t-转换扭曲造成的偏差不明显，不容易引起重视。第二个原因（也许是更为重要的原因）是：置信区间理论和小样本理论作为主流范式已经成为绝大多数科学家和统计学家的“信仰”。根据库恩的观点，这种范式信仰，即对主流范式的“承诺”，使“常规科学研究”的视野受到严格的限制【6】。因此人们容易对“反常”现象视而不见。

学生氏t-分布的其它缺陷也因为其作为“主流范式”而被忽略了。例如，学生氏t-分布并不对应于真实世界中的物理量。换句话说，学生氏t-分布是一个没有物理意义的概率分布。作为对照，正态分布可以对应于测量误差，被称为“误差定律”。瑞利分布可以对应于波浪能量，被用来描述波浪能量谱。另外，学生氏t-分布在数学上是“不完美”的：当n=2、3时，它的标准差不存在。这种“不完美”其实是t-转换扭曲的结果。

令人惊讶的是，加利福尼亚大学戴威斯分校Matloff教授在他的统计学专著中有意不包括 t-分布和t-区间的内容【7】。Matloff教授还发表了一篇题目为：“为什么我们还在教t-检验？”的博文【8】。他在博文中指出：“t-检验是 [统计学]课程弊病的一个例子…….我提倡跳过t-分布，直接根据中心极限定理进行推断” 。笔者赞同Matloff教授的观点。上面的例子显示了基于中心极限定理进行推断的有效性。

值得一提的是，2021年 3月出版的走航式声学多普勒流速剖面仪 (ADCP) 河流流量测验国际标准ISO:24578:2021(E)【9】采纳了“扩展不确定度的无偏估计”，没有采用《指南》定义的t区间的半宽作为扩展不确定度。这可能是采用“扩展不确定度的无偏估计” 的第一部国际标准。

参考文献及相关链接

【1】杨正瓴 2022 [困惑] 置信区间与测量误差：到底是怎么回事？科学网：https://blog.sciencenet.cn/home.php?mod=space&uid=107667&do=blog&id=1339704

【2】 Morey R D, Hoekstra R, Rouder J N, Lee M D and Wagenmakers E-J. 2016 The fallacy of placing confidence in confidence intervals Psychon Bull Rev 23 103-123 https://rd.springer.com/article/10.3758%2Fs13423-015-0947-8

【3】Joint Committee for Guides in Metrology (JCGM) 2008 Evaluation of Measurement Data - Guide to the Expression of Uncertainty in Measurement (GUM 1995 with minor corrections) Sevres, France

【4】 D’Agostini G 1998 Jeffeys priors versus experienced physicist priors: arguments against objective Bayesian theory Proceedings of the 6^th Valencia International Meeting on Bayesian Statistics (Alcossebre, Spain, May 30^th-June 4^th)

【5】Huang H 2018 Uncertainty estimation with a small number of measurements, Part I: new insights on the t-interval method and its limitations Measurement Science and Technology 29 https://doi.org/10.1088/1361-6501/aa96c7

【6】库恩（2013）《科学革命的结构》，第四版，金吾伦、胡新和译，北京大学出版社。

【7】Matloff N 2014a Open Textbook: From Algorithms to Z-Scores: Probabilistic and Statistical Modeling in Computer Science (University of California, Davis)

【8】Matloff N 2014b Why are we still teaching t-tests? On the blog: Mad (Data) Scientist—data science, R, statistic https://matloff.wordpress.com/2014/09/15/why-are-we-still-teaching-about-t-tests/

【9】ISO:24578:2021(E), Hydrometry — Acoustic Doppler profiler — Method and application for measurement of flow in open channels from a moving boat, first edition, 2021-3.

转载本文请联系原作者获取授权，同时请注明本文来自黄河宁科学网博客。
链接地址：https://m.sciencenet.cn/blog-3427112-1340388.html

上一篇：科学论文的“新颖性悖论”
下一篇：建议放弃显著性检验和置信区间的三篇最新论文

收藏分享

heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

“木匠都会嘲笑的”— 置信区间理论用于测量不确定度评定的一个谬误

当前推荐数：10 推荐人：尤明庆 李宏翰 胡泽春 谢钢 周忠浩 范振英 杨正瓴 宁利中 孙颉 钟定胜

该博文允许注册用户评论请点击登录评论 (3 个评论)

黄河宁

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

“木匠都会嘲笑的”— 置信区间理论用于测量不确定度评定的一个谬误

当前推荐数：10 推荐人： 尤明庆 李宏翰 胡泽春 谢钢 周忠浩 范振英 杨正瓴 宁利中 孙颉 钟定胜

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

黄河宁

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：10 推荐人：尤明庆李宏翰胡泽春谢钢周忠浩范振英杨正瓴宁利中孙颉钟定胜

该博文允许注册用户评论请点击登录评论 (3 个评论)