heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

为什么会产生对t-值和学生氏t-分布的认知偏差?

已有 1839 次阅读 2022-8-29 05:54 |个人分类:统计推断与概率|系统分类:观点评述

在有的统计学文献中,可以发现如下t-值和学生氏t-分布的解释: 1)t-值与z-值具有相同的意义: 量度样本均值与总体均值的标准化距离(例如【1】)。2)学生氏 t-分布的尾部较厚重意味着学生氏t-分布更容易产生远离总体均值的值(例如【23】)。然而,这两个解释都是错误的,反映了t-值和学生氏t-分布的认知偏差

1显示仿真模拟的(s, ε) 散点图(s=样本标准差, ε=样本误差,用σ标准化,样本量n=4)样本误差ε样本均值与总体均值之差。在这个原始 s平面,两条红色平行线之间的带型区域为标准化z-区间(95%覆盖率,z-=z95=1.96), 即:

image.png 

1可以看出, z-值量度标准化误差的大小,即样本均值与总体均值的标准化距离。图1中显示的z-区间对应于z-=z95=1.96,表明95%的数据分布在总体平均值1.96个标准误差范围内。图1中显示的t-区间对应于t-=t95=3.18,表明95%的数据分布在t-区间扇形区域内。但是,很明显我们不能套用对z-值的解释来解释t-值,即我们不能说t-值量度标准化误差的大小。事实上z-值是z-区间边界水平线的截距因子,t-值是t-区间边界斜线的斜率因子;水平线和斜线不可能重合。即使样本量n非常大时,t-值接近z-值, t-值的数学意义依然与z-值不同。

1还可以看到,虽然t-区间和z-区间的覆盖率相同(95%),它们分别“覆盖不同的数据。也就是说,t-区间的“内容”不同于z-区间的“内容”。因此,学生氏t-分布与标准正态分布在“本质”上是不同的。特别需要注意的是,学生氏t-分布的尾部是由t-区间扇形区域以外的数据构成的,其中包含大量误差很小的数,即这些数对应的样本均值实际上与总体平均值的距离很小。

 那么,为什么会出现对t-值和学生氏t-分布的认知偏差呢?我们将图1显示的(s, ε) 散点图中的数据通过t-转换显示在图2的(s, t)散点图中。在这个t-转换 s-t平面z-区间和数据发生了扭曲(称为t-转换扭曲45】),而t-区间边界变为两条平行线,即:

image.png

参考文献

1  Dean S and Illowsky B 2014 Confidence Intervals: Confidence interval, single population mean, population standard deviation unknown Connexions modules: m16959, http://www.saylor.org/site/wp-content/uploads/2011/06/MA121-4.2.2.pdf.  Quote: “The t-score has the same interpretation as the z-score.  It measures how far [the sample mean] is from its mean μ.”

2  Brennan J 2014  Math 148, BU, Part VIII - Tests of significance, Chapters 26, 28, and 29  http://www.math.binghamton.edu/jbrennan/home/S13MAT148/PartVIII.pdf

3  Hayes A 2021 T distribution definition, Investopedia https://www.investopedia.com/terms/t/tdistribution.asp.  Quote: “The T distribution, like the normal distribution, is bell-shaped and symmetric, but it has heavier tails, which means it tends to produce values that fall far from its mean.”

4  黄河宁,2020 为什么基于t-分布计算小样本测量不确定度是一个谬误?-3 个悖论及其消解,Researchgate 链接:https://www.researchgate.net/publication/343039726_weishenmejiyu_t-fenbujisuanxiaoyangbenceliangbuquedingdushiyigemiuwu_-3_gebeilunjiqixiaojie

5Huang H 2018 Uncertainty estimation with a small number of measurements, Part I: new insights on the t-interval method and its limitations Measurement Science and Technology 29  https://doi.org/10.1088/1361-6501/aa96c7




https://m.sciencenet.cn/blog-3427112-1353059.html

上一篇:关于学生氏t-分布的几点澄清
下一篇:数据非线性转换的陷阱 I:对数转换扭曲对回归分析的影响

3 尤明庆 李宏翰 杨正瓴

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 07:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部