科学网

 找回密码
  注册

tag 标签: P值

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

P-value(P值), FDR以及Q-value(Q值)
luria 2020-3-13 21:41
我们知道 CTCF 是一个比较保守的锌指 DNA 结合蛋白,它可以表现出多种调控功能,在组织人类基因组染色质架构方面起着非常重要的作用。为了更好的研究这个蛋白, 我们希望在人类 21 号染色体上识别出候选的 CTCF 结合位点 。已知 CTCF 结合位点是一段 20bp 的序列,其 motif 的 logo 图如下。 我们可以从 21 号染色体上构建 20nt 的 kmer ,每个 20-mer 都跟上述的 motif 序列进行比对,按照每个位点的相似度进行打分,另外这个过程中也会考虑到正负链,最终获取到了六千八百万个子序列。为了叙述方便,后面直接用 68m 表示这 68 million subsequences 。对这 68m 条子序列按照相似性得分从大到小排序,取前 20 条查看如下: 1. 经验零模型 (empirical null model) 这里有个问题: 我们统计出的这 68m 条子序列,其中有非常多的是随机的 ( 这里说的随机是对 CTCF 结合位点序列而言,并不是说基因组的序列是随机的,基因组上每一段都是有意义的 ) ,它并不是真正的 CTCF 结合位点。 为了解决上述问题,我们定义一个原假设 ( 或称零假设, null hypothesis) ,它在本质上表示我们并不感兴趣的情况,也就是说序列是随机产生的 20 个碱基,比对到了 CTCF 结合位点。具体如下: = 首先,我们将 21 号染色体每个碱基位大洗牌。 注:如果写代码为了最大限度的实现随机化,可能会这么操作:先取出第 1 个碱基位的碱基,例如第一位是 T ,同时生成一个随机数例如 11,496 ,将第一位的 T 移动插入到这个位置;同理取第二位碱基,移动插入到一个随机的位置;依次进行直到最后一个碱基;再从序列 3' 端到 5' 端(从后往前)再来一遍 = 其次,对洗完之后的整条染色体序列,再用之前的方法构建 20nt 的 kmer ,按照 motif 序列对每条子序列计算相似性,最后得到每条子序列的得分值。统计如下图: 结果发现≥ 26.30 的子序列 仅有一条,那么我们可以说得分≥ 26.30 的概率为 1/(6.8 × 10 7 ) ,即 1.5 × 10 - 8 。 在原假设数据 ( 即染色体碱基洗牌后的随机序列 ) 中,观测到不小于某个值 ( ≥ 26.30) 的概率 (1.5 × 10 - 8 ) ,这个概率称为 p-value 。 可能这个表述比较绕,这里也摘抄了《概率论与数理统计》课本中对 p 值下的定义。 一般, p 值的定义是: 定义 假设检验问题的 p 值 (probability value) 是由检验统计量的样本观察值得出的原假设可被拒绝的最小显著性水平 . 这类通过染色体上的碱基大洗牌获取随机序列,再采用 CTCF motif 进行检测的方法构成了一个经验零模型 (empirical null model) 。然而这种方法计算量大,效率较低。在实际应用中,通常会先计算出零模型的分布 (null distribution) ,再通过分布计算出当 p 取某个α值 ( 例如 0.05) 时的得分,这样更加高效。 2. 在高通量实验中 p 值不完美 在上例中我们发现只需要计算单个相似性得分,就可以判定 p 值是否合格。例如我们随便选一个 20nt 的序列测试其与 CTCF 结合位点就可以算出 p 值,它不涉及染色体上其它的 20-mer 的序列。例如我们在上例中计算出相似性得分为 17.0 时,得到一个很小的 p-value ( 5.5×10 -7 ),但是当在洗牌后的染色体上检测时还是发现了非常多(因此基数很大,即使概率小也会出现)。 注:说得更真白一些,如果将 p-value 的显著性阈值α设为 0.05 ,实际上表明有 5% 的概率使得结果呈假阳性,即判定为真,但是事实上是错误的。如果基数非常大,例如抽 1 万人检测是否患有新冠肺炎,发现其中有 4 千人患有肺炎,按照 5% 的阈值,大约会有 4000 × 0.05=200 个人被误诊!! 有很多方法可以减少假阳性,也即减少犯第 I 类错误,如下表。一部分方法试图降低显著性阈值α,例如直接将其设置为 0.01 ;另外一部分方法试图校正 p-value 。后者即接下来要探讨的多重检验校正 (mulitple testing correction) ,以校正统计置信水平。 3. 多重假设检验的校正 最常用和最简单的多重检验校正方法是 Bonferroni 校正 (Bonferroni adjustment) ,它适用于已知显著性阈值α,且进行了 n 个独立试验的情况。 Bonferroni 校正认为只有当 P-value ≤α /n 时,才算作显著。这个条件在上述 CTCF 结合位点检测的例子中太过苛刻,因为假设当α设为 0.01 时 , P-value ≤ 0.01/(68 × 10 6 )=1.5 × 10 -10 ,那么上面的结果显示即使是最小的 P-value 也才 2.3 × 10 -10 ,经过这种方法校正之后所有的结果都不显著。设α为 0.01 ,也就是说可以 99%( 即 1-0.01) 的可信度说,在零假设中没有得分值被随机观测到。 事实上, Bonferroni 校正是一种比较保守的方法,虽然它降低了假阳性的比例,但是同时也降低了真阳性的比例。我们需要一种降低假阳性,但同时又不影响真阳性的方法, FDR 校正应运而生。 在上例中我们算出相似性得分为 t=17.0 时,我们可以计算出正常的 21 号染色体中该得分时总的子序列数,记做 S obs ,经统计这个值为 519 个;同时也可以计算出洗牌之后的染色体序列中该得分时总的子序列,记为 S null ,经统计有 35 个子序列达到这个值。 FDR 的评估是 S null /S obs 。因此得到这个值为 35/519=6.7% 。通过上式我们不难发现这种 FDR 值计算中不涉及 p-value 值,当然也可以采用 Benjamini-Hochberg 过程利用 p-value 值来计算,而且利用 p-value 计算出的结果更加准确,但是也更加复杂,在比较简单的例子使用上述 S null /S obs 评估也可以得到相似的结果。 读到这里,我们可能会担心 FDR 评估是一个单调的函数吗?如果不是,可能会和 p value 得到的显著性排序结果不同。很不幸,它是一个非单调的函数!这使得 FDR 的结果很难被解释。因此, Storey 提议定义一个 q-value ,表示到达或超过某个得分时最小的 FDR 值。如果不太理解也不要紧, q-value 可以认为是使用优化的 FDR 方法来校正 p-value 后的结果 ,如果有兴趣也可以读一下 。通常情况下 FDR 分析将产生更多的显著得分值,至少在上述 CTCF 分析例子中是这样的。 本文整体框架翻译自文献 ,部分内容补充自网页 。翻译有误的地方,欢迎读者指出来,以便改进,谢谢! 参考材料: William S Noble. How does multiple testing correction work? Nature biotechnology. 2009 盛骤,谢式千,潘承毅 . 概率论与数理统计 . 高等教育出版社 http://www.nonlinear.com/support/progenesis/comet/faq/v2.0/pq-values.aspx Storey JD. A direct approach to false discovery rates. Journal of the Royal Statistical Society. 2002
个人分类: Algorithm|640 次阅读|0 个评论
R语言笔记——ggplot2画回归曲线,添加方程或P值
Hunshandake 2020-1-2 15:35
library(ggplot2) library(dplyr) # 加载 dplyr 包 library(ggpmisc) # 加载 ggpmisc 包 library(RColorBrewer) library(ggpubr) # 载入数据,计算均值和 se caomuxi-read.csv(E:/R/Rfiles/data.csv) windowsFonts(SH = windowsFont(Times New Roman)) #第一种方案,做点状图,加回归线,添加回归方程和R 2 a- ggplot(data=data,aes(x=Fert, y=Hight))+ geom_point(aes(color=treatment),size = 3)+ # 设置分组颜色和点的大小 geom_smooth(method = lm,linetype=3,se=FALSE,colour=black,span=0.8)+ # 添加回归曲线, se 取消置信空间, linetype 设置线型 stat_poly_eq(aes(label = paste(..eq.label.., ..adj.rr.label.., sep = '~~~~')), formula = y ~ x, parse = T,family = SH) + # 添加回归方程和 R 2 scale_x_continuous()+ scale_y_continuous(expand = c(0, 0),# 设定 x 轴和 y 轴的交叉点 name =Height (cm),# 设定 y 轴标题 breaks=seq(0,50,10),# 设定 Y 轴的数据间隔 limits = c(10,50) # 设定 Y 轴的数据上下限 )+ scale_color_brewer(palette = YlOrRd)+ theme() a 出图如下: #第二种方案,做点状图,加回归线,添加R 2 和P值 a- ggplot(data=data,aes(x=Fert, y=Hight))+ geom_point(aes(color=treatment),size = 3)+ # 设置分组颜色和点的大小 geom_smooth(method = lm,linetype=3,se=FALSE,colour=black,span=0.8)+ # 添加回归曲线, se 取消置信空间, linetype 设置线型 stat_fit_glance(method = 'lm', method.args = list(formula = y ~ x), mapping = aes(label = sprintf('R^2~=~%.3f~~italic(P)~=~%.2g', stat(r.squared), stat(p.value))), parse = TRUE,label.x = 0.95,label.y = 0.95,family = SH)+ # 方案 2 ,仅添加 R 2 和 P 值, label.x 和 label.y 设置文字位置。 scale_x_continuous()+ scale_y_continuous(expand = c(0, 0),# 设定 x 轴和 y 轴的交叉点 name =Height (cm),# 设定 y 轴标题 breaks=seq(0,50,10),# 设定 Y 轴的数据间隔 limits = c(10,50) # 设定 Y 轴的数据上下限 )+ scale_color_brewer(palette = YlOrRd)+ theme() a 出图如下:
个人分类: 软件使用|22688 次阅读|0 个评论
统计学指标p值还可信吗?
热度 2 Enago 2019-5-22 13:39
科研工作者经常用统计学方法来判断某个结果是否在不同的实验条件下存在差异,并且判断这种差异是否由于偶然因素造成。使用最广泛的统计指标是p值,用来检测差异的显著性水平。“p0.05”代表着样本间的差异由抽样误差所致的概率小于0.05,这种有统计学 显著性差异 的结果正是科研人员梦寐以求的。有了这样的结果,就可能意味着论文发表,科研经费到位,甚至功成名就,对p值的滥用和误用现象也因此而生,即所谓的 p-hacking ,指p值篡改或p值操纵。 由于p0.05被推上神坛,被视为论文可能发表的指标,就有科研者费尽心机操纵p值。不管是有心还是无意,科研者会不断尝试各种统计学方法和数据,直至p0.05。P-hacking的 手段 有对变量进行选择性取舍、对数据进行选择性删除、对样本量进行选择性增加、在统计分析后把指标进行合并或拆分、发现p值有意义后就停止收集数据等等。这样的统计分析很容易产生假阳性结果,也导致实验的不可重复性。可悲的是,这种行为在发表的科研论著中相当普遍。 2015年,Science发表了一项实验心理学的大规模 重复性研究 ,仅有39%的结果能够被成功重复。Nature的一项 调查发现 70%的科研人员无法重复他人的研究,50%的科研人员甚至无法重复自己的实验结果。科研的信用已经被“可重复性危机”损害,而p-hacking对此也起到了推波助澜的作用,让很多统计学家和科学家都非常担忧。 如何避免p值操纵呢?最好的办法就是提高科研者对p-hacking危害性的认识,避免对实验数据进行选择性地分析。弗吉尼亚大学心理学教授Brian Nosek发起成立了推动科研界更开放更透明的公益组织—开放科学中心( Center for Open Science ),帮助科研者更好的设计实验,提高实验的可重复性。比如,双盲实验就可以避免科研者选择性地处理数据。 另外一项统计学指标“信心指数” (Confidence Index) 可以用来更加准确地评估实验数据的可靠性。 p 值依靠样本量和反应频率,而信心指数不同,它是个复合指标,由以下三点决定:随机变量,先验概率,假设真相。 p0.05 说明实验结果有 95% 的可能性是有意义的,而信心指数则明确清晰的说明结果有意义的具体可能性是多少。这样的统计指标尤其对临床研究的决策有指导性意义。斯坦福大学医学院流行病学教授 Steven Goodman 在 Nature 上撰文建议使用信心指数,可以减少对 p 值的依赖和舞弊。 统计学家在2016年初专门发表声明,澄清p值的真正意义以及应该如何正确使用p值。然而p值仍延续着一直被批判,从未被取代的地位。如何对科研界的现状进行有效的改变,还需要科研者和学术出版界共同努力,探索新的统计学标准以及适用的领域。 您可能感兴趣的文章 如何高效地检索和审阅专利 更多精彩文章,请 点击 订阅 英论阁学术院 或关注英论阁微信公众号EnagoChina § 博客内容皆由 英论阁 资深学术专家团队撰写提供§
个人分类: 期刊发表|10375 次阅读|2 个评论
P值真的万能吗?
Enago 2017-12-25 15:42
几乎每篇文章都会出现P值。很多时候P值小于0.05就意味着某项科研的成功,大于0.05则意味着失败。但P值真的是万能的吗? 对此, 波士顿哈佛公共卫生学院的维克多·德·格鲁托拉(Victor De Gruttola)所说,P值0.05的选择实际上是一种命理学,没有科学的理由。 一个 72人的科学研究组最近发声 ,指出研究者、资助机构以及出版社都在担心 科研文章 的可复制性。他们认为统计模型中的P值只是冰山一角,并不能作为认可或否认一项科研的唯一甚至重要依据。有些研究者在PsyArXiv上发文说,P值应该降至0.005。洛杉矶南加州大学的经济学家丹尼尔·本杰明(Daniel Benjamin)说:“当P值为0.05时,科研所得证据是相当弱的,P值在0.05到0.005之间也只应被视为“建议性证据”而不是确定的知识。假设研究有100%的能力来检测真实的效果,要求p值等于或低于0.005而不是0.05会产生更有力的证据:这会将假阳性结果从33%降低到5%。 然而,降低P值有可能增加阴性结果;比如实验结果表示药物不存在作用而事实是药物是起作用的,这样就会错过有用的发现。荷兰大学心理测量和统计的研究员们表示说,为了弥补这一缺陷建议增加70%的样本量,这样不仅可以避免误报率的增加,同时还能大大降低误报率。但他们也说实际上只有资金雄厚的科学家才有办法做到这一点。 然而,芝加哥伊利诺伊理工学院的计算机科学家则说,这个问题没有简单的答案,因为不管你选择什么置信区间,总有一种实验办法有可能碰巧得到显著的结果。同样,他也指出降低P值会导致很多 阴性结果 的科研文章都长眠于抽屉。当然,各学科对P值的看法也是不同的。对于收集来自原子粉碎实验的物理学家,他们在处理大量数据时,长期以来一直要求P值低于0.0000003(或3×10-7),因为担心较低的阈值可能导致错误的解读。其实十多年前,遗传学家采取了类似的做法,为全基因组关联研究建立了一个5×10-8的P值门槛,来寻找患者与那些变体患者之间的差异。 还有一些科学家已经放弃了P值,而倾向于更复杂的统计工具,如贝叶斯检验,这需要研究人员来定义和测试。不过,并不是所有的研究人员都有专门的技术来进行贝叶斯测试的。P值不万能,但还是可以用来衡量一个假设是否有证据支持的。P值本身也许没错,只是需要我们科研人员更加小心地利用。 您对P值的看法是什么呢? 更多精彩文章 请造访 英论阁官网 和 【英论阁学术院】 --- 或关注 【 英论阁微信公众号】 ( 搜索enagocn或扫描下方二维码) --- § 博客内容皆由 英论阁 资深学术专家团队撰写提供 §
个人分类: 科研感悟|5325 次阅读|0 个评论
高通量数据的多重检验问题
热度 2 yufree 2017-1-9 12:44
各种组学分析技术的进展导致了我们在收集数据时更侧重数据信息的保存,然而我们收集的数据最终也会根据我们的想探索的问题来寻找答案,甚至有时候我们在实验设计分组时就打算考察某一个变量而为了获取更多的相关信息而采用了组学技术。这点是尤其要强调的,科研人员一定是面向科学问题解决科学问题,而不要为了应用新技术而应用新技术。当然,现实的情况是新技术特别是组学技术的发展为我们提供了大量的可同时测定的生物学指标(例如基因表达水平、蛋白表达水平、代谢产物表达水平)数据,大到我们事先也不知道会有什么模式会出现,这样就需要数据挖掘,特别是统计学知识来帮助我们发现新知。然而,组学技术产生的这类高通量数据是具有一些特质的,数据里确实会有我们关心分组的差异表达,但同时也有大量测量值对于我们设定的分组不敏感,然而当我们去对比组间差异时就会被这些数据干扰。 举例而言,我对两组样品(暴露组跟对照组)中每一个样品测定了10000个指标,每组有10个样品,那么如果我想知道差异有多大就需要对比10000次,具体说就是10000次双样本t检验。那么如果我对t检验的置信水平设置在0.05,也就是5%假阳性,做完这10000次检验,我会期望看到500个假阳性,而这500个有显著差异的指标其实对分组不敏感也可以随机生成。假如真实测到了600个有显著差异的指标,那么如何区分其中哪些是对分组敏感?哪些又仅仅只是随机的呢?随机的会不会只有500个整呢? 这就是多重检验问题,做经典科研实验时往往会忽略,深层次的原因是经典的科研实验往往是理论或经验主导需要进行检验的假说。例如,我测定血液中白血球的数目就可以知道你是不是处于炎症中,其背后是医学知识的支撑。然而,再组学或其他高通量实验中,研究实际是数据导向的,也就是不管有用没用反正我测了一堆指标,然后就去对比差异,然后就是上面的问题了,我们可能分不清楚哪些是真的相关,哪些又是随机出现的。 当然这个问题出现也不是一天两天了,再 多重比较 问题上就已经被提出过,只不过在多重比较里对比数因为排列组合比较多而在多重检验里纯粹就是因为同时进行的假设检验数目多。那么其实从统计角度解决的方法也基本来源于此。 整体错误率(Family-wise error rate)控制 对于单次比较,当我们看到显著差异的p值脑子里想的是空假设为真时发生的概率,当我们置信水平设定在0.95(I型错误率0.05)而p值低于对应的阈值,那么我们应该拒绝空假设。但对比次数多了从概率上就会出现已经被拒绝的假设实际是错误的而你不知道是哪一个。整体错误率控制的思路就是我不管单次比较了,我只对你这所有的对比次数的总错误率进行控制。还是上面的例子,对于10000次假设检验我只能接受1个错误,整体犯错概率为0.0001,那么对于单次比较,其I型错误率也得设定在这个水平上去进行假设检验,结果整体上错误率是控制住了,但对于单次比较就显得十分严格了。下面用一个仿真实验来说明: # 随机数的10000次比较 set.seed ( 42 ) pvalue - NULL for ( i in 1 : 10000 ){ a - rnorm ( 10 ); b - rnorm ( 10 ); c - t.test ( a , b ); pvalue - c $ p.value } # 看下p值分布 hist ( pvalue ) # 小于0.05的个数 sum ( pvalue 0.05 ) ## 477 # 小于0.0001的个数 sum ( pvalue 0.0001 ) ## 0 这样我们会看到进行了整体的控制之后,确实是找不到有差异的了,但假如里面本来就有有差异的呢? set.seed ( 42 ) pvalue - NULL for ( i in 1 : 10000 ){ a - rnorm ( 10 , 1 ); b - a +1; c - t.test ( a , b ); pvalue - c $ p.value } # 看下p值分布 hist ( pvalue ) # 小于0.05的个数 sum ( pvalue 0.05 ) ## 6559 # 小于0.0001的个数 sum ( pvalue 0.0001 ) ## 45 上面我们模拟了10000次有真实差异的假设检验,结果按照单次检验0.05的阈值能发现约7000有差异,而使用0.0001却只能发现不到100次有显著差异。那么问题很明显,或许控制整体错误率可以让我们远离假阳性,但假阴性也就是II型错误率就大幅提高了,最后的结果可能是什么差异也看不到。 下面我们尝试一个更实际的模拟,混合有差异跟无差异的检验: set.seed ( 42 ) pvalue - NULL for ( i in 1 : 5000 ){ a - rnorm ( 10 , 1 ); b - a +1; c - t.test ( a , b ); pvalue - c $ p.value } for ( i in 1 : 5000 ){ a - rnorm ( 10 , 1 ); b - rnorm ( 10 , 1 ); c - t.test ( a , b ); pvalue - c $ p.value } # 看下p值分布 hist ( pvalue ) # 小于0.05的个数 sum ( pvalue 0.05 ) ## 3499 # 小于0.0001的个数 sum ( pvalue 0.0001 ) ## 21 此时结果就更有意思了,明明应该有5000次是有差异的,但阈值设定在0.05只能看到约3500次,而0.0001只能看到24次。 上面的模拟告诉我们,降低假阳性会提高假阴性的比率,而且似乎本来0.05的阈值对于真阳性也是偏小的。同时,面对假设检验概率低于0.05的那些差异,我们也没有很好的方法区别哪些是真的,哪些是随机的。 其实很多人都知道整体错误率控制是比较严格的,但也不是完全没人用,例如寻找生物标记物做重大疾病诊断时就不太能接受假阳性而可以接受一定的假阴性,此时如果标准放宽就会找到一大堆假信号,到时候标记不准就会对诊断产生负面影响。 下面介绍下常见的整体错误率控制方法: Bonferroni 方法 思路很简单,就是控制显著性,例如单次检验假阳性比率$\alpha$控制在0.05,那么n次检验假阳性比率控制为$\frac{\alpha}{n}$。这样实际是对整体采用了个体控制的控制思路: P(至少一个显著)=1-P(无显著差异) = 1-(1-\alpha/n)^n 我们来看下$\alpha = 0.05$随比较数增加的效果: n - c ( 1 : 10 %o% 10 ^ ( 1 : 2 )) p 0 - 1 - ( 1-0.05 ) ^ n p - 1 - ( 1-0.05 / n ) ^ n # 不进行控制 plot ( p 0 ~ n , ylim = c ( 0 , 1 )) # Bonferroni方法控制 points ( p ~ n , pch = 19 ) 其实,这样的控制得到的整体错误率是略低于0.05的,并且数目越大,整体错误率越低。这个方法十分保守,有可能什么差异你都看不到,因为都变成假阴性了。在实际应用中一般不调节p值的假阳性比率而直接调节p值,取原始p值跟整体检验数目的乘积与1的最小值作为调节p值,还可以用0.05或0.01进行判断,不过这时候控制的整体而不是单一检验了。 当然这只是最原始的Bonferroni方法,后来Holm改进了这种一步法为逐步法,此时我们需要首先对原始p值进行排序,然后每个原始p值乘上其排序作为调节p值。例如三次多重检验的p值分别是0.01、0.03与0.06,其调节后的p值为0.03,0.06,0.06。如果我们控制整体假阳性比率低于0.05,那么调解后只有第一个检验可以拒绝空假设。值得注意的是Holm的改进是全面优于原始方法的,也就是说当你一定要去用Bonferroni方法控制整体错误率,优先选Holm的改进版。 Sidak 方法 上面那种方法其实有点非参的意思,其实数学上我们是可以精确的把假阳性比率控制在某个数值的: P(至少一个显著)=1−P(无显著差异)=1−(1−α′)n=0.05 求解可得到$\alpha’ = 1-0.95^{\frac{1}{n}}$,此时我们就可以比较精确的控制整体错误率了,但是,这个方法有个前提就是各个检验必须是独立的,这在生物学实验里几乎不可能,所以这个方法的应用远没有Bonferroni方法广。 错误发现率(False Discovery Rate)控制 刚才的模拟中我们可以看到,控制整体错误率比较严格,假阴性比率高,那么有没有办法找到假阴性比率低的呢?要知道我们其实只关心有差异的那部分中那些是真的,哪些是假的,无差异的可以完全不用考虑。那么我们可以尝试控制错误发现率,也就是在有差异的那一部分指标中控制错误率低于某一水平。 # 所有有差异的 R - sum ( pvalue 0.05 ) # 假阳性 V - sum ( pvalue 0.05 ) # 错误发现率 Q - V / R R ## 3499 V ## 225 Q ## 0.06430409 上面的计算显示虽然我们漏掉了很多阳性结果,但错误发现率并不高。事实上如果我们控制错误率到0.01,错误发现率会更低: # 所有有差异的 R - sum ( pvalue 0.01 ) # 假阳性 V - sum ( pvalue 0.01 ) # 错误发现率 Q - V / R R ## 999 V ## 34 Q ## 0.03403403 其实出现这个问题不难理解,空假设检验里p值是均匀分布的而有差异检验的p值是有偏分布且偏向于较小的数值,所以假阳性控制的越小,有偏分布占比例就越高,但同时会造成假阴性提高的问题。 那么错误发现率会不会比整体错误率的控制更好呢?这里通过两种常见的控制方法进行说明。 Benjamini-Hochberg方法 这个方法跟Holm方法很像,也是先排序,但之后p值并不是简单的乘排序,而是乘检验总数后除排序.举例来说就是假设三次多重检验的p值分别是0.01、0.03与0.06,其调节后的p值为0.03,0.45,0.06。那么为什么说这种方法控制的是错误发现率呢?我们来看下$\alpha$是如何得到的:p值乘总数m得到的是在该p值下理论发现数,而除以其排序实际是该p值下实际发现数,理论发现数基于在这里的分布是均匀分布,也就是空假设的分布,这两个的比值自然就是错误发现率。下面我用仿真实验来说明一下: pbh - p.adjust ( pvalue , method = 'BH' ) ph - p.adjust ( pvalue , method = 'holm' ) plot ( pbh ~ pvalue ) points ( ph ~ pvalue , col = 'red' ) 从上面图我们可以看出,如果控制整体错误率(红色),那么p值很容易就到1了,过于严格。而如果用BH方法控制错误发现率,那么原始p值越大,调节后的错误发现率也逐渐递增,这就符合了区分真实差异与随机差异就要假设真实差异更可能出现更小的p值这个现象。当然至于这个方法的推演细节,可以去读原始论文。值得注意的是这个错误发现率求的是有差异存在的情况,不然零发现就出现除数为零了。 Storey方法(q值) 如果说BH方法还算是调节了p值,那么Storey提出的方法则直接去估计了错误发现率本身。刚才介绍BH算法时我提到总数m与p值的乘积是基于这里的分布是均匀分布,但实际上按照错误发现率的定义,这里应该出现的是空假设总数。直接使用所有检验数会造成一个问题,那就是对错误发现率的高估,为了保证功效,这里应该去估计空假设的总体比例。这里我们去观察混合分布会发现在p值较大的时候基本可以认为这里分布的都是空假设的p值,那么我们可以用: $\hat\pi_0 = \frac{\#\{p_i\lambda\}}{(1-\lambda)m}$ 估计这个比例$\hat\pi_0$,其中参数$\lambda$的跟$\hat\pi_0$的关系可以用一个三阶方程拟合,然后计算出整体假阳性比例。有了这个比例,我们再去按照BH方法计算p值,然后两个相乘就会得到q值,而q值的理论含义就是在某一概率上低于这个概率所有数里假阳性的比重。打个比方,我测到某个指标的q值是0.05,这意味着q值低于这个数所有检验中我有0.05的可能性得到的是假阳性。。但我们会发现当空假设比重较高时BH结果跟q值很接近,而比重很低的话q值会变得更小,功效会提高,基本也符合我们对错误发现率的预期。 library ( qvalue ) q - qvalue ( pvalue ) # Q值 plot ( q $ qvalues ~ pvalue , col = 'blue' ) 如上图所示,q值增大后会最终逼近到0.5,而我们的模拟中空假设的比例就设定就是50%。我们重新模拟一个空假设比例5%的实验: set.seed ( 42 ) pvalue - NULL for ( i in 1 : 500 ){ a - rnorm ( 10 , 1 ); b - a +1; c - t.test ( a , b ); pvalue - c $ p.value } for ( i in 1 : 9500 ){ a - rnorm ( 10 , 1 ); b - rnorm ( 10 , 1 ); c - t.test ( a , b ); pvalue - c $ p.value } pbh - p.adjust ( pvalue , method = 'BH' ) ph - p.adjust ( pvalue , method = 'holm' ) q - qvalue ( pvalue ) plot ( pbh ~ pvalue ) # Holm 方法 points ( ph ~ pvalue , col = 'red' ) # Q值 points ( q $ qvalues ~ pvalue , col = 'blue' ) 此时我们可以看到两者结果较为接近,q值理论上更完备,功效也更强,但算法上对$\hat\pi_0$的估计并不稳定,特别是比例靠近1的时候,所以BH方法可能还是更容易让人接受的保守错误发现率控制。详细的估计方法还得去啃Storey的 论文 。 小结 多重检验问题是高通量数据里逃不掉的问题,要想找出真正的差异数据就要面对假阳性跟假阴性问题,这是一个不可兼得的过程,看重假阳性就用整体错误率,看重功效就用错误发现率控制。并不是说哪种方法会好一些,更本质的问题在于你对实际问题的了解程度及统计方法的适用范围。例如你选基因芯片时实际也进行了一次选择,改变了整体检验的p值分布,而不同的p值分布对应的处理方法也不太一样,有兴趣可以读下 这篇 。有时候你的实验设计本身就会影响数据的统计行为,而这个恰恰是最容易被忽视的。
个人分类: 科搜研手册|11157 次阅读|4 个评论
科学界出现可重复性危机,不可重复未必就没有意义
热度 27 brianring 2016-10-9 16:27
科学之路困难重重。 其实天下 难事一大堆 ,烤出 可口的法式长棍很难, 记住每个朋友的生日 很难,搞科研也很难 。但是科学研究有一个 特点,就是它的难度 可以被量化:p值。p值可以帮助我们识别有显著统计学意义的研究结果,不过 想要得到较低的 p值很难。 在医疗科学领域,具备统计学意义往往意味着提出了一个好的问题、有大量的患者样本、并且能够做好相关的分析和计算。提出好问题得够 聪明 ,大量的患者样本得有 足够的 资源,做好分析和计算则需要 研究人员足够 勤奋,让 某个研究人员或者研究小组同时具备这些条件就难了。 拿我个人来说,我 就一直不明白 冰箱 里 的 那些 存储箱都是干嘛用的,更别说搞清楚临床研究的整个工作流程了。 但 不幸的是, 当今的科学界对每一项研究的p值都 非常重视 , 以确保这些p值能够告诉他们想要得到的信息。研究所得的 数据不仅应该意义重大,还应该可重复。不幸的是,不少研究结果往往是不可重复的。实际上,有一些人说我们现在正处于“可重复性危机”的漩涡之中。大量的研究表明,医学 和社会科学领域已经发表的大多数研究结果虽然在一开始取得了很好的p值,却几乎都是不可重复的。 那么为什么会出现 这种危机呢 ?难道 是因为科学界盛行欺骗和懒惰的不良风气,想要解决危机就只能推翻科学界?可能 这个问题比想象中的更为复杂,研究 设计应该怎么做,真正可重复的科学结果到底是什么,学界应该就这些取得共识。 20 世纪20年代, RonaldFisher 首次提出了 P值的使用标准,最初用于识别有统计学意义的结果。小于0.05的P值通常被用作阈值,有时候也会听到这样的解释,“做出错误假设的几率低于5%。”这种解释是不准确的。它实际的意思是,“如果假设完全错误,那么得到这些结果(或者更极端的结果)的几率低于5%”(定义p值还有很多更为精确的方式,但是这个应该就可以了)。虽然 这两种版本的解释之间差异不大,但是却十分重要 。 举个 例子, 假设你是星舰号的科学官,货舱里装着小麦与小黑麦,准备运往薛曼星系 ,星际联邦和 克林贡帝国正在 争夺那儿的主权。 有一天 , 你在 粮仓里发现了很多毛球族 ,毛球们吃掉了粮仓 的 粮食,而且其中一半的毛球已经死了。假设在毛球族生命周期已知的情况下,毛球死亡数量超过了我们的预期,那么粮食很有可能被克林贡人下毒了。接下来就应该进行统计检验了! 1000个毛球族中454个死亡,其他546个还活着。已知 毛球族的寿命,以及舰上所有毛球族都是由上周带来的两个毛球繁衍而来的 (毛球族繁殖速度非常快),正常 情况下 ,死亡率 不会超过 10%。标准的统计测试会得出一个小于0.0001的p值,这决定了我们对毛球族死亡率的预估是否准确,不过对一大批已经死亡的毛球族进行长时间观察的可能性很低。 P值小,就排除了毛球族按预期概率死亡的情况。 这是否意味着克林贡人对粮食下了毒?因为p值很小,所以 形势似乎对他们不利 ,但是这不一定就意味着都是 克林贡人的错 。前面 也说到了, p值并不是为了检验我们的假设(毛球族死亡率高于正常水平,可能是因为这些邪恶的克林贡人)是否正确。相反,这个研究只是想要证明如果毛球族的生命周期是一定的,不太可能出现一半族群死亡的情况。可能我们研究的毛球族正好属于寿命较短的那一类,可能这种毛球族讨厌小麦,也有可能是有人在中子等离子体流穿过货舱的时候逆转了它的的极性,导致时间出现了折叠(这一假设很有可能是正确的,所有的星际迷都可以作证)。换句话说,一个低p值并不意味着我们的假设是正确的,只是在提醒我们(目前)不要忽略它。 如果可供测试的毛球数量很少,也会得出具有误导性的p值。可能打开粮仓的时候清理出了一部分毛球族,导致剩下的可供测量的毛球族数量很少,只找到了六个活着的毛球族以及四个已经死了的。考虑 到 我们可能再也找不到任何死毛球了,我们还是得出了一个重要的p值(p=0.0018)。然而我们还是可以提出这样的疑问,因为我们只对少数的毛球族进行了测试,那么对于测试结果的准确性有多大的把握呢? 另一项测试表明,我们有95%的信心保证毛球族死亡的真实比例在10%至70%之间。因为我们预期自然死亡 的毛球族占 10%的毛球族,所以相对而言这个区间范围还是挺大的。相反,当我们要对1000个毛球族进行测试的时候,毛球族95%的置信区间范围死亡率为42%-48%。 这是在暗示这都是克林贡人搞的鬼吗? 我们有一些证据可以表明克林贡人阻碍了薛曼星系的殖民化(虽然证据至今还不是很明确),但是这跟当前科学界的可重复性危机有什么关系呢? 一,可重复性需要对大量的对象进行研究。 我们已经发现,即使是在p值很小的情况下,样本的大小都会影响结果的准确性。除了 p 值之外,提供更多的参数 逐渐成为现在发表科学研究的标准要求,列出置信区间将有助于我们规范研究的可靠性。这样列出来之后,会发现 ,如果只是对十个毛球族进行研究,那么得到的结果很难给人留下深刻的印象。 在贸然攻打克林贡国之前,可能还得对更多的毛球族进行另外一次测试。当然,这一点对于临床研究同样适用。如果 研究得到的 P值好得 令人诧异,多半的原因是因为样本太小了。 二,可重复性需要一个良好的假设。 在毛球族测试研究中,p值低并不意味着我们的假设就是对的。撇开等离子体流引起的时间褶皱理论,我们真正有信心的是毛球族的死亡可能与粮食有关。由于食用了那些粮食,所以毛球族死亡速度超过了预期,那些没有吃的则安然无恙。在这种情况下,认为是克林贡人在搞破坏似乎 是个合理的猜想 ,但是也有可能跟 粮食本身有关,毕竟他们想建立殖民地的星球是一个新的空间混合体。 克林贡人 是否在粮食中下了毒,粮食本身是否有问题,这两个因素 可能会影响我们重复毛球族研究的能力,这也是为什么说在遇到可重复性危机的时候干草叉也很实用的原因。糟糕的研究设计与分析都会降低一项研究的可重复性,即使是那种p值已经很低的研究。因此科学界就有义务找到一个更好的方法来激发适当的分析和研究的技术从而确保可以发表可重复性更高的研究。 针对如何更好地做研究报告和研究设计以改善这一问题,最近已经有很多人提出了建议。这是一个好事,在没有有效成果的研究上浪费钱(通常是公众的钱)会阻碍 我们探索科学真相的进程 。所以那些诉诸“p黑客”的人,请使用正确的统计测试或者研究子集来反驳那个神奇的“p值0.05”,注意一下我们的小情绪。 缺乏可重复性由多种原因引起的,可能也存在同样多的解释,研究人员的不称职并不是唯一的原因。例如,继续我们的太空小麦/毛球族研究可能也没法证明克林贡人就是邪恶的粮食下毒犯。也许更多的研究会表明杂交小麦在太空中是不稳定的从而分解成了对毛球族而言致命的毒药(这也被证明会导致人身上难看的皮疹)。此外,毛球族可能比想象中的要更多样化,部分种群在太空中容易病变,从而更容易受到太空小麦的毒害。因此,我们的研究是不可重复的,但是有用的。最初我们完全没有想到杂交小麦会出问题。基于死掉的毛球族萌发了一个想法,即其死亡可能是由于小麦有毒,我们最终针对杂交小麦、太空旅行和毛球族如何相互作用得出了一个复杂却可重复的解释。最初的研究对于深化最终发现太空小麦问题的研究很有必要。 举一个更为现实的例子,我们曾经做过一项研究,主要研究预测癌症风险的基因变异的可重复性。我们的重点并不在于可重复性,而是在于针对一国国民实施的基因肿瘤风险研究是否适用于另一个国家的 人们 。我们发现,根据一项标准,那些研究通常无法适用于其他国家的人。大多数基因肿瘤风险研究无法在不同的民族中重复执行。然而我们也发现有些基因变异的基本作用在不同民族之间具有共通性。另一项研究得出的p值可能低于0.05,但是在一组人群中得到的高风险标记物更容易预测另一组人群的高风险而不是低风险。 因此,这些“不可重复”的研究看起来还是有意义的。他们测试的遗传标记还不能供临床使用,但是它们都指向了相同的生物学效应,这些效应在临床上可能就是有意义的。特别是,已经测试过的变异基因可能就是真正风险等位基因的标记物,或者非常接近,只是不完全符合研究等位基因的位置。 这就指出了一个很少被提及的、与可重复性危机相关的有趣问题:可重复性有多少才是正确的?这不仅仅是一个科学问题,也是一个伦理问题。接受低的可重复性意味着实施更难的研究,而且是在以实施大量结果不明了的研究为代价的前提下。获取高可重复性则可以节省时间和金钱,但是却意味着更多科学问题将没法得到应有的答案。 正如我们所说,样本容量太小是导致可重复性不足的关键性因素。针对小型群体所做的研究所得出的效果明显会比现实世界中的大,因此导致可重复性低。因此有人提议说只有具有优先级可能性的研究才应该被实施。根据这项标准,一项测量细微影响或者只影响一小部分的人的研究不应该被实施,例如能延长癌症患者几个月寿命的药物研究。这成为了一个相关性越来越强的问题,特别是在癌症研究中,因为我们发现很多疾病其实就是相关疾病的一个集合,每一种相关集合都只会影响一小部分人。 在 研究死亡的毛球族( 或者预测癌症风险 的变异 基因 )时, 构思 好的假设可能会遇到哪些困难,这一点值得考虑 。实际上 ,初次提出的假设正确且可重复的几率很小,而且 初步研究可能也不会对得出预期结果提供太大的帮助。我们只能寄希望于它会引出下一项更好的研究。但是如果可重复性是衡量 和实施研究的主要 标准,那么这项研究根本就不会被执行。 决定是否实施一项研究的标准应该是哲学性质的而不仅仅是科学性质的,意识到这一点很重要。难道科学研究的目标不是有效实现利益的最大化吗?还是说 ,在受益的只是少数群体、可重复新较低的前提下, 道德原则应该服从科学原则?前者可以被认定为 是 实用功利主义的一种表现,认为最符合道德原则的行为才能惠泽大多数人,而且这种惠泽程度可以凭经验衡量。这种方法的优点是可量化,几乎任何实用的事物(套用实用主义的一个哲学概念)都可以被量化。数字更适用于交流沟通,至少与模棱两可的价值概念相比是这样的。然而功利主义者有一个信念,即“实用”与“道德上正确”基本上是一样的,这一信念也成了功利主义的根基。这种思维模式无法容许正义的存在。它指出任何带有明显自我牺牲、利他主义或博爱倾向的行为,如果符合道德原则,那么就应该为所有人谋福利。只为少数人谋福利的行就为是不符合道德原则的。这似乎是一种比较委婉的自我牺牲形式,但是考虑到研究经费的紧张情况,这并不是一个人可能会做出的最小牺牲。 科学之路苦难重重。我们不仅要在所有工作的最后得出一个好的p值,这就需要构思一个好的假设并且对足够大的群体进行研究;我们还需要能够利用哲学理论来捍卫自己的研究。我们是否将自己局限于影响力大的研究,为此聚集大量的患者作为研究样本,确保研究具有较高的可重复性,从而确保研究经费得到了高效率的利用?还是说 , 虽然研究的可重复性较低,只要存在让人们受益的可能性,我们就应该进行研究?或者在假设处于构思的最初阶段时,我们还没有足够的研究来证实需要对什么进行测试,那么我们是否可以在一个未知的领域重新进行研究? 提高研究效率有助于减少可重复性问题,而且在决定研究什么的时候不用担心平等和公正的问题。但是显然这不是一个非此即彼的决策过程。努力改善可重复性问题,或者至少突出重复实施研究过程中出现的问题,其出发点都是好的。然而将可重复性的门槛设置得过高也就违背了我们对科学的诉求。大多数人对科学的认知中都包含了实践和对新的科学领域不断的探索,研究中出现不可重复性没准就是一条通往真理的必经之路。 (本文为Dr.Brain Ring 原创,小编编译,点击http://charter-of-the-genome.org/2016/05/14/in-defense-of-irreproducible-results/即可阅读原文。如有转载需求,请联系yangqiao@idna.com.cn。)
19204 次阅读|37 个评论
卜算子·正态分布
热度 12 kongmoon 2015-11-18 08:36
正态分布吟,离散平均律。 形若嵩峦绘起伏,理顺无章序。 天数纵茫茫,竞往巅峰聚。 山麓存留百分五,画满方家欲。   1917年美国决定参加第一次世界大战,同年4月对德宣战。由于之前美国对一战持“中立”,所以并没有备战,而现在必须在一个星期内赶制100万套军服,制衣商很为难,他都不知道军队的身高是什么样子,不得不求教于统计学家沃特·阿曼德·休哈特(Walter A. Shewhart)。休哈特说,人群中高个子和矮个子都比较少,大多数的人都是中等身材,也就是说人群的身高是一种自然的分布,也叫正态分布。只要随机抽一批美国人来量身高,得到身高的 平均值 和 标准差 后就能解决问题了。   正态分布只需要知道平均只和标准差就能轻松驾驭。平均值大家都知道,标准差就是分布中的每个数与平均值差值的平方和再开方,是一个描述群体离散程度的指标,标准差越大,群体间的差异就越大,如果群体高度接近一致,标准差则接近0。根据正态分布,入伍军人的身高分布有68%左右落在一个标准差之内,就是图中间的部分,95%的落在二个标准差之内,99。7%落在三个标准差之内…………,根据这个规律,美国军队一个星期内集结完毕开赴前线。   正态分布也叫高斯分布,10马克纸币上就印有高斯的头像和正态分布曲线图。很多看起来杂乱无章的数据,如人群的身高、智商、考试成绩、一天之内在路上跑的汽车数量、测量误差等等自然界和社会现象都服从正态分布。某事件采集的数据绝大多数都落在两个标准差范围之内,这部分曲线面积占95%,越靠近中心数越多,也就是说数字分部都有向曲线颠峰集中的趋势。而落在曲线山脚部分的只占5%,也就是说是一个很小的概率,按常理几乎不可能发生。在一次实验中如果发生了小概率事件,就可以认为这个事件与实验对照间有着本质的区别,是两件不同的事件。所以统计学上的显著水平就以5%为基准,也就是科技论文里面大量p0.05的来由,比如为了检测一种新药对某种病是否有疗效,就统计吃该种药和安慰剂的治愈率,如果两者差异显著水平p0.05就可以认为该种药有统计学意义上的疗效,p0.05就认为这种药和安慰剂一样没有统计学疗效,所以0.05这个数字在统计学上出现频率最多的数字,做对照实验的人是多么盼望出现p0.05呀!但如果一个事件不服从正态分布,这p0.05不知道多少实际意义,p值被滥用已经是心理学、流行病学领域非常普遍的问题了。
个人分类: 数学|6691 次阅读|29 个评论
P值也被滥用?BASP期刊宣布禁用P值 - 意得辑专家视点
editage 2015-3-19 22:04
P值广泛用来作为原假设检验的基础,向来被视为 统计效度的“黄金标准” ,不过许多专家对于 P 值的使用还有 0.05 代表显著的门槛存有异议,理由是 P 值很容易操作,许多研究人员即使手上的数据不够有力,也能用 P 值来支持研究结果。 纵使有这些争议,P 值仍是众多研究的组成要素, Basic and Applied Social Psychology 期刊(BASA)为了凸显 P 值使用上的问题, 宣布 禁用 NHSTP(null hypothesis significance testing procedure,原假设显著性检验程序)以及相关的统计程序,代表编辑部说明新政策的 David Trafimow 编辑和Michael Marks 副编辑提到,期刊先前已经声明过作者不需要操作 NHSTP,现在进一步宣布全面禁止使用,值得注意的是,Trafimow 表示 他不知道有什么样的统计方法可以取代 P 值 。 BASP 进一步厘清,作者还是可以投稿有 P 值还有其他 NHSTP 统计方法的论文,他们会在发表前删除相关内容,此外,虽然推断统计程序非必要,但期刊需要包含效应量的描述性统计,「我们也鼓励加上频率或分布式数据,也鼓励使用比一般心理学研究更大量的样本数,因为随着样本数的增加,描述性统计会更稳定,抽样误差也不会是太大的问题。」 BASP 的决定引来正反两级的反应,德国比勒费尔德大学(Bielefeld University)知名科学家 Jan de Ruiter 同意 NHST 不可靠,但禁用可能不是一个对的办法,他表示:「 搞科学不能没有推论统计 。」除此之外,BASP 的使用大量样本数的政策也可能 对年轻研究人员在进行初步研究时形成挑战 ,为了避免这个情况,期刊可能考虑针对初步和验证性研究制定另外的发表规则。 为了维持科学的精确性,有些研究人员提议用统计讨论或贝叶斯分析来补充 P 值,但目前 BASP 不倾向采用贝叶斯分析。虽然禁用 P 值的决定在科研界引起争论,BASP 的新政策使大家开始关注过度依赖 P 值的问题。 其他研究统计相关文章: 如何正确表现 P 值 研究设计中统计功效的重要性 好书推荐:有效呈现统计信息 ∷意得辑科学网博客 内容皆来自《 意得辑专家视点 》,转载请注明出处 ∷ 【 意得辑 提供专业 英文论文修改 、 学术论文翻译 、 英文论文发表一站式服务 www.editage.cn 】 ____________________________________________________________________________________________ 完整原文刊载于 意得辑专家视点 : Taylor Francis 旗下 Basic and Applied Social Psychology 期刊宣布禁用 P 值 http://www.editage.cn/insights/a-taylor-francis-journal-announces-ban-on-p-values
个人分类: 来自Eddy博士的发表专家的信息|6108 次阅读|0 个评论
经典统计学迟早被推翻
热度 3 maxguang 2014-7-25 22:30
最近总在思考一个问题,如果P值取到0.045,那么多少significant的研究结果就要变成null了。而如果P值取到0.055,那么多少null的结果变成significant了。经典的统计学早晚要重新洗牌,之前很多已经建立的关联要重新判定。这是一种科研浪费,这也是科学前进的必经阶段。比如最近系统动态模型越来越火,学者们开始全面动态考虑问题,而不是单一的统计关联。 告诫自己,跳出统计外,即豁然开朗。
5071 次阅读|3 个评论
[转载]Nature:我叫“P值” 这是我的故事
bennyg 2014-2-28 09:00
衡量统计真实性的“黄金标准”——P值,并非众多科学家想象的那样可靠。 2010年某个瞬间,马特·莫德尔(Matt Motyl)离享受科学荣誉仅有一步之遥。那时,他发现政治极端主义者看到的世界是确实是非黑即白的。 实验结果“非常清楚”。莫德尔这样回忆道。他是夏洛茨维尔市弗吉尼亚大学的心理学博士生。他所做的一项涉及近2000人的研究中的数据似乎表明,与左翼或右翼人士相比,政治中立派能更准确地辨别不同色度的灰色。他说:“实验的假设很有趣,而且数据也能够有力支持实验假设。”用来衡量统计显著性的常用指标是P值。该实验中的P值为0.01,通常人们会认为这说明实验结果“非常显著”。莫德尔十分有把握能把自己的论文发表在高影响因子的刊物上。 但是,现实无情地粉碎了幻想。由于担心实验结果陷入再现性争论,莫德尔和他的导师布莱恩•诺塞克(Brian Nosek)决定重复实验。添加了新的数据之后,P值变成了0.59,这个数字远未达到学界一般能接受的显著性水平0.05。莫德尔观察到的心理学效应没有了,他年少成名的梦也被打碎了。 其实,不是莫德尔的数据或分析出了什么问题,而是P值这个指标出了问题。从本质上讲,这个指标出人意料的不稳定,它并不是大多数科学家想象的那样可靠和客观。“P值没有起到人们期望的作用,因为它压根就不可能起到这个作用。”伊利诺伊州芝加哥市罗斯福大学的经济学家斯蒂芬•兹利亚克(Stephen Ziliak)这样说,他经常批评统计学的应用方式。 出于对实验可重复性的担忧,P值的问题让很多科学家特别发愁。2005年,加州斯坦福大学的流行病学家约翰•埃迪尼斯(John Ioanniadis)指出,大多数公开发表的科学发现都是有问题的。此后,一连串备受瞩目的、有可重复性问题的研究迫使科学家重新思考该如何评估研究结果。 与此同时,统计学家也在寻找更好的分析数据的方法,以避免科学家错失重要信息,或在假阳性结果上浪费精力。“当你的统计思想发生改变之后,突然,重要的东西也完全变了。”斯坦福大学物理学家、统计学家史蒂文·古德曼(Steven Goodman)说:“规则并不是天注定的,它是由我们所采用的统计方法决定的。” 对P值的误用 人们一直都对P值批评不断。90年前P值诞生以来,被比作过蚊子(因为这东西烦人又挥之不去)、皇帝的新衣(因为P值的方法中到处都是显而易见却被所有人无视的问题)以及“不育的风流才子”手中的工具——这位“才子”强抢了科学佳人,却让科学佳人后继无人。一位研究人员表示,应该把“统计推论和假设检验”这个方法改个名字,叫做“统计假设和推论检验”(statistical hypothesis inference testing),大概因为这个名字的首字母缩写更符合它的气质。 讽刺之处在于,20世纪20年代,英国统计学家罗纳德·费希尔(Ronald Fisher)首次采用P值方法时,并没有打算把它作为决定性的检验方法。他本来只是用P值作为一种判断数据在传统意义上是否显著的非正式方法,也就是说,用来判断数据证据是否值得进行深入研究。P值方法的思路是先进行一项实验,然后观察实验结果是否符合随机结果的特征。研究人员首先提出一个他们想要推翻的“零假设”(null hypothesis),比如,两组数据没有相关性或两组数据没有显著差别。接下来,他们会故意唱反调,假设零假设是成立的,然后计算实际观察结果与零假设相吻合的概率。这个概率就是P值。费希尔说,P值越小,研究人员成功证明这个零假设不成立的可能性就越大。 将数据和背景知识相结合得出科学结论的过程是流动的、非数值化的。尽管P值的精确性显而易见,费希尔还是希望它只是这个过程的一部分。但是,科学家很快就开始利用P值来保证循证决策的严谨与客观。这一运动是20世纪20年代末,由费希尔的死对头、波兰数学家耶日·内曼(Jerzy Neyman)和英国统计学家埃贡·皮尔森(Egon Pearson)一手推动的。他们采用了一种新的数据分析框架,该框架中包括统计效力、假阳性、假阴性和很多其他如今在统计学概论课上耳熟能详的概念。他俩直接无视了P值这个指标。 双方争执不断,内曼批评费希尔的某些工作从数学上讲比“毫无用处”还糟糕,而费希尔对内曼的方法给出的评价是“无比幼稚”、“在西方学界中简直骇人听闻”。但是,就在双方争执不下时,其他研究人员的耐心渐渐耗尽了。他们开始给进行研究的科学家们编写统计学指南。但是其中很多作者并非统计学家,他们对两种方法都缺乏透彻的理解。结果就是他们把费希尔粗略的P值计算法硬塞进了内曼和皮尔森二人建立的规则严密的统计系统中,创造出了一种混合的方法,然后就出现了像“P值为0.05,即可将统计结果视为显著”这样的规则。古德曼说:“统计学家从没打算以现在的方式使用P值。” “P值至上”带来的恶果 这样做的后果之一就是人们对P值的意义充满困惑。我们回过头来看一下莫德尔关于政治激进者的研究。大多数科学家看到实验最初统计结果的P值为0.01,就会认为莫德尔的结论不成立的概率只有1%。但他们错了。P值无法告诉研究人员这样的信息。P值能做的,就是在特定的零假设条件下对数据特征进行总结分析。研究人员不能利用P值通过反向推导对事实作出判断。要对事实作出判断,还需要更多信息,也就是现实世界中该效应客观存在的概率。忽视了这一点,就好像一个人清晨醒来觉得有点头痛,然后就断定自己得了某种罕见的脑瘤。这当然不是不可能,只是这事儿摊到你头上的概率太小,所以你得先拿出更多证据推翻例如过敏反应这样更为常见的原因。结论越是令人难以置信(比如心灵感应、外星人、顺势疗法),这种惊人的发现是假阳性的可能性就越大,不管你的P值有多小。 这些都是比较难懂的概念,但是一些统计学家试图用它们来解释经验法则的失灵(见下图)。根据应用最广泛的一种计算方法,如果假设为该现象存在,那么当P值为0.01时,该现象实际并不存在的概率至少为11%;而当P值为0.05时,这一概率则会上升到29%。因此,莫德尔的发现是假阳性的概率超过10%。同样,结果可重复的概率也不是大多数人所想的99%,而是73%左右。而再得到一个极为显著的结果的概率只有50%。换言之,莫德尔的实验结果不可重复的概率高得惊人,就跟抛硬币猜正面向上,而落下来是反面朝上的概率差不多。 图中的三个例子证明,即使计算得出的P值非常小(具有统计显著性),实验结果也可能具有极高的不可重复率。 批评者也感慨P值会让研究人员思维混乱。最重要的一个例子是,P值容易使研究者错误的估计现象的真实影响。比如去年,一项覆盖超过19000人的研究显示,在网上结识的夫妻比在现实生活中结识的夫妻离婚的可能性更低(P0.002),而获得婚姻满足感的可能性则更高(P0.001)。(点击这里看详情)。这一现象也许挺让人印象深刻,但这种现象其实非常不明显。网上结识的夫妇离婚率为5.96%,而现实生活中结识的夫妻离婚率为7.67%,根据7分幸福感评分表测试中,网上结识的夫妻幸福感为5.64分,而现实生活中结石的夫妻幸福感为5.48分。澳大利亚墨尔本市拉筹伯大学的荣誉心理学家杰夫·卡明(Geoff Cumming)认为:“为了追求很小的P值而忽略背后更大的问题这一现象是“诱人的显著性”的牺牲品。”但是,显著性并不意味着实际中确实存在相关性。他说:“我们应该问的是,‘某种现象出现的概率有多大?’而不是‘有没有某种现象?’” 大概,最糟糕的错误是某种自欺欺人的行为,宾夕法尼亚大学的心理学家尤里·西蒙逊(Uri Simonsohn)及其同事给这种行为起名为“P值操纵”(P-hacking)。这种行为也被称为数据挖掘、数据窥探、数据钓鱼、追逐显著性或者双重计算。西蒙逊解释道:“P值操纵就是不断地把数据量加倍,直到获得自己想要的结果。”这种行为甚至是下意识的。这可能是在线城市词典中收录的第一个统计学词条,该词条的例句是:“这一发现似乎是通过P值操纵做出来的。作者去掉了其中一种条件下的数据,使总体的P值小于0.05。”或者“她是个P值操纵者,总是一边收集数据一边看数据好不好。” 这种行为的结果是,把本应带着质疑眼光审视的探索性研究的结果变得看似确定无疑实际上却难以重复。西蒙逊的计算机模拟实验表明,只需改变研究中的若干数据分析方法,就能使假阳性的概率提高到60%。如今的研究都希望能从杂乱的数据中发现并不十分明显的现象。在这种背景下,尤其容易出现P值操纵。尽管难以估计这种做法有多普遍,但西蒙逊认为这一问题应该已经很严重了。在一项分析研究中,他发现有迹象表明,很多公开发表的心理学论文中,P值都出人意料地分布在0.05左右——就像研究人员通过P值操纵不断尝试,直到得到理想的P值 解决之道 尽管对P值提出批评的大有人在,但统计方法的变革仍然进展缓慢。“费希尔、内曼和皮尔森提出他们的理论后,统计学的基本框架实质上没有发生任何改变。”古德曼说。1982年,明尼阿波利斯市明尼苏达大学心理学家约翰·坎贝尔(John Campell)曾经抱怨过这个问题,当时他还是《应用心理学杂志》的编辑。他说:“要把作者的注意力从P值上转移走几乎是不可能的,P值小数点后面的零越多,人们就越抓着P值不愿放手。”1989年,马萨诸塞州波士顿大学的肯尼斯·罗斯曼(Kenneth Rothman)创办了《流行病学》这本杂志,当时他尽力劝阻作者不要使用P值。但是在2001年他离开了杂志社后,这本杂志中又经常出现P值了。 埃尼迪斯最近正在PubMed数据库中搜寻数据,用来研究不同领域的学者是如何使用P值和其他统计学证据的。“只需要粗略浏览几篇最近发表的论文,你就会发现P值仍然是非常非常流行的方法。” 古德曼认为,这种根深蒂固的研究文化需要彻底的改革——人们必须改变统计学的教授方式、数据分析方式以及结果呈现和解释的方式;而好在研究人员已经开始意识到自己的问题了。“已公开发表的众多科学发现都不成立,这给人们敲了个警钟。”埃尼迪斯等研究者的研究揭示了理论统计学的批评观点与统计学应用上的难题之间的联系。古德曼说:“统计学家预言会出现的问题正是我们当前遇到的问题,只是我们还没有找到全部的解决办法。” 统计学家提出了几个或许可行的方法。比如卡明认为,为了避免掉进思考结果是否显著这个陷阱,研究人员应该在文章中提供效应量和置信区间的相关数据。这些数据可以反映P值无法反映的信息,也就是效应的规模及其相对重要性。 很多统计学家还呼吁用基于贝叶斯法则的方法替代P值。这一法则诞生于18世纪,其思想是把概率视为某种结果的似然性而非出现的频率。这其中蕴含了某种主观因素,而这也是统计学前沿学者想极力避免的。但是,贝叶斯分析框架能够使观察者相对容易地将自己所知道的内容融入结论,以及计算出现新数据后概率如何变化。 其他人则赞成一种更普遍的方法,即鼓励研究人员对同一套数据用多种方法进行分析。 卢森堡市公共卫生研究中心的统计学家史蒂芬·森(Stephen Senn)把这个方法比作没法从墙角里绕出来的扫地机器人。任何数据分析方法最终都会有行不通的时候,这时就需要用常识将分析拖回正轨。他认为倘若用不同的方法得到了不同的结论,“就表明研究者应该继续开动脑筋,努力找到原因”,而这能让我们更好地理解背后的真相。 西蒙逊认为科学家为自己辩解最有利的武器就是承认一切。他鼓励作者在论文中写上这样一段话:“论文中列出了研究中我们确定样本大小的方法、所有舍弃的数据(如果有的话)以及研究中用到的所有操作和测量方法。”通过这种方式表明文章没有进行“P值操纵”。他希望通过披露这些信息,能够阻止P值操纵行为,或者至少能提醒读者注意论文中的疑点,并自行做出判断。 纽约市哥伦比亚大学政治学家、统计学家安德鲁·格尔曼(Andrew Gelman)表示,目前另一个受到关注的类似方法是两阶段分析法,也叫做“先预定后重复法”(preregistered replication)。这种方法中,探索与验证分析通过不同的方式进行,而且要在论文中清楚地标示出来。例如,研究人员首先做两个探索性的小研究,用来发现可能比较有趣的现象,而又不需要太担心假阳性结论;而不是一下做4个单独的小研究,然后在同一篇论文中写出所有的结果。然后,在上述研究结果的基础上,作者再决定用什么方法来验证他的发现,并在Open Science Framework这样的数据库中向公众提前披露自己的研究意向。然后,他们再进行重复实验,并将结果之前与探索性研究的结果一同发表。格尔曼表示这种方法使研究分析更加自由和灵活,同时也能使研究者保持严谨,并降低公开发表的假阳性结果的数量。 古德曼还表示,进一步来说,研究人员需要意识到传统统计学方法的局限性。他们应该在研究中融入对假设似然性和研究局限性的科学判断,而这些内容通常情况下会被放到讨论部分——包括相同或类似实验的结果、研究人员提出的可能的机制以及临床认识等等。马里兰州巴尔的摩市约翰霍普金斯大学布隆伯格公共卫生学院的统计学家理查德·罗耶儿(Richard Royall)认为,科学家应该在实验结束之后思考三个问题:“支持数据是什么?”、“我应该相信什么样的数据?”以及“下一步应该怎么做?” 单一方法无法回答上述全部问题。古德曼说:“数字仅仅是科学讨论的开始,而不是结束。” 原文检索: Regina Nuzzo. Scientific method: Statistical errors . Nature, 12 February 2014; doi: 10.1038/506150a
4082 次阅读|0 个评论
P值为何这样计算?统计检验的一个基础问题。
热度 2 Minwu 2014-2-20 14:04
作为一个非数学专业的学生,统计检验的原理一直让我觉得头疼。特别是有一个很基础的问题一直找不到解答。这个问题如下:不给定特定情形,就一般论,p值该如何计算? 举一个简单的例子,一个6面骰子,掷三次,结果都是6点。假设骰子的重心没有偏移,怎么计算这个结果的p值? 通常的做法是:按照假设,一次实验中掷出6的概率为1/6,则三次都是6的几率为(1/6)*(1/6)*(1/6)=1/216。因为不存在更极端的情形,这个概率就是p值。因为它比较小,我们可以主张骰子不合格(这取决于事先设定的阈值水平)。 那么,如果掷出的结果是(1,6,6)的话,p值如何计算呢。可以构造一个统计量s等于三次结果的和。现在s=13。我们计算s=13的概率,就是p值了。结果我就偷懒不算了,应该是不显著的吧。 但是且慢,为什么要计算s=13,而不是s=13的概率呢。更极端一点,为什么不直接计算出现(1,6,6)这个排列的概率呢。我们知道,在原假设下,出现任意一种序列的概率都是一样的,即1/216。那么为什么(1,6,6)和(6,6,6)一个被接受,另一个被拒绝呢。 可能有人会说,你的统计量构造的不对,应该用卡方检验来做测试。不错,我的这个统计量有点弱,它不能检测出诸如(3,3,3)这样的极端状况。但是同样的疑问仍然存在,(1,6,6)和(6,6,6)出现的概率是一样的,而用卡方检验得出的p值却不一样。(6,6,6)更容易被用来拒绝原假设! 我们来总结一下现在的疑问:p值一般来说并不是实验结果出现的概率。而是包含了实验结果在内的一系列结果出现的概率。这样做有什么依据吗? 这个问题在面向非数学专业读者的教科书中很难找到解释,而解释统计检验基本理论的书籍又很难懂。这个问题困扰了我很久,但是随着相关知识的增加,渐渐有一点理解了。以下为我不成熟的解释。如有错误,还望高手指点。 -------------------以下解释基于个人理解-------------------------------------------------------- 按照现代统计检验理论,假设检验乃是一种决策方法。依据实际观测到的数据来决定是接受还是否定一个假设。但是否定原假设后,需要一个备选假设来替代。这个备选假设就决定了p值的计算方法。 还是以上述掷骰子的实验为例。在卡方检验中,原假设为:骰子重心无偏,所有点数概率均为1/6,备选假设为:骰子有偏使得掷出的不同点数的次数有显著差异。于是连续3次6点就很异常,而像(1,3,6)这样比较均匀的分布就可以被接受。 换一种方式,原假设不变,备选假设改为:骰子有偏使得掷出的点数和显著偏大。则我上面构造的统计量s就起作用了。在这种情况下,(6,6,6)仍然很异常,而(3,3,3)这种在卡方检验中异常的结果却可以被接受了。 让我们再考虑一种有趣的情形:原假设仍然不变,但备选假设变为:选手通过某种高超的技巧使得结果一定为(1,2,3)。在这种假设下,(6,6,6)成为了正常情形,而掷出(1,2,3)的话我们就要考虑接受备选假设! 请看,相同的实验结果在不同的备选假设下得出了完全不同的解释。备选假设既然如此关键,那我们怎么决定备选假设呢。很遗憾,只能根据经验来决定。如果我们根据事先物理检查否决了骰子存在问题的可能性,那么上述前两个备选假设自然不合理。进一步的,如果该选手以前就展示过掷出(1,2,3)的技巧。那么备选假设3自然是最合理的。 于是得出结论,p值的计算方法取决于原假设与备选假设。正确的计算方法下,p值越小,则备选假设应当显得越合理。 反之,不考虑备选假设的话,谈论p值毫无意义。 最后提出我的一个看法:任何事件都有可能被判断为正常事件,任何事件也都有可能被判断为异常事件,这取决于备选假设的选取,而非原假设。这是否正确,请高手指点。
16327 次阅读|4 个评论
有P值为何还需要效果量?
热度 5 editage 2013-5-8 10:52
评审员回复意见中提到他在决定我的论文能否发表前,想要先看过“ measure of effect size (衡量效果规模值)”,这是什么意思?为什么光 P 值不够? 先前,许多研究的特点是“零假设检验”( null hypothesis significance testing , NHST ),这种情况下,研究人员主要都专注于将 P 值控制在低于统计显著性的假设值,这通常视为结果“真实性”的指标,也就是说研究发现不是侥幸得来,不过,单靠统计显著性,不代表在实践中的重要性,举例来说,一个减肥药对体重减少表现出统计显著相关,但如果是在 3 个月期间减少 3 公斤,该药物并不是那么有效,可惜大部分的读者(包含医生)只看体重减少与其 P 值,可能就高估药效。 一个常见的错误是统计显著性的差异或相关性的假设其实带有实践或临床含义 。 NHST 有 2 项重要的限制因为它不提供( 1 )利益效果的预估大小或强度、( 2 )预估效果大小强度的精确度 。因此目前你只有提供P值的情况会有 问题 。实际上,像 Pediatrics 这类的期刊有清楚要求作者 摘要跟内文里的结果除了P值或误差有统计显著的叙述外,应有效果量及 95% 的置信区间 。 就像先前所说的, P 值只能提供有限的信息,我们要知道的是误差有多大,相关性有多强,而效果量可以告诉我们这些。例如,当我们说“吸烟和一个人的性生活满意度显著相关。( p .001 )”,但我们不知道它们的关联性有多强,如果我们发现相关系数是.1,那么实际上它们相关性是挺弱的;又如果相关系数是 .7 ,那么实际上它们彼此间的关系是挺有趣的。 当同时提供效果量与置信区间(可能的效应值概率)时,相较于只有 P 值(不论 P 值大小)更能让我们更有效评估数据间的相关性 ,所以像美国心理学会( APA )统计推断小组会强烈要求作者“ 主要结果总是先呈现效应量 ”,而“完整报告检验假设、预估效应量与置信区间”更是 APA 期刊的最基本要求。 效果量应该是怎么样呢? APA 报告提供一些有用的建议:「如果度量单位于实际面来看是有意义的(比如一天抽几根烟),那么一般非标准单位(回归系数、平均数)会比标准单位( r 或 d )来得好,这也等同于说明效应值符合实践和理论。」效果量可以用原单位呈现,像是解决检验问题的平均数,这是最容易让人理解的方式。不过,像是Cohen's d这样的效应量标准(如 units-free )单位有时候也是很有用的,这种效果量根据统计检验的不同而改变,在方差分析( ANOVA )中你可以用埃塔平方(部分埃塔平方也可)、 ω 平方或是 F 检验,您也可以利用以下几个连接找到一些有用的论文: 了解置信区间及效果量预估: http://www.psychologicalscience.org/index.php/publications/observer/2010/april-10/understanding-confidence-intervals-cis-and-effect-size-estimation.html 效果量就是蠢:效果量是什么?为什么重要? http://www.leeds.ac.uk/educol/documents/00002182.htm 一个简单的方法计算已发表研究论文的效果量 https://www.researchgate.net/publication/253642160_How_to_calculate_effect_sizes_from_published_research_A_simplified_methodology 总的而言,我建议你根据评审意见添加效果量,这样不止能提高您的论文发表几率,也能让你的论文对其他的研究人员与医生来说更有用有趣,祝好运! ∷ Eddy 博士国际期刊发表支持中心内容由 意得 辑 英文校对 专家 团队 支持提供 ∷ 【意得辑提供专业 英文论文编校 、 学术论文翻译 、 英文期刊发表一站式服务 www.editage.cn 】 ____________________________________________________________________________________________ 登录 意得辑专家视点 频道取得更多发表相关信息与资源
个人分类: 科研影响力和研究质量|31638 次阅读|13 个评论
怎么正确表现P值?
热度 1 editage 2012-11-6 22:43
我一直都很小心处理论文里的 P 值,但最近同行评审员说我的“统计报告不完整”,要求我修改。究竟哪里出错了? 基本上来说, P 值是只用来告诉读者 2 群体/关系间的差异是因为凑巧或是因为你在研究的变量。根据包含 《自然》提供的信息 的统计指南,任何的变化、差异或关系都该有称作“显著性”的P值,再来,显著性阈值(也就是你用来判断显著性的 P 值)可能是 .05 、 .001 或 .01 ,建议在论文的方法章节说明你研究里使用的显著性阈值,简单用一句“ The significance threshold was set at .05 ”即可。 然而, P 值无法告诉读者一效果、变化、关系的强度或大小,所以,你不能只有 P 值,提供的检验统计量( t 、 F 、 U 等)、相关分析或回归系数( Pearson’s r 、 Spearman’s rho 等)、或效应值估量( eta-squared 、 partial-eta-squared 、 omega-squared 等)。 我们拿以下句子为例:“ We found a significant relationship between anxiety and job satisfaction (p .05). ”;这里,你想要说的是你发现足够的证据证明该关系不是凑巧发生,但读者不知道该关系是直接或反比(也就是说到底是焦虑程度越高工作满足感越高或焦虑程度越低工作满足感越高?),再来,该关系是强或弱?为了读者着想,你也应该提供 P 值的相关系数。如果在上面的句子结尾加上“ r = -.78 ”,读者就可以知道这是强烈反比关系,也就对你的研究发现有更清楚的了解。 再举一例:“ We found a significant difference between pretest and posttest scores. ”。我建议要呈现:第一,检验统计量,如此读者知道你用何检验统计量检测差异;第二,效应值估量,如此读者可以知道差异有多大,即使只有前测和后测的平均分数也足够让读者了解你发现的效应值大小。 此外,最好提供真正的 P 值,这种做法能促进科学诚信。在上面的句子里, P 值可能是“ .048 ”,技术上看来低于“ .05 ”,但由于非常接近,可能会被解读为 P 值是 .51 ,那就不是统计相关了。如果 P 值是低于 .001 ,通常会说“ p .001 ”,除此之外要提供精确的 P 值,尤其是针对主要成果。 接下来,我想分享一些我遇过有关 P 值的基本错误如下: 1. “ p = .00 ”或“ p .00 ” 从技术上来说, P 值不可等于 0 ,有些统计分析软件会给你 P 值等于 0 的结果,但这很有可能是自动四舍五入或无条件舍去小数点后数值的结果。所以,试着用“ p .001 ”取代“ p = .000 ”,该表达方式被广为接受且基本上不改变 P 值呈现的重要性。还有, P 值永远都是介于 0 到 1 之间,且不可能为负。 2. “ p .03 ” 许多期刊都接受用表示关系的α值(统计显著性阈值)来表示 P 值,也就是 p .05 、 p .01 、 p .001 ,它也可以用绝对值表示,例如 p = .03 或 p = .008 。不过,如果数值不是α值, P 值基本上不用大于( )或小于( )符号。 最后,一个小技巧:科学、技术和医学领域许多单位多建议不可能大于1的数值(意即有统计显著性的相关、比例和水平)前面不加0,也就是说“ p 0.05 ”应该要写成“ p .05 ”。 或许你可以看看结果章节里的 P 值呈现方式是否可以依照上面提及的几点改进。在 《应用生理学杂志》编辑部 可以找更多指南细节。祝你再投顺利! 如果你还有什么问题,欢迎随时留言。 ____________________________________________________________________________________________ What is the correct way to report p values? I have always been very careful to provide p values in my papers. But I recently was asked to revise a paper because the peer reviewer said that “statistical reporting is incomplete.” What was wrong? In general, p values tell readers only whether any difference between groups, relationship, etc., is likely to be due to chance or to the variable(s) you are studying. According to most statistical guidelines, including those provided by Nature , you need to provide a p value for any change, difference, or relationship called “significant.” Further, because the significance threshold (i.e., the p value that you use as a cutoff for determining significance) can be .05, .001, or .01, it’s advisable to state the significance threshold used in your research in the Methods section of your paper. A sentence like “The significance threshold was set at .05” is all that is required. However, a p value cannot tell readers the strength or size of an effect, change, or relationship. Therefore, you should avoid reporting nothing else but p values. It’s always a good idea to provide a test statistic ( t , F , U , etc.), correlation or regression coefficient (Pearson’s r , Spearman’s rho, etc.), or measure of effect size (eta-squared, partial-eta-squared, omega-squared, etc.). Let’s take the example of the sentence “We found a significant relationship between anxiety and job satisfaction ( p .05).” Here, all you are telling the readers is that you have enough evidence that this relationship is unlikely to be due to chance. Readers don’t know whether this relationship is direct or inverse (i.e., did participants with higher anxiety have higher job satisfaction or did participants with lower anxiety have higher job satisfaction?). Further, was this relationship strong or weak? For the benefit of the reader, you should also report a correlation coefficient along with the p value. If you add “ r = -.78” in the parentheses at the end of the above sentence, your readers will understand that this is a strong inverse relationship. Thus, they get a better idea of your actual findings. Here’s another example: “We found a significant difference between pretest and posttest scores.” I would recommend reporting (a) the test statistic so that the reader knows what statistical test you performed to examine this difference and (b) a measure of effect size so that the reader understands how large this difference is. Even the mean pretest and posttest scores could be sufficient for readers to understand the size of the effect you have found. In addition, it’s a good idea to report exact p values, since this practice makes for greater scientific integrity. In the above sentence, the p value could be “.048”; this value is technically below “.05” but so close to .05 that it would probably need to be treated like a p value of .51, which is not statistically significant. Typically, if the exact p value is less than .001, you can merely state “ p .001.” Otherwise, report exact p values, especially for primary outcomes. Furthermore, here are a couple of basic errors I’ve come across with regard to p values: 1. “ p = .00” or “ p .00” Technically, p values cannot equal 0. Some statistical programs do give you p values of .000 in their output, but this is likely due to automatic rounding off or truncation to a preset number of digits after the decimal point. So, consider replacing p = .000 with p .001, since the latter is considered more acceptable and does not substantially alter the importance of the p value reported. And p always lies between 0 and 1; it can never be negative. 2. “ p .03” Many journals accept p values that are expressed in relational terms with the alpha value (the statistical significance threshold), that is, “ p .05,” “ p .01,” or “ p .001.” They can also be expressed in absolute values, for example, “p = .03” or “p = .008.” However, p values are conventionally not used with the greater than () or less than () sign when what follows the sign is not the alpha value. One last tip: Many authorities in scientific, technical, and medical fields recommend that a zero should not be inserted before a decimal fraction when the number cannot be greater than 1 (e.g., correlations, proportions, and levels of statistical significance); that is, “p 0.05” should be written as “p .05.” Perhaps you should go over the Results section of your paper and check whether the reporting of p values can be improved on the basis of the above tips. More detailed guidelines are provided in this editorial in the Journal of Applied Physiology . Good luck with the resubmission! Do write in a comment with any further questions you may have. ∷ Eddy 博士国际期刊发表支持中心内容由 意得 辑 英文论文发表 专家 团队 支持提供 ∷ 【意得辑提供专业 英文论文编校 、 学术论文翻译 、 英文期刊发表一站式服务 www.editage.cn 】 ____________________________________________________________________________________________ 此文同步刊载于 意得辑专家视点 频道: http://www.editage.cn/insights/怎么正确表现p值?
个人分类: 国际级写作与风格|14097 次阅读|2 个评论
[转载]T检验、F检验及其统计学意义
estudy 2010-10-4 14:54
1. T检验和F检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。 通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现,出现这结果的机率很少,亦即是说,是在机会很少、很罕有的情况下才出现;那我们便可以有信心的说,这不是巧合,是具有统计学上的意义的(用统计学的话讲,就是能够拒绝虚无假设null hypothesis,Ho)。相反,若比较后发现,出现的机率很高,并不罕见;那我们便不能很有信心的直指这不是巧合,也许是巧合,也许不是,但我们没能确定。 F值和t值就是这些统计检定值,与它们相对应的概率分布,就是F分布和t分布。统计显著性(sig)就是出现目前样本这结果的机率。 2. 统计学意义(P值或sig值) 结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研究领域,0.05的p值通常被认为是可接受错误的边界水平。 3. T检验和F检验 至于具体要检定的内容,须看你是在做哪一个统计程序。 举一个例子,比如,你要检验两独立样本均数差异是否能推论至总体,而行的t检验。 两样本(如某班男生和女生)某变量(如身高)的均数并不相同,但这差别是否能推论至总体,代表总体的情况也是存在著差异呢? 会不会总体中男女生根本没有差别,只不过是你那麼巧抽到这2样本的数值不同? 为此,我们进行t检定,算出一个t检定值。 与统计学家建立的以「总体中没差别」作基础的随机变量t分布进行比较,看看在多少%的机会(亦即显著性sig值)下会得到目前的结果。 若显著性sig值很少,比如0.05(少于5%机率),亦即是说,「如果」总体「真的」没有差别,那么就只有在机会很少(5%)、很罕有的情况下,才会出现目前这样本的情况。虽然还是有5%机会出错(1-0.05=5%),但我们还是可以「比较有信心」的说:目前样本中这情况(男女生出现差异的情况)不是巧合,是具统计学意义的,「总体中男女生不存差异」的虚无假设应予拒绝,简言之,总体应该存在著差异。 每一种统计方法的检定的内容都不相同,同样是t-检定,可能是上述的检定总体中是否存在差异,也同能是检定总体中的单一值是否等于0或者等于某一个数值。 至于F-检定,方差分析(或译变异数分析,Analysis of Variance),它的原理大致也是上面说的,但它是透过检视变量的方差而进行的。它主要用于:均数差别的显著性检验、分离各有关因素并估计其对总变异的作用、分析因素间的交互作用、方差齐性(Equality of Variances)检验等情况。 4. T检验和F检验的关系 t检验过程,是对两样本均数(mean)差别的显著性进行检验。惟t检验须知道两个总体的方差(Variances)是否相等;t检验值的计算会因方差是否相等而有所不同。也就是说,t检验须视乎方差齐性(Equality of Variances)结果。所以,SPSS在进行t-test for Equality of Means的同时,也要做Levene's Test for Equality of Variances 。 4.1 在Levene's Test for Equality of Variances一栏中 F值为2.36, Sig.为.128,表示方差齐性检验「没有显著差异」,即两方差齐(Equal Variances),故下面t检验的结果表中要看第一排的数据,亦即方差齐的情况下的t检验的结果。 4.2. 在t-test for Equality of Means中,第一排(Variances=Equal)的情况:t=8.892, df=84, 2-Tail Sig=.000, Mean Difference=22.99 既然Sig=.000,亦即,两样本均数差别有显著性意义! 4.3 到底看哪个Levene's Test for Equality of Variances一栏中sig,还是看t-test for Equality of Means中那个Sig. (2-tailed)啊? 答案是:两个都要看。 先看Levene's Test for Equality of Variances,如果方差齐性检验「没有显著差异」,即两方差齐(Equal Variances),故接著的t检验的结果表中要看第一排的数据,亦即方差齐的情况下的t检验的结果。 反之,如果方差齐性检验「有显著差异」,即两方差不齐(Unequal Variances),故接著的t检验的结果表中要看第二排的数据,亦即方差不齐的情况下的t检验的结果。 4.4 你做的是T检验,为什么会有F值呢? 就是因为要评估两个总体的方差(Variances)是否相等,要做Levene's Test for Equality of Variances,要检验方差,故所以就有F值。 另一种解释: t检验有单样本t检验,配对t检验和两样本t检验。 单样本t检验:是用样本均数代表的未知总体均数和已知总体均数进行比较,来观察此组样本与总体的差异性。 配对t检验:是采用配对设计方法观察以下几种情形,1,两个同质受试对象分别接受两种不同的处理;2,同一受试对象接受两种不同的处理;3,同一受试对象处理前后。 F检验又叫方差齐性检验。在两样本t检验中要用到F检验。 从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t'检验或变量变换或秩和检验等方法。 其中要判断两总体方差是否相等,就可以用F检验。 若是单组设计,必须给出一个标准值或总体均值,同时,提供一组定量的观测结果,应用t检验的前提条件就是该组资料必须服从正态分布;若是配对设计,每对数据的差值必须服从正态分布;若是成组设计,个体之间相互独立,两组资料均取自正态分布的总体,并满足方差齐性。之所以需要这些前提条件,是因为必须在这样的前提下所计算出的t统计量才服从t分布,而t检验正是以t分布作为其理论依据的检验方法。 简单来说就是实用T检验是有条件的,其中之一就是要符合方差齐次性,这点需要F检验来验证。 5. 如何判定结果具有真实的显著性 在最后结论中判断什么样的显著性水平具有统计学意义,不可避免地带有武断性。换句话说,认为结果无效而被拒绝接受的水平的选择具有武断性。实践中,最后的决定通常依赖于数据集比较和分析过程中结果是先验性还是仅仅为均数之间的两两比较,依赖于总体数据集里结论一致的支持性证据的数量,依赖于以往该研究领域的惯例。通常,许多的科学领域中产生p值的结果0.05被认为是统计学意义的边界线,但是这显著性水平还包含了相当高的犯错可能性。结果0.05p0.01被认为是具有统计学意义,而0.01p0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。 6. 所有的检验统计都是正态分布的吗 并不完全如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验、f检验或卡方检验。这些检验一般都要求:所分析变量在总体中呈正态分布,即满足所谓的正态假设。许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就产生了,(参阅非参数和方差分析的正态性检验)。这种条件下有两种方法:一是用替代的非参数检验(即无分布性检验),但这种方法不方便,因为从它所提供的结论形式看,这种方法统计效率低下、不灵活。另一种方法是:当确定样本量足够大的情况下,通常还是可以使用基于正态分布前提下的检验。后一种方法是基于一个相当重要的原则产生的,该原则对正态方程基础上的总体检验有极其重要的作用。即,随着样本量的增加,样本分布形状趋于正态,即使所研究的变量分布并不呈正态。
个人分类: 研究方法|5581 次阅读|0 个评论
假设检验中的P 值 (P value)
agri521 2010-7-19 10:37
假设检验是推断统计中的一项重要内容。 用SAS、SPSS等专业统计软件进行假设检验,在假设检验中常见到P 值( P-Value,Probability,Pr),P 值是进行检验决策的另一个依据。 P 值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P 0.05 为显著, P 0.01 为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05 或0.01。实际上,P 值不能赋予数据任何重要性,只能说明某事件发生的机率。 P 0.01 时样本间的差异比P 0.05 时更大,这种说法是错误的。统计结果中显示Pr F,也可写成Pr( F),P = P{ F0.05 F}或P = P{ F0.01 F}。 下面的内容列出了P值计算方法。 (1) P值是: 1) 一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。 2) 拒绝原假设的最小显著性水平。 3) 观察到的(实例的) 显著性水平。 4) 表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。 (2) P 值的计算: 一般地,用X 表示检验的统计量,当H0 为真时,可由样本数据计算出该统计量的值C ,根据检验统计量X 的具体分布,可求出P 值。具体地说: 左侧检验的P 值为检验统计量X 小于样本统计值C 的概率,即:P = P{ X C} 右侧检验的P 值为检验统计量X 大于样本统计值C 的概率:P = P{ X C} 双侧检验的P 值为检验统计量X 落在样本统计值C 为端点的尾部区域内的概率的2 倍: P = 2P{ X C} (当C 位于分布曲线的右端时) 或P = 2P{ X C} (当C 位于分布曲线的左端时) 。若X 服从正态分布和t 分布,其分布曲线是关于纵轴对称的,故其P 值可表示为P = P{| X| C} 。 计算出P 值后,将给定的显著性水平与P 值比较,就可作出检验的结论: 如果 P 值,则在显著性水平下拒绝原假设。 如果 P 值,则在显著性水平下接受原假设。 在实践中,当 = P 值时,也即统计量的值C 刚好等于临界值,为慎重起见,可增加样本容量,重新进行抽样检验。 整理自: 樊冬梅,假设检验中的P值. 郑州经济管理干部学院学报,2002, 韩志霞, 张 玲,P 值检验和假设检验。边疆经济与文化,2006 中国航天工业医药,1999
个人分类: 统计计算|14111 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-7 07:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部