博文

多重假设检验中的p值校正

已有 12919 次阅读 2012-9-4 09:48 |系统分类:科研笔记|关键词:学者| 检验, 基因组学, 校正

在生物学特别是基因组学的研究工作中，经常会遇到多重假设检验（multiple testing）的问题；此时，得到的原始p值需要进行校正后才能使用，那么哪种校正方法更加适合自己的研究工作呢？p-values, false discovery rates(FDR) 和 q-values有什么不同？它们分别代表什么意义？对于统计科班的同学来说，这不过是小菜一碟；但对于纯生物出身的同学来说，别说去看公式了，光是听听就觉得头大！不过幸运的是，有牛人（William S Noble）了解我们的苦衷，于是一篇nature biotechnology的文章诞生了——《How does multiple testing correction work?》。这片文章不长，只有3页，用不了多长时间就可以看完。更加令人高兴的是，全篇没有一个让人头大的公式；了解基本的统计学知识、特别是p值的相关概念之后，阅读这片文章就不会有太大的困难了。作者以一个生物学例子贯穿全篇，这个例子对于大多数生物专业的同学来说都非常容易理解——在人的21号染色体上寻找CTCF（一个高度保守的锌指DNA结合蛋白）的潜在结合位点。作者先介绍了零假设（null hypothesis），进而引出了p-value的概念。之后，解释了为什么原始p值不能够直接使用，从而过渡到p值校正的话题。在这一部分，作者层层深入，以简洁明了的语言介绍、解释了Bonferroni adjustment、false discovery rate (FDR)、q-value和local FDR的概念、由来、意义等基本但非常重要的知识。最后作者给出了实际应用时的指导建议，并以点睛之笔概括总结了全文中的要点。如果你的工作涉及p值的校正、FDR、q值等概念，这篇文章绝对胜任引你入门的角色（但绝不仅限于此！）。

文章链接：http://www.seq.cn/forum.php?mod=viewthread&tid=3504

1

2

3

When prioritizing hits from a high-throughput experiment, it is important to correct for random events that falsely appear significant. How is this done and what methods should be used?[/font]

[font=Verdana, arial, Helvetica, sans-serif]Imagine that you have just invested a substantial amount of time and money in a shotgun proteomics experiment designed to identify proteins involved in a particular biological process. The experiment successfully identifies most of the proteins that you already know to be involved in the process and implicates a few more.