我一直都很小心处理论文里的 P 值,但最近同行评审员说我的“统计报告不完整”,要求我修改。究竟哪里出错了? 基本上来说, P 值是只用来告诉读者 2 群体/关系间的差异是因为凑巧或是因为你在研究的变量。根据包含 《自然》提供的信息 的统计指南,任何的变化、差异或关系都该有称作“显著性”的P值,再来,显著性阈值(也就是你用来判断显著性的 P 值)可能是 .05 、 .001 或 .01 ,建议在论文的方法章节说明你研究里使用的显著性阈值,简单用一句“ The significance threshold was set at .05 ”即可。 然而, P 值无法告诉读者一效果、变化、关系的强度或大小,所以,你不能只有 P 值,提供的检验统计量( t 、 F 、 U 等)、相关分析或回归系数( Pearson’s r 、 Spearman’s rho 等)、或效应值估量( eta-squared 、 partial-eta-squared 、 omega-squared 等)。 我们拿以下句子为例:“ We found a significant relationship between anxiety and job satisfaction (p .05). ”;这里,你想要说的是你发现足够的证据证明该关系不是凑巧发生,但读者不知道该关系是直接或反比(也就是说到底是焦虑程度越高工作满足感越高或焦虑程度越低工作满足感越高?),再来,该关系是强或弱?为了读者着想,你也应该提供 P 值的相关系数。如果在上面的句子结尾加上“ r = -.78 ”,读者就可以知道这是强烈反比关系,也就对你的研究发现有更清楚的了解。 再举一例:“ We found a significant difference between pretest and posttest scores. ”。我建议要呈现:第一,检验统计量,如此读者知道你用何检验统计量检测差异;第二,效应值估量,如此读者可以知道差异有多大,即使只有前测和后测的平均分数也足够让读者了解你发现的效应值大小。 此外,最好提供真正的 P 值,这种做法能促进科学诚信。在上面的句子里, P 值可能是“ .048 ”,技术上看来低于“ .05 ”,但由于非常接近,可能会被解读为 P 值是 .51 ,那就不是统计相关了。如果 P 值是低于 .001 ,通常会说“ p .001 ”,除此之外要提供精确的 P 值,尤其是针对主要成果。 接下来,我想分享一些我遇过有关 P 值的基本错误如下: 1. “ p = .00 ”或“ p .00 ” 从技术上来说, P 值不可等于 0 ,有些统计分析软件会给你 P 值等于 0 的结果,但这很有可能是自动四舍五入或无条件舍去小数点后数值的结果。所以,试着用“ p .001 ”取代“ p = .000 ”,该表达方式被广为接受且基本上不改变 P 值呈现的重要性。还有, P 值永远都是介于 0 到 1 之间,且不可能为负。 2. “ p .03 ” 许多期刊都接受用表示关系的α值(统计显著性阈值)来表示 P 值,也就是 p .05 、 p .01 、 p .001 ,它也可以用绝对值表示,例如 p = .03 或 p = .008 。不过,如果数值不是α值, P 值基本上不用大于( )或小于( )符号。 最后,一个小技巧:科学、技术和医学领域许多单位多建议不可能大于1的数值(意即有统计显著性的相关、比例和水平)前面不加0,也就是说“ p 0.05 ”应该要写成“ p .05 ”。 或许你可以看看结果章节里的 P 值呈现方式是否可以依照上面提及的几点改进。在 《应用生理学杂志》编辑部 可以找更多指南细节。祝你再投顺利! 如果你还有什么问题,欢迎随时留言。 ____________________________________________________________________________________________ What is the correct way to report p values? I have always been very careful to provide p values in my papers. But I recently was asked to revise a paper because the peer reviewer said that “statistical reporting is incomplete.” What was wrong? In general, p values tell readers only whether any difference between groups, relationship, etc., is likely to be due to chance or to the variable(s) you are studying. According to most statistical guidelines, including those provided by Nature , you need to provide a p value for any change, difference, or relationship called “significant.” Further, because the significance threshold (i.e., the p value that you use as a cutoff for determining significance) can be .05, .001, or .01, it’s advisable to state the significance threshold used in your research in the Methods section of your paper. A sentence like “The significance threshold was set at .05” is all that is required. However, a p value cannot tell readers the strength or size of an effect, change, or relationship. Therefore, you should avoid reporting nothing else but p values. It’s always a good idea to provide a test statistic ( t , F , U , etc.), correlation or regression coefficient (Pearson’s r , Spearman’s rho, etc.), or measure of effect size (eta-squared, partial-eta-squared, omega-squared, etc.). Let’s take the example of the sentence “We found a significant relationship between anxiety and job satisfaction ( p .05).” Here, all you are telling the readers is that you have enough evidence that this relationship is unlikely to be due to chance. Readers don’t know whether this relationship is direct or inverse (i.e., did participants with higher anxiety have higher job satisfaction or did participants with lower anxiety have higher job satisfaction?). Further, was this relationship strong or weak? For the benefit of the reader, you should also report a correlation coefficient along with the p value. If you add “ r = -.78” in the parentheses at the end of the above sentence, your readers will understand that this is a strong inverse relationship. Thus, they get a better idea of your actual findings. Here’s another example: “We found a significant difference between pretest and posttest scores.” I would recommend reporting (a) the test statistic so that the reader knows what statistical test you performed to examine this difference and (b) a measure of effect size so that the reader understands how large this difference is. Even the mean pretest and posttest scores could be sufficient for readers to understand the size of the effect you have found. In addition, it’s a good idea to report exact p values, since this practice makes for greater scientific integrity. In the above sentence, the p value could be “.048”; this value is technically below “.05” but so close to .05 that it would probably need to be treated like a p value of .51, which is not statistically significant. Typically, if the exact p value is less than .001, you can merely state “ p .001.” Otherwise, report exact p values, especially for primary outcomes. Furthermore, here are a couple of basic errors I’ve come across with regard to p values: 1. “ p = .00” or “ p .00” Technically, p values cannot equal 0. Some statistical programs do give you p values of .000 in their output, but this is likely due to automatic rounding off or truncation to a preset number of digits after the decimal point. So, consider replacing p = .000 with p .001, since the latter is considered more acceptable and does not substantially alter the importance of the p value reported. And p always lies between 0 and 1; it can never be negative. 2. “ p .03” Many journals accept p values that are expressed in relational terms with the alpha value (the statistical significance threshold), that is, “ p .05,” “ p .01,” or “ p .001.” They can also be expressed in absolute values, for example, “p = .03” or “p = .008.” However, p values are conventionally not used with the greater than () or less than () sign when what follows the sign is not the alpha value. One last tip: Many authorities in scientific, technical, and medical fields recommend that a zero should not be inserted before a decimal fraction when the number cannot be greater than 1 (e.g., correlations, proportions, and levels of statistical significance); that is, “p 0.05” should be written as “p .05.” Perhaps you should go over the Results section of your paper and check whether the reporting of p values can be improved on the basis of the above tips. More detailed guidelines are provided in this editorial in the Journal of Applied Physiology . Good luck with the resubmission! Do write in a comment with any further questions you may have. ∷ Eddy 博士国际期刊发表支持中心内容由 意得 辑 英文论文发表 专家 团队 支持提供 ∷ 【意得辑提供专业 英文论文编校 、 学术论文翻译 、 英文期刊发表一站式服务 www.editage.cn 】 ____________________________________________________________________________________________ 此文同步刊载于 意得辑专家视点 频道: http://www.editage.cn/insights/怎么正确表现p值?
1. T检验和F检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。 通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现,出现这结果的机率很少,亦即是说,是在机会很少、很罕有的情况下才出现;那我们便可以有信心的说,这不是巧合,是具有统计学上的意义的(用统计学的话讲,就是能够拒绝虚无假设null hypothesis,Ho)。相反,若比较后发现,出现的机率很高,并不罕见;那我们便不能很有信心的直指这不是巧合,也许是巧合,也许不是,但我们没能确定。 F值和t值就是这些统计检定值,与它们相对应的概率分布,就是F分布和t分布。统计显著性(sig)就是出现目前样本这结果的机率。 2. 统计学意义(P值或sig值) 结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研究领域,0.05的p值通常被认为是可接受错误的边界水平。 3. T检验和F检验 至于具体要检定的内容,须看你是在做哪一个统计程序。 举一个例子,比如,你要检验两独立样本均数差异是否能推论至总体,而行的t检验。 两样本(如某班男生和女生)某变量(如身高)的均数并不相同,但这差别是否能推论至总体,代表总体的情况也是存在著差异呢? 会不会总体中男女生根本没有差别,只不过是你那麼巧抽到这2样本的数值不同? 为此,我们进行t检定,算出一个t检定值。 与统计学家建立的以「总体中没差别」作基础的随机变量t分布进行比较,看看在多少%的机会(亦即显著性sig值)下会得到目前的结果。 若显著性sig值很少,比如0.05(少于5%机率),亦即是说,「如果」总体「真的」没有差别,那么就只有在机会很少(5%)、很罕有的情况下,才会出现目前这样本的情况。虽然还是有5%机会出错(1-0.05=5%),但我们还是可以「比较有信心」的说:目前样本中这情况(男女生出现差异的情况)不是巧合,是具统计学意义的,「总体中男女生不存差异」的虚无假设应予拒绝,简言之,总体应该存在著差异。 每一种统计方法的检定的内容都不相同,同样是t-检定,可能是上述的检定总体中是否存在差异,也同能是检定总体中的单一值是否等于0或者等于某一个数值。 至于F-检定,方差分析(或译变异数分析,Analysis of Variance),它的原理大致也是上面说的,但它是透过检视变量的方差而进行的。它主要用于:均数差别的显著性检验、分离各有关因素并估计其对总变异的作用、分析因素间的交互作用、方差齐性(Equality of Variances)检验等情况。 4. T检验和F检验的关系 t检验过程,是对两样本均数(mean)差别的显著性进行检验。惟t检验须知道两个总体的方差(Variances)是否相等;t检验值的计算会因方差是否相等而有所不同。也就是说,t检验须视乎方差齐性(Equality of Variances)结果。所以,SPSS在进行t-test for Equality of Means的同时,也要做Levene's Test for Equality of Variances 。 4.1 在Levene's Test for Equality of Variances一栏中 F值为2.36, Sig.为.128,表示方差齐性检验「没有显著差异」,即两方差齐(Equal Variances),故下面t检验的结果表中要看第一排的数据,亦即方差齐的情况下的t检验的结果。 4.2. 在t-test for Equality of Means中,第一排(Variances=Equal)的情况:t=8.892, df=84, 2-Tail Sig=.000, Mean Difference=22.99 既然Sig=.000,亦即,两样本均数差别有显著性意义! 4.3 到底看哪个Levene's Test for Equality of Variances一栏中sig,还是看t-test for Equality of Means中那个Sig. (2-tailed)啊? 答案是:两个都要看。 先看Levene's Test for Equality of Variances,如果方差齐性检验「没有显著差异」,即两方差齐(Equal Variances),故接著的t检验的结果表中要看第一排的数据,亦即方差齐的情况下的t检验的结果。 反之,如果方差齐性检验「有显著差异」,即两方差不齐(Unequal Variances),故接著的t检验的结果表中要看第二排的数据,亦即方差不齐的情况下的t检验的结果。 4.4 你做的是T检验,为什么会有F值呢? 就是因为要评估两个总体的方差(Variances)是否相等,要做Levene's Test for Equality of Variances,要检验方差,故所以就有F值。 另一种解释: t检验有单样本t检验,配对t检验和两样本t检验。 单样本t检验:是用样本均数代表的未知总体均数和已知总体均数进行比较,来观察此组样本与总体的差异性。 配对t检验:是采用配对设计方法观察以下几种情形,1,两个同质受试对象分别接受两种不同的处理;2,同一受试对象接受两种不同的处理;3,同一受试对象处理前后。 F检验又叫方差齐性检验。在两样本t检验中要用到F检验。 从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t'检验或变量变换或秩和检验等方法。 其中要判断两总体方差是否相等,就可以用F检验。 若是单组设计,必须给出一个标准值或总体均值,同时,提供一组定量的观测结果,应用t检验的前提条件就是该组资料必须服从正态分布;若是配对设计,每对数据的差值必须服从正态分布;若是成组设计,个体之间相互独立,两组资料均取自正态分布的总体,并满足方差齐性。之所以需要这些前提条件,是因为必须在这样的前提下所计算出的t统计量才服从t分布,而t检验正是以t分布作为其理论依据的检验方法。 简单来说就是实用T检验是有条件的,其中之一就是要符合方差齐次性,这点需要F检验来验证。 5. 如何判定结果具有真实的显著性 在最后结论中判断什么样的显著性水平具有统计学意义,不可避免地带有武断性。换句话说,认为结果无效而被拒绝接受的水平的选择具有武断性。实践中,最后的决定通常依赖于数据集比较和分析过程中结果是先验性还是仅仅为均数之间的两两比较,依赖于总体数据集里结论一致的支持性证据的数量,依赖于以往该研究领域的惯例。通常,许多的科学领域中产生p值的结果0.05被认为是统计学意义的边界线,但是这显著性水平还包含了相当高的犯错可能性。结果0.05p0.01被认为是具有统计学意义,而0.01p0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。 6. 所有的检验统计都是正态分布的吗 并不完全如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验、f检验或卡方检验。这些检验一般都要求:所分析变量在总体中呈正态分布,即满足所谓的正态假设。许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就产生了,(参阅非参数和方差分析的正态性检验)。这种条件下有两种方法:一是用替代的非参数检验(即无分布性检验),但这种方法不方便,因为从它所提供的结论形式看,这种方法统计效率低下、不灵活。另一种方法是:当确定样本量足够大的情况下,通常还是可以使用基于正态分布前提下的检验。后一种方法是基于一个相当重要的原则产生的,该原则对正态方程基础上的总体检验有极其重要的作用。即,随着样本量的增加,样本分布形状趋于正态,即使所研究的变量分布并不呈正态。