科学网

 找回密码
  注册

tag 标签: 新衣

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

统计学里“P-value”的故事:蚊子、皇帝的新衣和不育的风流才子
热度 1 bigdataage 2014-4-23 21:17
统计学里“P-value”的故事:蚊子、皇帝的新衣和不育的风流才子 JacquelineShawn 2014-02-27 13:08 图片来源:Nature (文/Regina Nuzzo)衡量统计真实性的“黄金标准”——P值,并非众多科学家想象的那样可靠。 2010年某个瞬间,马特·莫德尔(Matt Motyl)离享受科学荣誉仅有一步之遥。那时,他发现政治极端主义者看到的世界是确实是非黑即白的。 实验结果“非常清楚”。莫德尔这样回忆道。他是夏洛茨维尔市弗吉尼亚大学的心理学博士生。他所做的一项涉及近2000人的研究中的数据似乎表明, 与左翼或右翼人士相比,政治中立派能更准确地辨别不同色度的灰色。 他说:“实验的假设很有趣,而且数据也能够有力支持实验假设。”用来衡量统计显著性的常用指标是P值。该实验中的P值为0.01,通常人们会认为这说明实验结果“非常显著”。莫德尔十分有把握能把自己的论文发表在高影响因子的刊物上。 但是,现实无情地粉碎了幻想。由于担心实验结果陷入 再现性 争论,莫德尔和他的导师布莱恩•诺塞克(Brian Nosek) 决定重复实验。添加了新的数据之后,P值变成了0.59,这个数字远未达到学界一般能接受的显著性水平0.05。 莫德尔观察到的心理学效应没有了,他年少成名的梦也被打碎了。 其实,不是莫德尔的数据或分析出了什么问题,而是P值这个指标出了问题。 从本质上讲,这个指标出人意料的不稳定,它并不是大多数科学家想象的那样可靠和客观。 “P值没有起到人们期望的作用,因为它压根就不可能起到这个作用。”伊利诺伊州芝加哥市罗斯福大学的经济学家斯蒂芬•兹利亚克(Stephen Ziliak)这样说,他经常批评统计学的应用方式。 出于对实验可重复性的担忧,P值的问题让很多科学家特别发愁。2005年,加州斯坦福大学的流行病学家约翰•埃迪尼斯(John Ioanniadis)指出,大多数公开发表的科学发现都是有问题的。此后,一连串备受瞩目的、有可重复性问题的研究迫使科学家重新思考该如何评估研究结果。 与此同时,统计学家也在寻找更好的分析数据的方法,以避免科学家错失重要信息,或在假阳性结果上浪费精力。“当你的统计思想发生改变之后,突然,重要的东西也完全变了。”斯坦福大学物理学家、统计学家史蒂文·古德曼(Steven Goodman)说:“规则并不是天注定的,它是由我们所采用的统计方法决定的。” 对P值的误用 人们一直都对P值批评不断。90年前P值诞生以来,被比作过蚊子(因为这东西烦人又挥之不去)、皇帝的新衣(因为P值的方法中到处都是显而易见却被所有人无视的问题)以及“不育的风流才子”手中的工具——这位“才子”强抢了科学佳人,却让科学佳人后继无人。一位研究人员表示,应该把“统计推论和假设检验”这个方法改个名字,叫做“统计假设和推论检验”(statistical hypothesis and inference testing),大概因为这个名字的首字母缩写更符合它的气质。 讽刺之处在于,20世纪20年代,英国统计学家罗纳德·费希尔(Ronald Fisher)首次采用P值方法时,并没有打算把它作为决定性的检验方法。他本来只是用P值作为一种判断数据在传统意义上是否显著的非正式方法,也就是说,用来判断数据证据是否值得进行深入研究。P值方法的思路是先进行一项实验,然后观察实验结果是否符合随机结果的特征。研究人员首先提出一个他们想要推翻的“零假设”(null hypothesis),比如,两组数据没有相关性或两组数据没有显著差别。接下来,他们会故意唱反调,假设零假设是成立的,然后计算实际观察结果与零假设相吻合的概率。这个概率就是P值。费希尔说,P值越小,研究人员成功证明这个零假设不成立的可能性就越大。 将数据和背景知识相结合得出科学结论的过程是流动的、非数值化的。尽管P值的精确性显而易见,费希尔还是希望它只是这个过程的一部分。但是,科学家很快就开始利用P值来保证循证决策的严谨与客观。这一运动是20世纪20年代末,由费希尔的死对头、波兰数学家耶日·内曼(Jerzy Neyman)和英国统计学家埃贡·皮尔森(Egon Pearson)一手推动的。他们采用了一种新的数据分析框架,该框架中包括统计效力、假阳性、假阴性和很多其他如今在统计学概论课上耳熟能详的概念。他俩直接无视了P值这个指标。 双方争执不断,内曼批评费希尔的某些工作从数学上讲 比“毫无用处”还糟糕 ,而费希尔对内曼的方法给出的评价是“无比幼稚”、“在西方学界中简直骇人听闻”。但是,就在双方争执不下时,其他研究人员的耐心渐渐耗尽了。他们开始给进行研究的科学家们编写统计学指南。但是其中很多作者并非统计学家,他们对两种方法都缺乏透彻的理解。结果就是他们把费希尔粗略的P值计算法硬塞进了内曼和皮尔森二人建立的规则严密的统计系统中,创造出了一种混合的方法,然后就出现了像“P值为0.05,即可将统计结果视为显著”这样的规则。古德曼说:“统计学家从没打算以现在的方式使用P值。” “P值至上”带来的恶果 这样做的后果之一就是人们对P值的意义充满困惑。我们回过头来看一下莫德尔关于政治激进者的研究。大多数科学家看到实验最初统计结果的P值为0.01,就会认为莫德尔的结论不成立的概率只有1%。但他们错了。P值无法告诉研究人员这样的信息。P值能做的,就是在特定的零假设条件下对数据特征进行总结分析。研究人员不能利用P值通过反向推导对事实作出判断。要对事实作出判断,还需要更多信息,也就是现实世界中该效应客观存在的概率。忽视了这一点,就好像一个人清晨醒来觉得有点头痛,然后就断定自己得了某种罕见的脑瘤。这当然不是不可能,只是这事儿摊到你头上的概率太小,所以你得先拿出更多证据推翻例如过敏反应这样更为常见的原因。结论越是令人难以置信(比如心灵感应、外星人、顺势疗法),这种惊人的发现是假阳性的可能性就越大,不管你的P值有多小。 这些都是比较难懂的概念,但是一些统计学家试图用它们来解释经验法则的失灵(见下图)。根据应用最广泛的一种计算方法,如果假设为该现象存在,那么当P值为0.01时,该现象实际并不存在的概率至少为11%;而当P值为0.05时,这一概率则会上升到29%。因此,莫德尔的发现是假阳性的概率超过10%。同样,结果可重复的概率也不是大多数人所想的99%,而是73%左右。而再得到一个极为显著的结果的概率只有50%。 换言之,莫德尔的实验结果不可重复的概率高得惊人,就跟抛硬币猜正面向上,而落下来是反面朝上的概率差不多。 图中的三个例子证明,即使计算得出的P值非常小(具有统计显著性),实验结果也可能具有极高的不可重复率。图片来源:Nature 批评者也感慨P值会让研究人员思维混乱。最重要的一个例子是,P值容易使研究者错误的估计现象的真实影响。比如去年,一项覆盖超过19000人的研究显示,在网上结识的夫妻比在现实生活中结识的夫妻离婚的可能性更低(P0.002),而获得婚姻满足感的可能性则更高(P0.001)。(点击这里看详情)。这一现象也许挺让人印象深刻,但这种现象其实非常不明显。网上结识的夫妇离婚率为5.96%,而现实生活中结识的夫妻离婚率为7.67%,根据7分幸福感评分表测试中,网上结识的夫妻幸福感为5.64分,而现实生活中结石的夫妻幸福感为5.48分。澳大利亚墨尔本市拉筹伯大学的荣誉心理学家杰夫·卡明(Geoff Cumming)认为:“为了追求很小的P值而忽略背后更大的问题这一现象是“诱人的显著性”的牺牲品。”但是,显著性并不意味着实际中确实存在相关性。他说:“我们应该问的是,‘某种现象出现的概率有多大?’而不是‘有没有某种现象?’” 大概,最糟糕的错误是某种自欺欺人的行为,宾夕法尼亚大学的心理学家尤里·西蒙逊(Uri Simonsohn)及其同事给这种行为起名为 “P值操纵”(P-hacking) 。这种行为也被称为数据挖掘、数据窥探、数据钓鱼、追逐显著性或者双重计算。西蒙逊解释道:“P值操纵就是不断地把数据量加倍,直到获得自己想要的结果。”这种行为甚至是下意识的。这可能是在线城市词典中收录的第一个统计学词条,该词条的例句是:“这一发现似乎是通过P值操纵做出来的。作者去掉了其中一种条件下的数据,使总体的P值小于0.05。”或者 “她是个P值操纵者,总是一边收集数据一边看数据好不好。” 这种行为的结果是,把本应带着质疑眼光审视的探索性研究的结果变得看似确定无疑实际上却难以重复。西蒙逊的计算机模拟实验表明,只需改变研究中的若干数据分析方法,就能使假阳性的概率提高到60%。如今的研究都希望能从杂乱的数据中发现并不十分明显的现象。在这种背景下,尤其容易出现P值操纵。尽管难以估计这种做法有多普遍,但西蒙逊认为这一问题应该已经很严重了。在一项分析研究中,他发现有迹象表明,很多公开发表的心理学论文中,P值都出人意料地分布在0.05左右——就像研究人员通过P值操纵不断尝试,直到得到理想的P值 解决之道 尽管对P值提出批评的大有人在,但统计方法的变革仍然进展缓慢。“费希尔、内曼和皮尔森提出他们的理论后,统计学的基本框架实质上没有发生任何改变。”古德曼说。1982年,明尼阿波利斯市明尼苏达大学心理学家约翰·坎贝尔(John Campell)曾经抱怨过这个问题,当时他还是《应用心理学杂志》的编辑。他说:“要把作者的注意力从P值上转移走几乎是不可能的,P值小数点后面的零越多,人们就越抓着P值不愿放手。”1989年,马萨诸塞州波士顿大学的肯尼斯·罗斯曼(Kenneth Rothman)创办了《流行病学》这本杂志,当时他尽力劝阻作者不要使用P值。但是在2001年他离开了杂志社后,这本杂志中又经常出现P值了。 埃尼迪斯最近正在PubMed数据库中搜寻数据,用来研究不同领域的学者是如何使用P值和其他统计学证据的。“只需要粗略浏览几篇最近发表的论文,你就会发现P值仍然是非常非常流行的方法。” 古德曼认为, 这种根深蒂固的研究文化需要彻底的改革 ——人们必须改变统计学的教授方式、数据分析方式以及结果呈现和解释的方式;而好在研究人员已经开始意识到自己的问题了。“已公开发表的众多科学发现都不成立,这给人们敲了个警钟。”埃尼迪斯等研究者的研究揭示了理论统计学的批评观点与统计学应用上的难题之间的联系。古德曼说:“统计学家预言会出现的问题正是我们当前遇到的问题,只是我们还没有找到全部的解决办法。” 统计学家提出了几个或许可行的方法。比如卡明认为,为了避免掉进思考结果是否显著这个陷阱,研究人员应该在文章中提供 效应量和置信区间 的相关数据。这些数据可以反映P值无法反映的信息,也就是效应的规模及其相对重要性。 很多统计学家还呼吁 用基于贝叶斯法则的方法替代P值 。这一法则诞生于18世纪,其思想是把概率视为某种结果的似然性而非出现的频率。这其中蕴含了某种主观因素,而这也是统计学前沿学者想极力避免的。但是,贝叶斯分析框架能够使观察者相对容易地将自己所知道的内容融入结论,以及计算出现新数据后概率如何变化。 其他人则赞成一种更普遍的方法,即鼓励研究人员 对同一套数据用多种方法进行分析。 卢森堡市公共卫生研究中心的统计学家史蒂芬·森(Stephen Senn)把这个方法比作没法从墙角里绕出来的扫地机器人。任何数据分析方法最终都会有行不通的时候,这时就需要用常识将分析拖回正轨。他认为倘若用不同的方法得到了不同的结论,“就表明研究者应该继续开动脑筋,努力找到原因”,而这能让我们更好地理解背后的真相。 西蒙逊认为科学家为自己辩解最有利的武器就是承认一切。他鼓励作者在论文中写上这样一段话:“论文中列出了研究中我们确定样本大小的方法、所有舍弃的数据(如果有的话)以及研究中用到的所有操作和测量方法。”通过这种方式表明文章没有进行“P值操纵”。他希望通过披露这些信息,能够阻止P值操纵行为,或者至少能提醒读者注意论文中的疑点,并自行做出判断。 纽约市哥伦比亚大学政治学家、统计学家安德鲁·格尔曼(Andrew Gelman)表示,目前另一个受到关注的类似方法是 两阶段分析法,也叫做“先预定后重复法”(preregistered replication) 。这种方法中,探索与验证分析通过不同的方式进行,而且要在论文中清楚地标示出来。例如,研究人员首先做两个探索性的小研究,用来发现可能比较有趣的现象,而又不需要太担心假阳性结论;而不是一下做4个单独的小研究,然后在同一篇论文中写出所有的结果。然后,在上述研究结果的基础上,作者再决定用什么方法来验证他的发现,并在Open Science Framework这样的数据库中向公众提前披露自己的研究意向。然后,他们再进行重复实验,并将结果之前与探索性研究的结果一同发表。格尔曼表示这种方法使研究分析更加自由和灵活,同时也能使研究者保持严谨,并降低公开发表的假阳性结果的数量。 古德曼还表示,进一步来说,研究人员需要意识到传统统计学方法的局限性。他们应该在研究中融入对假设似然性和研究局限性的科学判断,而这些内容通常情况下会被放到讨论部分——包括相同或类似实验的结果、研究人员提出的可能的机制以及临床认识等等。马里兰州巴尔的摩市约翰霍普金斯大学布隆伯格公共卫生学院的统计学家理查德·罗耶儿(Richard Royall)认为,科学家应该在实验结束之后思考三个问题:“支持数据是什么?”、“我应该相信什么样的数据?”以及“下一步应该怎么做?” 单一方法无法回答上述全部问题。古德曼说:“数字仅仅是科学讨论的开始,而不是结束。” 编译自:《自然》, Scientific method: Statistical errors 图片来源:Nature 原文: http://www.guokr.com/article/438043/ http://www.nature.com/news/scientific-method-statistical-errors-1.14700
3880 次阅读|1 个评论
现在的中国是一个穿着新衣但汗味很重的贵人
热度 9 jiangjiping 2013-6-1 07:20
现在的中国是一个穿着新衣但汗味很重的贵人 蒋继平 2013 年 5 月 31 日 在党的领导下,在政府的有效组织下, 在全体中国人民的共同努力下,现在的中国在许多方面都取得了很大的进步。这点在经济方面更为突出, 是举世有目共睹的事实。近几年来, 我每次回国都能感到中华大地日新月异的变化。大城市的高楼大厦和鲜花草木装点成的市容风景,还有新型的现代化大型机场,高铁, 四通八达的高速公路,厂房林立的工业园区,给本来就绚丽多彩的中华大地增加了更加光辉灿烂的色彩。 不管是置身于北京和上海这样的大都市,还是在我故乡的江南农村, 从外景上来看,我已经不能明确地区别是在中国还是在美国。 在这样的背景下,中国人的自信心 得到了提升。 所以, 中国领导人为了进一步振兴中华,提升国家的实力, 改善人们的生活水平,在不久前召开的中共 18 大会议上提出了全面建设美丽中国的号召。 后来建设美丽中国的口号进一步发展为“中国梦”。 是的,把中华大地建设成一个美丽的家园是每一个炎黄子孙的梦想,这也包括我们这些海外的华人。 不过,话说回来, 就我最近几次回国的感受来说,国家的经济发展,人民的生活水平确实有了很大的进步, 可是, 非常直率地说,人们的行为举止不是那么令人满意。 国内的许多媒体也经常有这方面的报道,主要是社会的道德滑坡, 人们诚信缺失,以至于吃得不安心,睡得不放心。因为我主要生活在美国, 对这些报道没有切身体会,所以, 不想多说。 但是, 在国内的时候,我在机场,旅馆和车站碰到的一些现象,使我对国人的行为举止很是不理解。比如说, 在电梯门口,电梯到达时, 门打开后, 应该让里面的人先出来,门口等待的人才进去。 这在国外是不用说的秩序。可是, 在国内, 几乎在任何城市的高级旅馆,电梯的门一打开, 外面的人就抢着挤进去。 在许多机场和车站,按秩序认真排队的人很少。 还有, 公共厕所内很少有手纸。其他的就不多说了。 再说全球化的进程,经济的发展和对外开放综合作用的大趋势,使国人出国的人数大幅度地提升。现在中国人到世界各地留学,旅游和经商的人越来越多。可是, 有些人到了国外,仍然改不了在国内养成的坏习惯, 给世界各国人民带来了不好的印象。就拿一些旅游团来说, 他们在国外大把地花钱,大量地采购,看起来很富有,所以受到当地政府和商界的欢迎,把他们当成贵人来接待。 可是他们的一些行为举止又使当地的人们不能接受,因而想避而远之。 这种现象使我想起了一个穿着时髦新衣的贵人,但是身上带着严重的汗味。这个人使人产生既想靠近,又不敢靠近的感觉。 因而,在我看来, 要建设一个真正的美丽中国,光靠外表上的装饰,换几件新装, 而不能经常洗澡和保持身体的干净,是远远不够的, 也是做不到的。 所以,我认为中国政府应该下大决心让全体国民来一个大洗澡,洗头洗脸, 洁身净体。 中国政府应该为全体国民准备三个大浴缸,一个是道德浴缸,里面装的是中国传统的礼教,主要是为青少年准备的;第二个是政治浴缸,主要是为党员和团员们准备的, 里面装的是党章党规;第三个是宗教的浴缸, 里面装的是圣经或者佛经,这是为全体国民准备的, 让全体国民自由选择的。这个浴缸本来是上帝为全体人类准备的,可是不知道什么原因, 这个浴缸在中华大地几乎被封盖着。 我真心希望中国人能够自愿地走进上帝为人类准备的浴缸,接受神灵的洗礼, 从而不但外表美观, 而且身体洁净。只有这样, 中国才能成为一个既美丽又散发着香气的东方美人。
个人分类: 国家时事|3421 次阅读|21 个评论
[求教真伪] 戳破皇帝的新衣——为什么大多数发表的结果不具可重
热度 3 zlyang 2012-7-2 13:30
戳破皇帝的 新衣 ——为什么大多数发表的结果不具可重复性 贾高翔博主的《戳破皇帝的新衣——为什么大多数发表的结果不具可重复性》,2012-06-29在《中国科学报》发表: http://news.sciencenet.cn/sbhtmlnews/2012/6/259969.shtm 。他的博文: http://blog.sciencenet.cn/blog-462644-561566.html 。 不懂啊!到底是不是这样: 只有20%~25%的项目中所得出的结论与发表的结果完全一致。而有 2/3 的项目中,他们得出的 结论 与已 发表 的结果 不一致 。网上疯传的消息基本可信。 别的学科呢? 1998年俺曾经发现国际著名的1区SCI论文里的1篇论文的结果难以重复。 戳破皇帝的新衣 ——为什么大多数发表的结果不具可重复性 http://news.sciencenet.cn/sbhtmlnews/2012/6/259969.shtm?id=259969 前段时间,有这样一条消息在网上疯传:Science、Nature、Cell、PNAS等这些顶级杂志上生物医学方面的新发现有50%无法重复。这个比例与文献发表杂志影响因子高低没有关系。这不是胡乱猜测的诬蔑,而是由富有研究经验的药物研发机构的专家经过严格反复试验获得的客观数据。 为了验证这条消息的真伪,我特意找到了报道这一消息的原文——发表在nature reviews drug discovery上的Believe it or not: how much can we rely on published data on potential drug targets。 至此,我长出一口气,感觉终于有人有勇气来戳破皇帝的新衣了。该文主要说的是只有20%~25%的项目中所得出的结论与发表的结果完全一致。而有2/3的项目,他们得出的结论与已发表的结果不一致。网上疯传的消息基本可信。 在实验室,常听老板叹息说,这可是发在Nature(或Cell)上的结果呀,为什么我们实验室重复不出来呢?这样的情况不是少数,而是很多。我本人也做过一个课题,说是一种鸡贫血病毒的蛋白可以诱导肿瘤细胞发生凋亡,而对正常细胞没有影响。于是,我们实验室合成了该病毒,并构建了其带有一个Flag标签的重组蛋白。按文献中报道的条件处理肺癌细胞后,虽然可以检测到Flag的表达,却没有检测出其文献中报道的凋亡(该标签不影响蛋白活性)。由于我们实验室主要是做细胞凋亡,当我们重复某学者关于线粒体凋亡途径的一些实验时,也发现很难得出与其报道的相一致的结论。老板说,外出开会跟同行交流时,同行大多也说重复不出那位学者的结论。但是,这种结果谁也不能发,因为与大牛结论不一致。 又想起隔壁实验室老板说的一个事:一个Harvard的老板在Nature上发文称找到了听觉的传递过程中将机械振动转换成电信号的蛋白,此发现是神经生物学领域的重大发现,对于揭示听觉传导的奥秘具有重要意义,可与Linda·B·Buck发现嗅觉奥秘相媲美。然而几年后,这篇文章中的结论被证实是错误的。可是,奇怪的是,该论文已经被引用几百次。真的很好奇,这几百次是怎么被引用的。 老板的一个同学给我们作讲座,讲他在国外5年的科研成果,说是发现肥胖主要是由一个叫Rcan2的基因所调控,而不是瘦素。其实验结果充分,而且,得出结果的过程特别严谨。但是,当他们将此发现投给Nature的时候,悲剧了……可以想象,当今肥胖领域是被那些leptin(瘦素)学派的人控制的,你要推翻他们,让他们没饭碗,他们会首先让你没饭碗。其实,leptin学说本身就有很大的缺陷。leptin突变后,小鼠容易肥胖,可并不是所有的肥胖症患者leptin基因都突变啊!这说明,leptin并不是调节肥胖的关键基因。到目前为止,该老师的文章也没有发表,但我相信,他的这篇文章终会发表,我也相信他的研究结果终会获得应有的recognition(承认)。 为什么会出现实验结果不可重复性呢?某种程度上,既成学霸们把持出版的标准,只发表与自己相同的结果对此现象有很大贡献。另外,实验人员只重视positive result(积极的结果),也是造成实验结果不可重复性的原因。前天,问实验室师姐,你怎么还在做这个实验啊?师姐说,唉,没办法啊,结果一直不好呀……年轻科研人员有毕业的压力或者评职称的压力,急需文章,很有可能无法理性分析文章结果。 总之,长久以来,人们都知道很多research article(研究论文)的结果无法重复,但谁也不敢说。就算说了,也被主流观点给湮没了。现在,很高兴,终于有人戳破了皇帝的新衣。希望此文能够引起科学网对这种现象的讨论,也希望学术界能重视此现象。当然,本人更加呼唤科研环境的改变。 ( http://blog.sciencenet.cn/u/jiagaoxiang )
5634 次阅读|6 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 09:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部