科学网

 找回密码
  注册

tag 标签: 概率问题

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

深入探讨上次概率问题错误的根源
热度 23 gaoshannankai 2017-4-6 16:19
我这个人就是喜欢认真,学术问题不说清楚,誓不罢休。 上次那个问题,还有很多人不明白,我要给大家讲明白。 我说了错误的根源在与照抄照搬经典教材,不看看那个书本是什么时代的, 受当时技术限制,作者只是脑子里想了一个案例,你们却要拿来作为真理。 文老师,张老师,我无意与两位为敌,但是事关科学问题, 我不能不讲真话,得罪了。我下面的公式和计算如果有错误, 还请指出来,不必客气,大家把问题搞清楚就好。 我用公式说明科学网一个概率问题的错误 http://blog.sciencenet.cn/blog-907017-1043262.html 上面那篇博文很多人和我联系还是不懂,好,我们继续讲 在安徽医学院-朱玉老师帮助下,我终于找到了那个概率问题的出处 https://www.math.hmc.edu/funfacts/ffiles/30002.6.shtml TheMathBehindtheFact: ThisfactmaybededucedusingsomethingcalledBayes'theorem,whichhelpsusfindthe probability ofeventAgiveneventB,writtenP(A|B),intermsoftheprobabilityofBgivenA,writtenP(B|A),andtheprobabilitiesofAandB: P(A|B)=P(A)P(B|A)/P(B) Inthiscase,eventAistheeventyouhavethisdisease,andeventBistheeventthatyoutestpositive.ThusP(B|notA)istheprobabilityofafalsepositive:thatyoutestpositiveeventhoughyoudon'thavethedisease. Here,P(B|A)=.99,P(A)=.0001,andP(B)maybederivedbyconditioningonwhethereventAdoesordoesnotoccur:P(B)=P(B|A)P(A)+P(B|notA)P(notA)or.99*.0001+.01*.9999.ThustheratioyougetfromBayes'Theoremislessthan1percent. 抄袭的时候,请注意人家一大堆假设条件,不要漏了 Supposethatyouareworriedthatyoumighthaveararedisease. Alsonotethatthesecalculationswouldn'tholdifthediseasewerenotindependentlyand identicallydistributed throughoutthepopulation(e.g.,inthecaseofcancerduetofamilialtendency,environmentalfactor,asbestosexposure,etc.). 我看了几乎所有中国的教科书都是抄袭这个版本,连数字都是一摸一样,真牛逼。 好,我先不提更多的错误,咱们就按照错误的思路来, 我给大家指出他关键的一个错误,我们看公式 P(A|B)=P(B|A)P(A)/(P(B|A)P(A)+P(B|notA)P(notA)) 这里已知P(B|A)=0.99,P(A)=0.0001,P(notA)=0.9999 我们把公式简单写作,这里的错误就是作者根据P(B|notA)=1-(P(B|A)=1-0.99=0.01 因此得到公式(0.99*pa)/(0.99*pa+0.01*(1-pa));pa=0.0001 大家可以用R语言连续执行得到他们的结果0.009803922。 大家看到了错误的根源在于认为P(B|notA)+(P(B|A)=1 P(B|notA)和(P(B|A)是风马牛不相及的概念,绝对不等于1,这两个指标不是计算来的, 都是大规模统计得到的,大家特别注意,人家老外说了这个案例必须针对罕见病,只有罕见病 P(A)=0.0001,那么我告诉你对于罕见病P(B|notA)不可能是0.01,你执行 (0.99*pa)/(0.99*pa+0.00001*(1-pa));pa=0.001,结果是0.9082652 明白了吧,罕见病的标志非常明显,比如现在的产前检测,染色体问题,搞错都是百万分之一的概率啊。 大家用屁股想一下,人家小孩没得病,你说得了,做掉了,后来复查发现判断错了, 如果是这样,能进医院?这个必须是万分之一以下,百分之一会遇到药家鑫的。 你现在去找卫计委,说华大的产前或者遗传病检测,可靠性只有9%,你看看 华大会不会被叫停。 好,那么不是罕见病,确实这个指标要高,我们可以用他的P(B|notA)=0.01 但是他的pa就不是0.001了 你比如肿瘤,pa至少0.1,请计算下面公式 (0.99*pa)/(0.99*pa+0.01*(1-pa));pa=0.1,结果是0.9166667 请不要自己坐在办公室里面,通过17或19世纪的教科书制造伪科研了。 我请问, 1.哪位见过医院的医生告诉病人一个得病概率,这是一个明显的判别问题,就是是或不是, 是不是,最后都是建议复查,一来多赚钱,二来少麻烦;如果有医生和患者坐在一起讨论 概率问题,这叫找抽; 2.如果医院检测才有9%的把握,我可以肯定的说,一年会多发生几万起医生被打事件。 研究生要多看我博文,不仅能够看清科研问题,更能看清社会 生物信息方面的研究生,必须改变学习方法,不能死记硬背,特别是不要看某些教授 专家自己瞎编的课题,特此我提出了关于真实课题,真实科研进入一线课堂的教改思路。 目前,仅仅得到南开大学1.5万元经费支持,因此就不赠送了下面我和欧剑虹老师等主编的一本书 《 R语言与 Bioconductor 生物信息学 应用》 加入我们生物信息学天空qq群,内部价格35元(包邮费) 生命科学和信息科学是当今社会发展最快的科学,教科书不能当作教条,我现在 做的大量工作都是推翻教科书的一些错误概念,上次科学网我讲的关于动物线粒体 得重新认识,基本上就是推翻了原来的旧认识,过去认为D-loop区域是一个被动 调控的DNA区域,不表达。我们发现了,他不仅表达,而且是全长转录,并且是 主动调控。 公布 南开大学 一项 重大突破 请各位验证(一) http://blog.sciencenet.cn/blog-907017-1007380.html 没事,不急,5年内国外外都陆续会理解我的工作
5079 次阅读|32 个评论
我用公式说明科学网一个概率问题的错误
热度 22 gaoshannankai 2017-4-2 21:12
概率论悖论 精选 http://blog.sciencenet.cn/blog-677221-1042909.html 其中,关于某人得病概率的问题,我觉得作者理解有错误 特此我也了博文指出这是基本概念的错误,可惜我没有给公式,大家会说我数学不好。 我就怕大家把硬套公式当做数学很厉害,有兴趣看看我的博士论文,我玩机器学习 和公式,还是功力很深的,下面张老师给出了一个计算, 首先我引用一下我自己博士论文的两张图,给大家解释一下他的错误 大家看明白谁是谁 我们把预测当做诊断是否阳性,对应模糊矩阵的行 真实当作王某是否得病,对应模糊矩阵的列 A是王某得病,这样模糊矩阵的列就是-A,A B是检测为阳性,这样模糊矩阵的行就是-B,B P(A/B)就是检测为阳性,王某确实得病,也就是99%,对应一下我图里面的Sp(+) P(B/A)就是王某确实得病,检测为阳性,这个叫正样本的灵敏度,Sn(+),我讲了在医学检测中 灵敏度比特异度更重要,起码不小于90%,否则大部分漏掉,后果比假阳性更严重 因此,P(B/A)和P(A/B)都不用求,都是已知的,不知道这个,是没法上临床的,过不了卫计委那关。这是一个常识问题。 这个结果不管是王某,张某,不管谁去都是99%,这是技术决定的,也是根据大规模临床获得的, 不是根据某人的检测情况可以改变的。 另外,A不应该是人群中的得病概率,这个与王某得病没有关系,王某患病的先验概率不知道。 如果硬要指定A是人群中的得病概率,硬要套公式,那么是这样 P(B)= /P(A/B),如果检测灵敏度与特异度都是99%,那么P(B)=P(A) 他的含义是,检测为阳性的比率基本和人群中患病比例相同,这是理想值 永远不可能达到。 这个问题的根本错误就是基本概念不清楚,硬套公式。 按照他自己定义,A是普通人群中王某感染X病的概率 P(A/B)就是有了阳性结果,在普通人群中王某感染的概率就变了
3752 次阅读|48 个评论
有关科学网一篇概率问题的再讨论
热度 16 gaoshannankai 2017-4-1 15:41
某某网站习惯于宣传错误和虚假的东西,对于正确的,符合逻辑的质疑总是打压。 某某基金习惯于支持伪科学研究,对于真正原创的东西总是打压。 刚刚看到一篇讨论概率论的文章,本人提出质疑,请大家都看看。 各位研究生要多看我博文,不仅开启智力,也能提高社会经验。 各位老师同学都记住我的那句话了么,在中国混,要多长一个脑袋。 概率论悖论 精选 http://blog.sciencenet.cn/blog-677221-1042909.html 其中,关于某人得病概率的问题,我觉得作者理解有错误 王宏去医院作验血实验,检查他患上了 X 疾病的可能性,其结果居然为阳性,把他吓了一大跳,赶忙到网上查询。网上的资料说,实验总是有误差的,这种实验有“百分之一的假阳性率和百分之一的假阴性率”。这句话的意思是说,在得病的人中做实验,有 1% 的人是假阳性, 99 %的人是真阳性。而在未得病的人中做实验,有 1% 的人是假阴性, 99 %的人是真阴性。于是,王宏根据这种解释,估计他自己得了 X 疾病的可能性(即概率)为 99% 。王宏想,既然只有百分之一的假阳性率,那么,百分之九十九都是真阳性,那我已被感染 X 病的概率便应该是 99% 。 可是,医生却告诉他,他被感染的概率只有 0.09 左右。这是怎么回事呢?王宏的思路误区在哪里? 医生说:“百分之九十九?哪有那么大的感染几率啊。 99 %是测试的准确性,不是你得病的概率。你忘了一件事:这种 X 疾病的正常比例是不大的, 1000 个人中只有一个人有 X 病。” 医生的计算方法是这样的:因为测试的误报率是 1% , 1000 个人将有 10 个被报为“假阳性”,而根据 X 病在人口中的比例( 1/1000=0.1% ),真阳性只有 1 个。所以,大约 11 个测试为阳性的人中只有一个是真阳性(有病)的,因此,王宏被感染的几率是大约 1/11 ,即 0.09(9%) 。 王宏想来想去仍感糊涂,但这件事激发了王宏去重温他之前学过的概率论。经过反复阅读,再思考琢磨医生的算法之后,他明白了自己是犯了那种叫做“基本比率谬误”的错误,即忘记使用“ X 病在人口中的基本比例( 1/1000 )这个事实 根据作者理解,他认为医生计算王宏的得病概率是错误的,应该用贝叶斯公式 先验概率P(A)指的是王宏没有检查结果时得X病的概率(即X病在公众的基本概率0.1%), 条件概率P(B/A)是王宏检测为阳性下,得病的概率99%,也就是真阳性率 P(B)是王宏检测为阳性的概率,这个不好求啊,当然作者没有说怎么求, 后验概率P(A|B)= /P(B) 也就是说,作者认为检测后,王宏应该得到 后验概率P(A|B),作为他的患病概率。 我认为作者的计算也是错误的,贝叶斯的观念,简单来说,就是用观察的数据来修正先验概率,以得到后验概率,但是数据必须大,而且无偏,一两次修正,基本概率变化不大。 贝叶斯修正得到的后验概率应该是针对人群的,也就是对 P(A)进行修正, 对于王宏这个人,不是能用贝叶斯概率修正的,具体的公式推导我就不写了。 但是,我们科研工作者一定要切记一点,凡事要考虑与常识是否相违背。 我如果写一大堆公式,就把你们弄晕了。但是我就讲一点,如果医学诊断 你生病不是90%这么高,仅仅是9%,是否可以上临床?这是一个常识问题。 作者的错误就在于,这个案例不用计算,压根就不用计算 医院诊断的阳性率,基本上就是被诊断者发病概率,这个请各位想明白。 基本概念不清楚,就套用公式,考试可以,搞研究要犯路线错误。 最为荒唐的是,不懂数学的王宏是对的
2761 次阅读|29 个评论
概率问题答案征集
热度 2 zhouda1112 2013-5-13 09:52
有位网友前些时问了我一个问题,我跟几位朋友讨论之后发现没有什么思路,在此贴出,希望对此题有兴趣的朋友可以帮忙解答。题目如下: 设随机变量X1,X2...是一个独立同分布的随机变量序列,其分布函数是F(x),我们知道max(X1,X2,...,Xn) (n为正整数)的分布函数是(F(x))^n, 问题是如何构造一个随机变量使得其分布函数为(F(x))^p (p为正实数)? 谢谢!
个人分类: 概率论问题讨论|12283 次阅读|4 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-16 19:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部