科学网

 找回密码
  注册

tag 标签: 医疗诊断

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

概率的理解和应用
热度 17 xying 2017-5-2 09:22
“我有没病,跟世界人民有毛关系?”人们看到这话,有的觉得是概率问题,有的以为情绪发泄。同样的文字有不同的解读,这取决于你理解的基础。概率也是这样,有的认为是实用的利器,有的以为是数学游戏,之所以这样,那是你对概率的概念理解不同。初等概率其实很简单,公式和推理不过是中学数学,经典的例子不外乎扔钢蹦掷骰子摸彩球。人人读后都以为懂了,其实很多人进门就走错方向。这篇从概率的门前开始介绍。 科学盛行后大家认为,以前只有上帝知道的 客观存在 ,现在我们也能确定的学问叫科学。概率应用于这种全能全知的想法之外。张三有没有病,一盒彩球中我摸到什么色,这确定的事实,是上帝知道我不知道的。但如果我有某些相关的信息,虽然不能以此确定张三的病,球的色,能否以此估计个可能性?认为这工作有意义的,叫这可能性的数值 P 为概率。概率 P(A) 是对事件 A 发生可能性估计的一个测度,它是从 0 到 1 中的一个实数值,数值越大可能性越大。 这个具体的数值是多少?关系到你对这种“可能性”量度的看法,赌徒是从重复情况发生频率的比率来定义的,律师则从对证据信念的赔率来确定的,你还可以从其他角度来定义这个测度函数。就是说在原则上,集合中事件 A 具体的概率测度 P(A) 可以有不同的定义方法,只要 P(A)=0 解读成逻辑上的 false ,即事件 A 绝不可能, 1 解释成 true ,即事件 A 绝对是可能,数值越大则可能性越大的测度,都可以称为概率,都可以用它来比较可能性的大小。不管怎么定义的概率,在集合测度的性质下(空集零测,独立事件概率相加,无穷并集事件的概率半可加性),都满足一系列的概率关系式,包括贝叶斯公式,这是现代概率论的提法。 这样不明确地规定的概率测度值,在实践上有什么意义?首先,它们大小的比较,符合人们对可能性比较的认知。这是它有用的基础。不管你信不信概率,你在日常中无不应用可能性大小的概念,来判断事件的真实性,以此决定下一步行动。血检告诉你,不大可能患癌还是很有可能,对你做不做活检,甚至开不开刀关系重大,概率是通过具体数值是9%,90%或其他,更精细地告诉你这个可能性的大小。其次,概率的公式联系起不同事件间概率量度的数值,只要你认可已知的概率,以公式计算出来的概率则是一种同样可靠的估计,这是数学证明所保障的,与任何数学的计算的可行性是同一回事。它是在逻辑上保证概率计算是可信的基础。所以你只要相信概率对实践有用,你就可以相信贝叶斯公式计算结果对实践有用,除非你用错了公式。 既然概率的测度值有不同的定义方法,到底哪种靠谱?历史上把赌徒的方法称为客观概率,或频率派,律师的方法为主观概率或贝叶斯派。实际上这些名称都有误导,所谓的客观,隐含着未言明的实验条件假设,所谓的主观并非是任性的假设,所谓的贝叶斯派不是别派不信贝叶斯公式,只是它把贝叶斯的理念推往极致。它们之所以靠谱,都是把这种不确定的猜测,以事关身家性命的金钱的赔率和官司的胜负来作赌,经受到实践检验的。它们定义的概率数值都与掌握的信息有关。对频率派来说,这个信息设定下的统计越符合实际,它估计的数值越靠谱,对贝叶斯派来说,这个信息越是具体,切近考察的个体,推断也越符合事实。无论如何,当同样的知识信息被充分正确利用后,这两个数值趋向一致。 那么“我有没病,跟世界人民有什么关系?”如果没有更多信息,只知道统计世界人民有 0.1% 的人得这病,你就有 0.1% 的可能性中标,这就是你得病的基础概率。 不信的人认为这估计没意义,把张三放在世界人群中考虑,按统计他生 x 病的概率是 0.1% ,同一个的他,放在他 10 个有 2 个中标的基友中,患病率则是 20%. 你说哪个是真正的概率? 这对概率的理解一开始就错了,没有什么绝对真理的确定概率,一切的概率都是相对于所知的信息作出的估计。当你只有对世界人群的统计知识,你只能得知 0.1% 的可能,你有他基友的信息,你就能得知 20% 的可能。你都有这两者,心中有数的就看你怎么用,越是靠近你的实际情况就越精确。不同的已知信息,决定不同的概率值。只要信息是对的。这些不同的数值都是对的,这可以用统计来验证它们符合各自的信息。如果信息不尽可信,你又知道这信息可信程度的概率,你也能用概率公式作出进一步的估计。 你可能觉得这很可笑,同一个问题怎么会有两个不同的正确答案。看个例子。月薪 1 万,你猜他全交给老婆是多少? 1 万是已知这信息的答案,如果他还有奖金 1 千呢?如果他先给了小三 2 千呢?不同的信息得出不同的猜测数量。同理,概率是对不确定问题,根据已知的信息作可能性的猜测,不同的信息得出不同的猜测数值。 那么这是主观的,不是还有客观概率?这两个术语的内涵,很多人也理解错了,主观不是我和你想法不一样,而是强调这概率是由拥有知识而定;客观不是说没有你的知晓,这真实可能性也是这个数,而是说基于默认的一个假设,实验的结果是这样的。不存在不依知识而有的客观估计,客观概率先验概率只不过缺省了这些已知知识的假设。平均分布是最简单而经常被确省的假设。这只是一种不言而喻的假设背景知识。你的知识越靠近估计对象的实际情况,你的估计就越精确。如果你什么都不知道,你无法给出任何估计。 当我们有了检测的信息时,如果我们知道这检测对事件的敏感度和特异度,就可以把检测前的事件概率与有了这检测新信息后的新估计,用贝叶斯公式通过检测的性能联系起来。所谓的先验概率不过是有这新信息前的概率,后验概率是有了检测结果后,对同一事件更新的概率,先后之说只是相对于这检测信息而言。这便是一切检测判断概率计算的基础,有了贝叶斯公式我们不必事事再做统计,便能从已知的统计概率中,通过检测条件和结果的信息更新估计的概率。 在医疗检测诊断中,概率的应用很多。这里抄一段我收到的美国血检阳性后,报告里对患癌的概率数据。这是美国医生建议 50 岁以上男性每年常规 PSA 检查的报告。有一些其他检测阳性结果的报告,也附有这类的概率估计给医生和病人参考(在美国, 病人与医生有同等权利了解健康信息。你年龄段和这次检测的 %fPSAS 值落入表中哪个区间,把它和PSA阳性看作条件 B 的信息,它告诉你这条件下患癌 A 概率 P(A|B). ) In patients with total PSA concentrations of 4-10 ng/ml, the probability of finding prostate cancer on needle biopsy by age in years is: %fPSA 50-59 60-69 70 or older 0-10% 49% 58% 65% 11-18% 27% 34% 41% 19-25% 18% 24% 30% 25% 9% 12% 16% Other factors may help determine the actual risk of prostate caner in indvidual patients ...... Jerry W. Hussong, MD - Lab. Director Lab 给出的不同情况的阳性患病率表, 直接从 统计得出这 12 种不同条件下前列腺患癌率是不现实的。即便你要统计如此,如果你想知道,给不在表中的 50 岁前男人或女人,用测 PSA 做初诊的患癌率呢?提高机器性能后呢?你是否还要再做这么多不同群体的统计?实际上检测方法说明书只要提供它检测Total PSA和Free PSA ratio的精度, 谁都能用文献报告中,他所在群体前列腺患癌的统计比率,以及是否前列腺癌对PSA指标的敏感度和特异度等统计数据,算出检测阳性对他患癌的概率。这表中 12 种情况,是 Lab 这么算来供医生和病人参考的。如果不在这表中,你懂得贝叶斯,也不难通过个体所处群体的患癌率,算出这被测出阳性的患病的可能。 在最近美国给医生科普“机器学习”的材料中,我不时看到用贝叶斯公式计算,检测和诊断概率之间关系的内容。医生通常自己不算诊断概率,有关资料或实验室已替他们算好了。科普机器学习的教材,通常给他们补一下基本线性代数和概率的知识。下面是一段用检测诊断乳腺癌的实例,名为“ Bayes' Theorem and Cancer Screening ”的较短视频 。 概率是不确定之事发生可能性估算的学问。信与不信也是各人的认知。只不过世事无常,哪能尽判黑白?估算之技,“知之者胜,不知之者不 胜 。 ... 多算 胜 ,少算不 胜 ,而況无算乎!”
个人分类: 科普|19470 次阅读|55 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 02:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部