科学网

 找回密码
  注册

tag 标签: 贝叶斯公式

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

更好记的贝叶斯公式
quantumchina 2019-2-18 22:08
贝叶斯公式在机器学习等领域应用广泛,改写一下贝叶斯公式的形式,学生更容易记忆! 通常看到的是上式,改写成下式形式后 ,便于学生记忆。
个人分类: 教与学|3241 次阅读|0 个评论
概率的理解和应用
热度 17 xying 2017-5-2 09:22
“我有没病,跟世界人民有毛关系?”人们看到这话,有的觉得是概率问题,有的以为情绪发泄。同样的文字有不同的解读,这取决于你理解的基础。概率也是这样,有的认为是实用的利器,有的以为是数学游戏,之所以这样,那是你对概率的概念理解不同。初等概率其实很简单,公式和推理不过是中学数学,经典的例子不外乎扔钢蹦掷骰子摸彩球。人人读后都以为懂了,其实很多人进门就走错方向。这篇从概率的门前开始介绍。 科学盛行后大家认为,以前只有上帝知道的 客观存在 ,现在我们也能确定的学问叫科学。概率应用于这种全能全知的想法之外。张三有没有病,一盒彩球中我摸到什么色,这确定的事实,是上帝知道我不知道的。但如果我有某些相关的信息,虽然不能以此确定张三的病,球的色,能否以此估计个可能性?认为这工作有意义的,叫这可能性的数值 P 为概率。概率 P(A) 是对事件 A 发生可能性估计的一个测度,它是从 0 到 1 中的一个实数值,数值越大可能性越大。 这个具体的数值是多少?关系到你对这种“可能性”量度的看法,赌徒是从重复情况发生频率的比率来定义的,律师则从对证据信念的赔率来确定的,你还可以从其他角度来定义这个测度函数。就是说在原则上,集合中事件 A 具体的概率测度 P(A) 可以有不同的定义方法,只要 P(A)=0 解读成逻辑上的 false ,即事件 A 绝不可能, 1 解释成 true ,即事件 A 绝对是可能,数值越大则可能性越大的测度,都可以称为概率,都可以用它来比较可能性的大小。不管怎么定义的概率,在集合测度的性质下(空集零测,独立事件概率相加,无穷并集事件的概率半可加性),都满足一系列的概率关系式,包括贝叶斯公式,这是现代概率论的提法。 这样不明确地规定的概率测度值,在实践上有什么意义?首先,它们大小的比较,符合人们对可能性比较的认知。这是它有用的基础。不管你信不信概率,你在日常中无不应用可能性大小的概念,来判断事件的真实性,以此决定下一步行动。血检告诉你,不大可能患癌还是很有可能,对你做不做活检,甚至开不开刀关系重大,概率是通过具体数值是9%,90%或其他,更精细地告诉你这个可能性的大小。其次,概率的公式联系起不同事件间概率量度的数值,只要你认可已知的概率,以公式计算出来的概率则是一种同样可靠的估计,这是数学证明所保障的,与任何数学的计算的可行性是同一回事。它是在逻辑上保证概率计算是可信的基础。所以你只要相信概率对实践有用,你就可以相信贝叶斯公式计算结果对实践有用,除非你用错了公式。 既然概率的测度值有不同的定义方法,到底哪种靠谱?历史上把赌徒的方法称为客观概率,或频率派,律师的方法为主观概率或贝叶斯派。实际上这些名称都有误导,所谓的客观,隐含着未言明的实验条件假设,所谓的主观并非是任性的假设,所谓的贝叶斯派不是别派不信贝叶斯公式,只是它把贝叶斯的理念推往极致。它们之所以靠谱,都是把这种不确定的猜测,以事关身家性命的金钱的赔率和官司的胜负来作赌,经受到实践检验的。它们定义的概率数值都与掌握的信息有关。对频率派来说,这个信息设定下的统计越符合实际,它估计的数值越靠谱,对贝叶斯派来说,这个信息越是具体,切近考察的个体,推断也越符合事实。无论如何,当同样的知识信息被充分正确利用后,这两个数值趋向一致。 那么“我有没病,跟世界人民有什么关系?”如果没有更多信息,只知道统计世界人民有 0.1% 的人得这病,你就有 0.1% 的可能性中标,这就是你得病的基础概率。 不信的人认为这估计没意义,把张三放在世界人群中考虑,按统计他生 x 病的概率是 0.1% ,同一个的他,放在他 10 个有 2 个中标的基友中,患病率则是 20%. 你说哪个是真正的概率? 这对概率的理解一开始就错了,没有什么绝对真理的确定概率,一切的概率都是相对于所知的信息作出的估计。当你只有对世界人群的统计知识,你只能得知 0.1% 的可能,你有他基友的信息,你就能得知 20% 的可能。你都有这两者,心中有数的就看你怎么用,越是靠近你的实际情况就越精确。不同的已知信息,决定不同的概率值。只要信息是对的。这些不同的数值都是对的,这可以用统计来验证它们符合各自的信息。如果信息不尽可信,你又知道这信息可信程度的概率,你也能用概率公式作出进一步的估计。 你可能觉得这很可笑,同一个问题怎么会有两个不同的正确答案。看个例子。月薪 1 万,你猜他全交给老婆是多少? 1 万是已知这信息的答案,如果他还有奖金 1 千呢?如果他先给了小三 2 千呢?不同的信息得出不同的猜测数量。同理,概率是对不确定问题,根据已知的信息作可能性的猜测,不同的信息得出不同的猜测数值。 那么这是主观的,不是还有客观概率?这两个术语的内涵,很多人也理解错了,主观不是我和你想法不一样,而是强调这概率是由拥有知识而定;客观不是说没有你的知晓,这真实可能性也是这个数,而是说基于默认的一个假设,实验的结果是这样的。不存在不依知识而有的客观估计,客观概率先验概率只不过缺省了这些已知知识的假设。平均分布是最简单而经常被确省的假设。这只是一种不言而喻的假设背景知识。你的知识越靠近估计对象的实际情况,你的估计就越精确。如果你什么都不知道,你无法给出任何估计。 当我们有了检测的信息时,如果我们知道这检测对事件的敏感度和特异度,就可以把检测前的事件概率与有了这检测新信息后的新估计,用贝叶斯公式通过检测的性能联系起来。所谓的先验概率不过是有这新信息前的概率,后验概率是有了检测结果后,对同一事件更新的概率,先后之说只是相对于这检测信息而言。这便是一切检测判断概率计算的基础,有了贝叶斯公式我们不必事事再做统计,便能从已知的统计概率中,通过检测条件和结果的信息更新估计的概率。 在医疗检测诊断中,概率的应用很多。这里抄一段我收到的美国血检阳性后,报告里对患癌的概率数据。这是美国医生建议 50 岁以上男性每年常规 PSA 检查的报告。有一些其他检测阳性结果的报告,也附有这类的概率估计给医生和病人参考(在美国, 病人与医生有同等权利了解健康信息。你年龄段和这次检测的 %fPSAS 值落入表中哪个区间,把它和PSA阳性看作条件 B 的信息,它告诉你这条件下患癌 A 概率 P(A|B). ) In patients with total PSA concentrations of 4-10 ng/ml, the probability of finding prostate cancer on needle biopsy by age in years is: %fPSA 50-59 60-69 70 or older 0-10% 49% 58% 65% 11-18% 27% 34% 41% 19-25% 18% 24% 30% 25% 9% 12% 16% Other factors may help determine the actual risk of prostate caner in indvidual patients ...... Jerry W. Hussong, MD - Lab. Director Lab 给出的不同情况的阳性患病率表, 直接从 统计得出这 12 种不同条件下前列腺患癌率是不现实的。即便你要统计如此,如果你想知道,给不在表中的 50 岁前男人或女人,用测 PSA 做初诊的患癌率呢?提高机器性能后呢?你是否还要再做这么多不同群体的统计?实际上检测方法说明书只要提供它检测Total PSA和Free PSA ratio的精度, 谁都能用文献报告中,他所在群体前列腺患癌的统计比率,以及是否前列腺癌对PSA指标的敏感度和特异度等统计数据,算出检测阳性对他患癌的概率。这表中 12 种情况,是 Lab 这么算来供医生和病人参考的。如果不在这表中,你懂得贝叶斯,也不难通过个体所处群体的患癌率,算出这被测出阳性的患病的可能。 在最近美国给医生科普“机器学习”的材料中,我不时看到用贝叶斯公式计算,检测和诊断概率之间关系的内容。医生通常自己不算诊断概率,有关资料或实验室已替他们算好了。科普机器学习的教材,通常给他们补一下基本线性代数和概率的知识。下面是一段用检测诊断乳腺癌的实例,名为“ Bayes' Theorem and Cancer Screening ”的较短视频 。 概率是不确定之事发生可能性估算的学问。信与不信也是各人的认知。只不过世事无常,哪能尽判黑白?估算之技,“知之者胜,不知之者不 胜 。 ... 多算 胜 ,少算不 胜 ,而況无算乎!”
个人分类: 科普|19441 次阅读|55 个评论
预测混淆与贝叶斯公式
热度 18 xying 2017-4-24 07:32
张老师科普概率悖论,以王宏血捡为例谈患病的概率【 1 】。科学网热议时,我正在智利、阿根廷旅游。高同学亢声惊人【 2 】,被围殴抱头而去【 3 】。后来多人谈贝叶斯,很是娱乐,高空论剑,云遮雾绕,惘者益惘,不信者仍然不服,待我到家,已是笑渐不闻声渐消了。 科学网博文中贝叶斯科普确实不错。但是高同学咭言,从检查结果得到患病概率不必用贝叶斯公式计算,直接从混淆矩阵统计就可得出,这个知识点被大家忽略了。这既怪他理解模糊,也怪围殴者把混淆打成了糊涂,其实这矩阵表达的是辨识混淆的状态分布,是可以直接从中得到王宏得病概率的。 自从 1998 年 Ron Kohavi 和 FosterProvost 用混淆矩阵( confusion matrix )来说明预测误差与分类辨识的关系,得以厘清识别训练追求的目标,它已成为机器学习以及数据科学的基本知识。以此来解释各种误差指标和预测的效用,远比通过概率和贝叶斯公式来得直观清晰。下面普及混淆矩阵这个知识点,不从主观概率角度,只用统计比例来谈王宏患病的可能性。 混淆矩阵可以用于多类的辨识,最基本的辨识是二值分类,它与实际分类的组合有真阳性( TP ),假阳性( FP ),假阴性( FN ),真阴性( TN ),即辨识正确和错误混淆的四种情况。把检验辨识正误结果的样本数量分别放在这四种情况的表中,称为混淆矩阵。通常它是在测试机器辨识功能时,统计结果得到的。 在王宏的故事里,血检对有这病和无这病分别有 1% 的误判率,有这病只占 0.1% 的人口,下面是 一个 模拟符合这分布数据的混淆矩阵例子。它具有 100000 个测试样本。 实际情况 \ 辨识结论 阳性 B 阴性 ~B 有病 A TP =99 FN = 1 无病 ~A FP = 999 TN = 98901 表 1 用此可以统计各种误差指标的比率。有病情况下检查出阳性的比率,称为敏感度( sensitivity ), P(B|A) = TP/(TP+FN) = 99% ;无病查出阴性的比率,称为特异度( specificity ), P(~B|~A) =TN/(FP+TN) = 99% ;有病样本的比率 P(A) = (TP+FN)/All = 0.1% , All = TP+FN +FP+TN ;被检查出阳性被证实有病的比率(准确度 precision ) P(A|B) = TP/(TP+FP) = 99/(99+999) = 9% ,与讨论中用贝叶斯公式算出来的一样。这些都是直接从混淆矩阵中得到的统计结果。这里 P 是比率的意思,不涉及到概率的概念,仅是用相同的符号表达矩阵中测试结果统计出的比率值。注意到在检测中样本阳性的比率 P(B) = (TP+FP)/All ,不难从它们定义中得出 P(A|B)=P(B|A)P(A)/P(B)的 关系。 如果这些样本的取样,符合实际人群的分布,那么这些统计的比率就可以解释成概率,个体如果不是自外于统计群体中的芸芸众生,这些概率便是预测的可能性。表中得出的比率关系 P(A|B)=P(B|A)P(A)/P(B) 便是贝叶斯公式。根据检查出阳性的信息 B ,可以把王宏患病的估计 P(A) ,改进到 P(A|B) ,贝叶斯公式联系起它们。所谓的先验概率是指在得到 B 知识之前,对 A 的估计 P(A) ,后验概率指之后的估计 P(A|B) 。从表中可以很清晰地看到这后验之于先验估计,其实是限于阳性 B ,把原来涉及到全表四个变数的估计,排除到只需要阳性 B 这一列的两个变数。信息改善了估计,这便是贝叶斯公式的哲学含义,如此而已。 为什么不用人们熟悉的精确度来估量预测的功效?因为通常精确度( accuracy )指的是正确辨识的比率 Acc = (TP+TN)/All ,它用于分类预测中会引起很大的误解。例如这个例子中精确度 Acc = 99% ,如果机器坏了,血检总是给出阴性平安无事的报告,因为有病的人只占 0.1% ,它的辨识精确度达到 Acc = 99.9% ,比机器没坏前还高。人们习惯误用熟悉的指标,所以平庸无为往往比勇于任事有更好的考绩。 混淆矩阵可以让你清晰地了解分类辨识中混淆的可能,以此可以定义不同预测效用的指标,让机器学习在训练中追求,以形成合适的辨识智能。例如保安系统的异常检测,要求敏感度很高,机场检测门,机器宁可误响让人随后搜身,也不希望错过。高同学也属敏感度很高的学术异见者,尽管误报率也很高,对促进科学网讨论还是很有贡献的。分类预测常用的更好指标是 F1 = 2/(1/P(A|B)+1/P(B|A)) = 2TP/(2TP+FP+FN) ,它追求有均衡敏感度和准确率。例如上面例子的 F1=99% ,机器坏了时 F1=0. 有兴趣可以阅读【 4 】及机器学习有关的课文。 对于预测的准确率 P(A|B) ,人们感到不解的是:分类辨识检测的是样本模式,验血查王宏血样的模式,查的就是所有可能模式中的哪一种,这跟世界人民多少得病有毛关系? 比如说王宏故事中血样有 200 种模式,机器把其中 100 种归结为阳性,对了 99 种,又错失了 1 种,即有 1% 的假阳性和 1% 的假阴性,把它们列为混淆矩阵如下: 所有模式 \ 辨识结论 阳性 B 阴性 ~B 有病模式 A TP =99 FN = 1 无病模式 ~A FP = 1 TN = 99 表 2 验血查的是王宏不是世界人民,他的阳性指标说明他的血样符合 99 个真的有病模式和 1 个误判的模式之一,按此,有病的可能性 P(A|B) = 99% ,干嘛还要扯上世界人民来个贝叶斯? 这是高同学、黄同学的主张。请不翻书,别往下看,沿着他们的思路认真想一想,这有错吗? 。 。 。 。 。 。 表 1 计算王宏是 9% 概率有病,表 2 是 99% ,两个混淆矩阵对预测的准确率 P(A|B) 计算出的数值不同,它们的差异在于,表 1 是按照人群患病的比例来取样统计的,而表 2 是按照血样的模式来统计的。到底该用哪一种来计算预测的准确率? 机器检测查的是给定的样本,其敏感度 P(B|A) 和特异度 P(~B|~A) 只辨识模式,确实与其他人患病率无关。用这两个表计算结果都是一样的。但计算预测的准确率,却不能将论域中所有的模式的出现视为均等。这准确率指的是,到底有多少个(而不是多少种)真正有病的模式被机器认为是有病的。在表 2 中,有病和无病模式各有 100 种,但从统计得知有病只占 0.1% ,也就是说这 100 种的无病模式出现个数的频率是有病模式的 999 倍,检查为假阳性的那个误测模式个数出现的比率也比表 2 增大了 999 倍。王宏的患病可能性与其他人无关,但他血样各种模式的出现频率却可以由人群中统计得知。这时就需要用贝叶斯公式的计算来修正。而表 1 中的样本已经直接反映了这些模式的个数分布,在这例子中血检阳性说明,王宏的血样是 99 个不同有病模式和 999 个同一种误判模式之一的情况,所以这时不需要贝叶斯公式,便能直接得出预测的准确率是 99/(99+999)=9%. 王宏血检阳性后有 9% 可能患病,马上再做一次血检,用贝叶斯公式有助于改进概率估计吗?不必深究条件概率的理解,模式辨识的混淆矩阵告诉你这不可能。两次概率完全是一样的,除非你考究人为和噪音的误差。 检测报告讲概率找抽吗?你落后了。我每次做检查都要一份报告自己看,美国血检报告异常项的确有时附上统计患何病的比率,提醒进一步检查。它贴心告诉的是预测准确率,而不是给出敏感度,让你纠结怎么去计算。 【参考资料】 张天蓉博文,概率论悖论 http://blog.sciencenet.cn/blog-677221-1042909.html 高山博文,我用公式说明科学网一个概率问题的错误 http://blog.sciencenet.cn/blog-907017-1043262.html 杨正瓴博文,概率论 - 统计学学派:袁贤讯、高山、徐晓、张天蓉… http://blog.sciencenet.cn/blog-107667-1048435.html Wikipedia , Confusionmatrix https://en.wikipedia.org/wiki/Confusion_matrix
个人分类: 科普|20579 次阅读|135 个评论
重温且标读:贝叶斯定理(Bayes' theorem)
geneculture 2012-6-28 23:10
贝叶斯定理 ( Bayes' theorem ),是 概率论 中的一个 结果 ,它跟 随机变量 的 条件概率 以及 边缘概率分布 有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们 如何利用新证据修改已有的看法 。 通常,事件 A 在事件 B (发生)的条件下的概率,与事件 B 在事件 A 的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。 作为一个规范的原理,贝叶斯定理 , 对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中,概率如何被赋值,有着不同的看法 : 频率主义者根据随机事件发生的频率,或者 , 总体样本裡面的个数来赋值概率;贝叶斯主义者 要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯定理 。 目录 1 贝叶斯定理的陈 述 2 從條件概率推導貝氏定理 3 二中擇一的形式 3.1 以可能性與相似率表示貝氏定理 3.2 貝氏定理與機率密度 3.3 貝氏定理的推廣 4 範例 4.1 吸毒者检测 5 参见 6 参考资料 6.1 Versions of the essay 6.2 Commentaries 6.3 Additional material 贝叶斯定理的陈述 贝叶斯定理 是 关于随机事件 A 和 B 的 条件概率 和 边缘概率 的一則定理。 其中 P(A|B) 是在 B 发生的情况下 A 发生的可能性 。 在贝叶斯定理中, 每个名词都有约定俗成的名称 : P( A ) 是 A 的 先驗概率 或 邊緣概率 。 之所以稱為 " 先驗 " 是因為它不考慮任何 B 方面的因素。 P( A | B ) 是已知 B 發生后 A 的 條件概率 , 也由于得自 B 的取值而被稱作 A 的 后驗概率 。 P( B | A ) 是已知 A 發生后 B 的 條件概率 , 也由于得自 A 的取值而被稱作 B 的 后驗概率 。 P( B ) 是 B 的 先驗概率 或 邊緣概率 ,也作 標准化常量 ( normalized constant ) . 按這些術語, Bayes 定理可表述為: 后驗概率 = ( 相似度 * 先驗概率 )/ 標准化常量 也就是說, 后驗概率 与 先驗概率和相似度的乘積 成 正比 。 另外,比例 P( B | A )/P( B ) 也有時 被稱作 標准相似度( standardised likelihood ), Bayes 定理可表述為: 后驗概率 = 標准相似度 * 先驗概率 從條件概率推導貝氏定理 根據 條件概率 的定義。在事件 B 发生的条件下事件 A 发生的概率是 。 同樣地,在事件 A 发生的条件下事件 B 发生的概率 整理与合并這兩個方程式,我們可以找到 这个引理 有时称作 概率乘法规则 。 上式兩邊同除以 P( B ) ,若 P( B ) 是非零的,我們可以得到贝叶斯 定理 : 二中擇一的形式 貝氏定理 通常可以 再寫成下面的形式 : , 其中 A C 是 A 的 補集 (即非 A )。故上式亦可寫成: 在更一般化的情況,假設 { A i } 是事件集合裡的部份集合,對於任意的 A i ,貝氏定理可用下式表示: 以可能性與相似率表示貝氏定理 参见: 全機率定理 貝氏定理 亦可由 相似率 Λ和 可能性 O 表示: 其中 定義為 B 發生時, A 發生的可能性( odds ); 則是 A 發生的可能性。相似率( Likelihood ratio )則定義為: 貝氏定理與機率密度 貝氏定理 亦可用於 連續機率分佈 。由於 機率密度函數 嚴格上並非機率,由機率密度函數 導出 貝氏定理觀念上較為困難(詳細推導參閱 )。 貝氏定理與機率密度的關係是由求極限的方式建立: 全機率定理則有類似的論述: 如同 離散的情況,公式中的每項 均有名稱。 f ( x , y ) 是 X 和 Y 的聯合分佈; f ( x | y )是給定 Y = y 後, X 的後驗分佈; f ( y | x ) = L ( x | y )是 Y = y 後, X 的相似度函數(為 x 的函數 ) ; f ( x )和 f ( y )則是 X 和 Y 的邊際分佈; f ( x )則是 X 的先驗分佈。 為了方便起見,這裡的 f 在這些專有名詞中代表不同的函數(可以由引數的不同判斷之)。 貝氏定理的推廣 對於變數有二個以上的情況, 貝式定理亦成立 。例如: 這個式子可以由套用多次二個變數的貝式定理及 條件機率 的定義導出: 。 一般化的方法則是利用 聯合機率 去分解待求的條件機率,並對不加以探討的變數積分(意即對欲探討的變數計算邊緣機率)。取決於不同的分解形式,可以證明某些積分必為 1 ,因此分解形式可被簡化。利用這個性質,貝氏定理的計算量可能可以大幅下降。 貝氏網路 為此方法的一個例子, 貝氏網路 指定數個變數的 聯合機率分佈 的分解型式,該機率分佈滿足下述條件:當其他變數的條件機率給定時,該變數的條件機率為一簡單型式。 範例 吸毒者检测 贝叶斯定理在检测吸毒者时很有用。假设一个常规的检测结果的敏感度与可靠度均为 99% ,也就是说,当被检者吸毒时,每次检测呈阳性( + )的概率为 99% 。而被检者不吸毒时,每次检测呈阴性( - )的概率为 99% 。从检测结果的概率来看,检测结果是比较准确的,但是贝叶斯定理卻可以揭示一个潜在的问题。假设某公司将对其全体雇员进行一次鸦片吸食情况的检测,已知 0.5% 的雇员吸毒。我们想知道,每位医学检测呈阳性的雇员吸毒的概率有多高?令“ D ”为雇员吸毒事件,“ N ”为雇员不吸毒事件,“ + ”为检测呈阳性事件。可得 P(D) 代表雇员吸毒的概率,不考虑其他情况,该值为 0.005 。因为公司的预先统计表明该公司的雇员中有 0.5% 的人吸食毒品,所以这个值就是 D 的 先验概率 。 P(N) 代表雇员不吸毒的概率,显然,该值为 0.995 ,也就是 1-P(D) 。 P(+|D) 代表吸毒者阳性检出率,这是一个 条件概率 ,由于阳性检测准确性是 99% ,因此该值为 0.99 。 P(+|N) 代表不吸毒者阳性检出率,也就是出错检测的概率,该值为 0.01 ,因为对于不吸毒者,其检测为阴性的概率为 99% ,因此,其被误检测成阳性的概率为 1-99% 。 P(+) 代表不考虑其他因素的影响的阳性检出率。该值为 0.0149 或者 1.49% 。我们可以通过全概率公式计算得到:此概率 = 吸毒者阳性检出率( 0.5% x 99% = 0.495%)+ 不吸毒者阳性检出率( 99.5% x 1% = 0.995%) 。 P(+ ) =0.0149 是检测呈阳性的 先验概率 。用数学公式描述为: 根据上述描述,我们可以计算某人检测呈阳性时确实吸毒的条件概率 P(D|+) : 尽管我们的检测结果可靠性很高,但是只能得出如下结论:如果某人检测呈阳性,那么此人是吸毒的概率只有大约 33% ,也就是说此人不吸毒的可能性比较大。我们测试的条件(本例中指 D ,雇员吸毒)越难发生,發生误判的可能性越大。 参见 ^ Papoulis A.(1984). Probability, Random Variables, and Stochastic Processes, 2nd edition. Section 7.3. New York: McGraw-Hill. 概率论 数学之美番外篇:平凡而又神奇的贝叶斯方法 参考资料 Versions of the essay Thomas Bayes (1763), "An Essay towards solving a Problem in the Doctrine of Chances. By the late Rev. Mr. Bayes, F. R. S. communicated by Mr. Price, in a letter to John Canton, A. M. F. R. S.", Philosophical Transactions, Giving Some Account of the Present Undertakings, Studies and Labours of the Ingenious in Many Considerable Parts of the World 53:370 – 418. Thomas Bayes (1763/1958) "Studies in the History of Probability and Statistics: IX. Thomas Bayes's Essay Towards Solving a Problem in the Doctrine of Chances", Biometrika 45:296 – 315. ( Bayes's essay in modernized notation ) Thomas Bayes "An essay towards solving a Problem in the Doctrine of Chances" . ( Bayes's essay in the original notation ) Commentaries G. A. Barnard (1958) "Studies in the History of Probability and Statistics: IX. Thomas Bayes's Essay Towards Solving a Problem in the Doctrine of Chances", Biometrika 45:293 – 295. ( biographical remarks ) Daniel Covarrubias. "An Essay Towards Solving a Problem in the Doctrine of Chances" . ( an outline and exposition of Bayes's essay ) Stephen M. Stigler (1982). "Thomas Bayes's Bayesian Inference," Journal of the Royal Statistical Society , Series A, 145:250 – 258. (Stigler argues for a revised interpretation of the essay; recommended) Isaac Todhunter (1865). A History of the Mathematical Theory of Probability from the time of Pascal to that of Laplace , Macmillan. Reprinted 1949, 1956 by Chelsea and 2001 by Thoemmes. Additional material Pierre-Simon Laplace (1774). "Mémoire sur la Probabilité des Causes par les vénements", Savants tranges 6:621 – 656; also Œ uvres 8:27 – 65. Pierre-Simon Laplace (1774/1986). "Memoir on the Probability of the Causes of Events", Statistical Science 1(3):364 – 378. Stephen M. Stigler (1986). "Laplace's 1774 memoir on inverse probability", Statistical Science 1(3):359 – 378. Stephen M. Stigler (1983). "Who Discovered Bayes's Theorem?" The American Statistician 37(4):290 – 296. Jeff Miller et al. Earliest Known Uses of Some of the Words of Mathematics (B) . ( very informative; recommended ) Athanasios Papoulis (1984). Probability, Random Variables, and Stochastic Processes , second edition. New York: McGraw-Hill. James Joyce (2003). "Bayes's Theorem" , Stanford Encyclopedia of Philosophy . The on-line textbook: Information Theory, Inference, and Learning Algorithms , by David J.C. MacKay provides an up to date overview of the use of Bayes's theorem in information theory and machine learning. Stanford Encyclopedia of Philosophy: Bayes's Theorem provides a comprehensive introduction to Bayes's theorem. Eric W. Weisstein , Bayes' Theorem , MathWorld . Bayes' theorem at PlanetMath . 来自“ http://zh.wikipedia.org/w/index.php?title= 贝叶斯定理 oldid=18873821 ”
个人分类: 数学|1 次阅读|0 个评论
[转载]贝叶斯公式、条件概率及全概率公式
热度 1 Bearjazz 2012-5-17 10:53
编者按:贝叶斯统计方法是一种在各行各业中经常被用到的强大统计理论方法。但是往往在工具软件极大丰富的今天,我们面对其原理的复杂公式外表,往往望而生畏,也导致很多学者只知其然而怯于知其所以然。 以下文献附件是笔者较为推崇的介绍贝叶斯理论“演化”的精彩文献,例子生动易懂,以希望对那些想要再次鼓起勇气一探贝叶斯方法理论基础究竟的朋友有所帮助。 条件概率及全概率公式及贝叶斯公式.pdf
个人分类: 我的研究|8514 次阅读|2 个评论
【数学知识系列】(1):贝叶斯与贝叶斯公式
blsm 2011-8-26 12:16
【数学知识系列】(1):贝叶斯与贝叶斯公式
贝叶斯生平简介 参考百度百科 Thomas Bayes 托马斯.贝叶斯(1702-1763),英国数学家。 贝叶斯1702年出生于伦敦,做过神甫。1742年成为英国皇家学会会员,1763年4月7日逝世。 贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献。1763年发表了这方面的论著,对于现代概率论和数理统计都有很重要的作用。 贝叶斯的另一著作《机会的学说概论》发表于1758年。贝叶斯所采用的许多术语至今仍被沿用。 贝叶斯公式   主要用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则:P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B),可以立刻导出   贝叶斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)    如上公式也可变形为 :P(B|A)=P(A|B)*P(B)/P(A) 例如 :一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少? 我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则 P(A) = 3 / 7,P(B)=2/(20·365)=2/7300,P(A | B) = 0.9,按照公式很容易得出结果:P(B|A)=0.9*(2/7300)*(7/3)=0.00058 另一个例子 ,现分别有 A,B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少? 假设已经抽出红球为事件 B,从容器 A 里抽出球为事件 A,则有:P(B) = 8 / 20,P(A) = 1 / 2,P(B | A) = 7 / 10,按照公式,则有:P(A|B)=(7 / 10)*(1 / 2)*(20/8)=7/8 贝叶斯公式为利用搜集到的信息对原有判断进行修正提供了有效手段。在采样之前,经济主体对各种假设有一个判断(先验概率),关于先验概率的分布,通常可根据经济主体的经验判断确定(当无任何信息时,一般假设各先验概率相同),较复杂精确的可利用包括最大熵技术或边际分布密度以及相互信息原理等方法来确定先验概率分布。 贝叶斯公式如下图: 概率论只不过是把常识用数学公式表达了出来。 ——拉普拉斯
个人分类: 科苑星空|7475 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 04:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部