科学网

 找回密码
  注册
科学网 标签 贝叶斯 相关日志

tag 标签: 贝叶斯

相关日志

中国科学院西双版纳热带植物园5至6月培训项目报名通知
lauccy 2020-4-28 17:47
鉴于目前国内新冠疫情逐步得到控制,全国各地逐步复工复产,现将 5-6 月份要举办的 4 个培训班给大家做一个简单介绍,欢迎报名参加。    1. 2020 年 5 月 16 - 17 日 Meta 分析 在线培训(中文授课) XTBG 合办 http://www.xtbgeet.com/?p=38070    详细讲解 meta 分析核心统计原理,结合软件( OpenMEE 和 R )逐步讲解进行 meta 分析的步骤、注意事项,提供真实数据进行练习,组建 qq 群进行培训前预习指导及培训后答疑。    2 . 2020 年 5 月 23 - 24 日 混合效应模型及其贝叶斯实现 在线培训(中文授课) XTBG 合办 http://www.xtbgeet.com/?p=38074    快速总结复习统计分析基础(常见误区、问题与解决方案),深入分析混合效应模型的逻辑原理、优势,介绍如何用 R 进行混合效应模型分析及结果的解读,详细讲解混合效应模型应用(随机效应及其结构的确定、参数估计方法、模型对比,解释度, power 分析等)及混合效应模型的拓展(线性混合模型,广义线性混合模型,非线性模型等)与自动模型选择,参数提取、预测与作图,贝叶斯统计的基本原理介绍,贝叶斯线性模型与广义线性模型,贝叶斯线性混合效应模型和广义线性混合效应模型,贝叶斯 R2 , ICC 与方差分解与贝叶斯 meta 分析,用 R 进行贝叶斯混合模型实际应用案例讲解与重现, 组建 qq 群进行培训前预习指导及培训后答疑。       2. 2020AdvancedStatisticsWorkshop(8-14June, teachinginEnglish)    http://www.xtbgeet.com/?p=38029    Module1:Revisionoflinearmodelsandgeneralisedlinearmodels    Module2:Dealingwithgroupeddata:Linearmixedmodels    Module3:Dealingwithgroupeddata:generalizedlinearmixedmodels    Module4:Dealingwithnon-independentdatathatcannotbegrouped:generalizedleastsquares    Module5:Dealingwithphylogeneticallycorrelateddata    Module6:Exerciseandrevision    4. 2020 年 6 月 23-26 日 物种分布模型及生物多样性热点区域分析培训班 (中文授课) http://www.xtbgeet.com/?p=38215    ArcGIS 基础、 ArcGIS 高级、物种分布模型及生物多样性热点区域分析原理、案例及 Maxent 操作流程
个人分类: 资讯|2050 次阅读|0 个评论
每日翻译20190712
Bearjazz 2019-7-12 07:06
# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz Here, we present a major new version of the molecular evolutionary software package Bayesian Evolutionary Analysis by Sampling Trees (BEAST), updated to version 1.7, and representing a signifcant software advance over that previously described (Drummond and Rambaut 2007). Alongside the primary analysis engine in BEAST, this package also includes a suite of utilities for specifying the analysis design, processing output files, and summarizing and visualizing the results. Taken together, these programs enable Bayesian inference of molecular sequences with an emphasis on time-structured evolutionary models including phylodynamic models, divergence time estimates, multiloci demographic models, gene–/species–tree inference, a range of spatial phylogeographic analyses, and discrete and continuous trait evolution. Implementing Markov chain Monte Carlo (MCMC) algorithms to perform these inferences, the package is intended and used for rigorous statistical inference and hypothesis testing of evolutionary models with joint inference of phylogeny. It is also possible to constrain portions of the phylogenetic model space to known values, including the tree topology, and perform conditional inference if required. 在这里,我们提出了 BEAST 一个重要更新版本( 1.7 版),相较先前介绍的版本( Drummond and Rambaut 2007 )它代表了一个显著的软件进步。除了 BEAST 中的主要分析核心要件外,此软件包还包括一套用于指定分析设置、处理输出文件以及汇总和可视化结果的实用程序。综合起来,这些程序使分子序列的贝叶斯推断成为可能,重点是时间结构进化模型,包括系统动力学模型、分化时间估计、多基因座种群模型、基因 / 物种树推断、空间分布范围系统地理分析,以及离散和连续的特征进化。利用马尔可夫蒙特卡罗( MCMC )算法实现这些推断,并将其应用于系统发育联合推论的进化模型的严格统计推断和假设检验。还可以将系统发育模型空间的一部分限制为已知值,包括树拓扑结构,并在需要时执行条件推断。 Drummond A J , Suchard M A , Xie D , et al. Bayesian Phylogenetics with BEAUti and the BEAST 1.7 . Molecular Biology and Evolution, 2012, 29(8):1969-1973.
个人分类: 翻译作品|1378 次阅读|0 个评论
每日翻译20190711
Bearjazz 2019-7-12 07:04
# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz Molecular sequences, morphological measurements, geographic distributions, and fossil remains all provide a wealth of potential information about the evolutionary history of life on Earth, the dynamics of ancient and modern biological populations, and the emergence and spread of infectious diseases. One of the challenges of modern Evolutionary Biology is the integration of these different data sources to address evolutionary hypotheses over the full range of spatial and temporal scales. The field is witnessing a transition to an increasingly quantitative science. This transformation began first through an explosion of molecular sequence data with the parallel development of mathematical and computational tools for their analysis. However, increasingly, this transformation can be observed in other aspects of Evolutionary Biology where large global databases of complementary sources of information, such as fossils, geographical distributions, and population history, are being curated and made publicly available. 分子序列、形态测量、地理分布和化石遗迹都提供了大量关于地球生命进化史、古代和现代生物种群动态以及传染病出现及传播的潜在信息。现代进化生物学的一个挑战是整合这些不同的数据源,以解决全时空尺度上的进化假设。这一领域见证了一个越来越向定量科学过渡的过程。这种过渡是从分子序列数据爆炸式增长,伴随相应分析的数学和计算工具的开发开始的。然而,这种转变越来越多地可以在进化生物学的其他方面观察到,在这些领域,大量的全球互补信息源数据库(如化石、地理分布和种群历史)正在被建立和公开。 Drummond A J , Suchard M A , Xie D , et al. Bayesian Phylogenetics with BEAUti and the BEAST 1.7 . Molecular Biology and Evolution, 2012, 29(8):1969-1973.
个人分类: 翻译作品|1440 次阅读|0 个评论
每日翻译20190710
Bearjazz 2019-7-12 07:02
# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz Computational evolutionary biology, statistical phylogenetics, and coalescent-based population genetics are becoming increasingly central to the analysis and understanding of molecular sequence data. We present the Bayesian Evolutionary Analysis by Sampling Trees (BEAST) software package version 1.7, which implements a family of Markov chain Monte Carlo (MCMC) algorithms for Bayesian phylogenetic inference, divergence time dating, coalescent analysis, phylogeography, and related molecular evolutionary analyses. This package includes an enhanced graphical user interface program called Bayesian Evolutionary Analysis Utility (BEAUti) that enables access to advanced models for molecular sequence and phenotypic trait evolution that were previously available to developers only. The package also provides new tools for visualizing and summarizing multispecies coalescent and phylogeographic analyses. BEAUti and BEAST 1.7 are open source under the GNU lesser general public license and available at 计算进化生物学、统计系统发育学和基于溯祖理论的群体遗传学正日益成为分析和理解分子序列数据的焦点。我们提出了 BEAST (基于抽样树的贝叶斯进化分析) 1.7 版软件包,该软件包使用马尔可夫链蒙特卡罗( MCMC )算法,实现贝叶斯系统发育推断、分化时间推定、溯祖分析、系统地理学和相关分子进化的一系列分析。软件包包括一个名为 Bayesian 进化分析程序( BEAUti )的图形增强用户界面程序,允许访问分子序列和表型特征进化的高级模型,这些模型以前只供开发人员使用。该包还提供了可视化的综合多物种溯祖分析和系统地理学分析的新工具。 BEAUti 和 BEAST 1.7 是 GNU 标准较低通用公共许可证下的开源软件,可从以下网址下载: http://beast-mcmc.googlecode.com and http://beast.bio.ed.ac.uk . Drummond A J , Suchard M A , Xie D , et al. Bayesian Phylogenetics with BEAUti and the BEAST 1.7 . Molecular Biology and Evolution, 2012, 29(8):1969-1973.
个人分类: 翻译作品|1659 次阅读|0 个评论
[转载]量子贝叶斯资源集合
quantumchina 2018-11-19 18:35
量子贝叶斯资源集合 1,浅谈 量子贝叶斯 http://www.sohu.com/a/139858153_297710 2,概率的烦恼:量子贝叶斯拯救薛定谔的猫(在线免费电子书) https://yuedu.baidu.com/ebook/91596f5bf4335a8102d276a20029bd64783e62e2 \0 \0
个人分类: 量子理论|793 次阅读|0 个评论
德国坦克问题-再谈贝叶斯
热度 7 tianrong1945 2018-3-13 07:30
《概率统计系列 - 结束篇》 本文借一个二战中的概率统计问题“德国坦克问题”,再次将频率学派与贝叶斯学派做一比较,也算是作为间断了一段时间的“概率统计系列”之结束篇。 频率学派和贝叶斯学派最大的差别是在于对物理世界建模时使用的参数的认知。频率学派认为模型的参数是固定的,真实而客观存在的。他们的方法,是使用最大似然( maximum likelihood )以及置信区间( confidence interval ),以便找出这个参数的真实值。而贝叶斯学派恰恰相反,不关心参数的所谓“真实值”,关心的是参数的每一个值的可能性,即参数的概率分布。贝叶斯学派将参数看作是随机变量,每个值都有可能是真实模型使用的值,区别只是概率不同而已 【 1 】 。 在数理统计学中,经常使用似然函数来描述统计模型中的参数,由此函数的最优化来估算参数的方法叫做“最大似然估计”。 似然函数是什么?“似然性”一词与“概率”一词意义相近,都是指某种事件发生的可能性。似然函数与之前介绍过的概率分布函数有关,他们的函数形式有可能相同,但在统计学中,两者在概念上有着明确的区分:概率分布函数是随机变量的函数,参数固定;似然函数是参数的函数,随参数之变化而变化。 从概率的角度看,也可以说,两种方法的差异来自于使用条件概率还是使用边缘概率。如果有两个以上的随机变量,通常用它们的联合概率分布来描述其在多维空间的随机性。如图 1 表示随机变量 X 和 Y 的联合概率分布以及边缘概率。 图 1 :联合概率边缘化 频率学派将模型参数看着是固定的,贝叶斯学派则把参数也看着是随机变量,也符合某种分布,这是两者的根本区别。 贝叶斯学派的想法其实更为自然,这也是为什么贝叶斯学派的产生远早于频率学派,但当电子计算机技术尚未出现时,大大限制了贝叶斯方法的发展。频率学派主要使用最优化的方法,处理起来要方便很多。如今,贝叶斯学派重新回到人们的视线中,日益受到重视。两个学派除了在参数空间的认知上有区别以外,方法论上都是互相借鉴也可以相互转化的。 因为贝叶斯派认为所有的参数都是随机变量,都有分布,因此可以使用一些基于采样的方法(如 MCMC )使得我们更容易构建复杂模型。频率派的优点则是没有假设一个先验分布,因此更加客观,也更加无偏,在一些保守的领域(比如制药业、法律)比贝叶斯方法更受到信任。 贝叶斯派认为参数不确定。有时候,这种不确定性是物体的固有属性,是独立于主观因素的客观存在。比如硬币或骰子,它的物理偏向性如何?某一面出现的概率是多少?是否“公平”?这些都是在物体的制造过程中决定了的,原则上可用频率派多次实验的方法来探索它的概率。但在某些情形,“不确定性”的客观意义并不显而易见,例如在清华对北大的某次篮球赛中,某人预言清华队“赢”的概率,是他的个人观点结合两个球队实力得出的主观猜测,这时候,使用贝叶斯定理逐次更新概率模型的方法更为合适。 图 2 :两学派对参数的不同观点 图 2 表示两大学派从不同角度来看待物理参数:频率学派认为参数值是固定的,使用多次测量来逼近这个固定值。贝叶斯学派从固定的样本区间,考虑参数所有可能值,用实验结果来更新参数取值的概率。 德国坦克问题 — 贝叶斯推断 下面 我们用一个简单的例子:第二次世界大战中的德国坦克问题,来说明 频率学派和贝叶斯学派处理统计推断问题时的区别。 当年,德国佬正在大规模地生产坦克,盟军想要知道他们每个月的坦克产量数。为了了解这个信息,盟军采取了两种方法:一是根据情报人员刺探的消息而得到,另一种是根据盟军发现和截获的德国坦克数据,用统计分析办法得到。根据第一种方法得到的情报,德军坦克每个月的产量大约有 1400辆,但根据概率统计推断的方法,预计的数量只有数百辆。二战之后,盟军对德国的坦克生产记录进行了检查,发现统计方法预测的答案(见表1)令人惊讶地与事实符合 【 2】 ,统计学家们是怎么做到这点的呢? 表1(来自维基百科) 那时候,德国制造的每一辆坦克上都有一个序列号。假设德国每个月生产一批坦克,从 1到最大值N顺序排列,因此,可以把这个最大编号N,当作每个月总的生产量。盟军发现和截获的任何德国坦克上的序列号,都应该是介于1和N之间的一个整数,根据这些截获坦克序列号的数据,如何来猜测总的生产数N?这是当年的战争给数学家们提出的难题。 这是一个统计推断的问题,也就是从观察到的数据样本(序列号),来推断随机变量的某些整体参数( N)。如今思考这个问题,有两种不同的推断方法:经典方法和贝叶斯推断。 经典统计推断包括几个基本原则:最大似然(概率)估计、最小方差、无偏性等等。简单而言,经典统计使用求极值的方法,让选取的某个似然函数最大化,同时也考虑样本平均平方差最小化,而无偏性指的则是尽量使得样本平均值等于整体平均值。 比如说,先考虑最简单的情况:在某个月内,盟军只发现了 1辆德国坦克,其标号为60,那么,你如何来估计德国在这个月生产坦克的总数N?也许读者会说:“你疯了!只有这么1个数据,有什么可估计的?还能使用什么统计方法吗?参数N是任何数值都有可能的,只能随便猜测一个啦!” 不过,你的说法显然不正确。首先, N不可能是任何数,N的值起码要大于或等于60!严肃的统计学家就更不会这么说了,即使对如此少量的数据,他仍然可以进行他的统计推断。 图 3:截获任何一辆坦克的概率vs坦克总数 第一,为了估计真实的总产量数 N 0 ,他需要构造一个概率函数,称其为似然函数。设想:如果这批坦克生产的总数是N的话,根据等概率原则,拦截到1到N中任何一个编号的坦克的可能性都相同,均为1/N。也就是说,截获任一辆坦克的概率是坦克总数N的函数:N越大,即生产的坦克数越多,截获某个编号坦克的概率便越小。概率随N的变化情形,如图3所示的一截双曲线。这个概率分布曲线,便可选作似然函数。 最大似然估计的目标是找出概率最大的点对应的 N 0 ,因为这个问题中,N越小概率越大,所以得到在最大化概率点的N 0 =60,即图3中曲线最左边的起始点。 经典方法的第二个考虑是最小化均方差( MSE)。为此,我们假设总产量N不是刚好等于60,而是乘以一个大于1的因子a。想象盟军看到了N个坦克中所有的坦克,那么,均方差可以按照如下方法计算并最优化,再求最小值。 图 4:将均方差最小化 从上面的计算结果,当坦克总数 N比较大时,相乘的因子a近似为3/2,由此可将N 0 的估计值从60,调节到N 0 (均方差最小) = 60×3/2 = 90。 最后,还得考虑样本的无偏性。如果 N 0 =60的话,这个样本太不符合“无偏”的条件了,既然每一辆坦克被发现的概率都是一样的,凭什么盟军截获了一辆坦克就截到了最后生产的那一辆呢?这听起来太奇怪了,N 0 =90也不符合无偏,最符合无偏条件的就是截获的是序号为中间的那一辆,它的序号使得样本序号的平均值等于整体所有样本序号的平均值。也就是说,无偏的N 0 被估计为60的两倍,N 0 (无偏)=120. 真不愧为数学家,仅仅截获到 1辆坦克,就有这么多的考虑,如果截获了更多呢?我们可以将问题一般化,以上经典学派的思考方式也可以推广到一般的情况,简单叙述如下: 问题:盟军发现了 k辆坦克,序号分别为i 1 ……i k ,最大的序号是m,估计总数N 0 。 经典推断方法的答案: N 0 = m + (m-k)/k。 比如说,盟军发现了 5辆坦克,其序列号分别为215、90、256、248、60,因此,k = 5,m = 256。从以上经典方法的公式,得到坦克未知的总数N 0 = 256 +(256-5)/5 = 306。 贝叶斯推断 【 3】 以上使用的是经典统计推断方法,贝叶斯学派又如何解决德国坦克问题呢? 贝叶斯派的估算方法比频率派的方法更为有趣和更有意思。刚才说过,贝叶斯派有别于频率派的重要差别之一是对“参数”的看法。频率派认为物理参数是固定不变的,比如这儿的参数 N,经典方法的目的是要找出这个N。而按照贝叶斯派的观点,物理参数不一定是固定的,对外部观察者而言,它们也可以被认为是随机变量。因此,贝叶斯推断企图追踪的不是模型参数N本身,而是参数N取各种可能值的分布情况。贝叶斯派解决坦克问题的思想是:未知欲求的生产量N是一个服从某种概率分布的随机变量。随着数据样本的增加,N的概率分布函数不断被更新,贝叶斯推断描述这个更新的过程。 以刚才截获 5辆坦克的具体数据,来说明贝叶斯派的推断过程。 假设盟军截获的第一辆坦克序列号是 215,从前面频率派方法最开始的一段分析可知,对应这1个样本,N可能是从215开始的任何整数,但是,N值越大,概率越小,我们暂时忽略N值大于1000的情况,可以画出N的概率分布是类似于图3的双曲线,不同的是曲线的起始点和形状,图3中的曲线参数N 0 =60,这儿的参数N 0 =215,见图5a中最大值在N 0 =215处的“序列号215分布”曲线(蓝色)。 图 5:贝叶斯推断解决德国坦克问题 现在,我们加上第二辆坦克的信息:序列号 90。因为90小于215,它的出现并不改变似然函数的最大值,但是它却对N的分布曲线有所影响,两个变量的联合分布曲线用图5a中的红线表示,这也是加上第二个数据之后更新了的参数分布。如图可见,序列号90的数据使得概率分布曲线变得更尖锐,说明N的较大数值出现的概率大大降低。 如果再加上后面 3个样本:序列号256、248、60,五个样本的联合分布变得更为尖锐,峰值是256,N=400到1000的概率已经几乎为0,可以忽略不计了,如图5b所示。 在这个具体例子中,最后对 N 0 的估计:频率派的N 0 = 306,与贝叶斯派的N 0 = 256相差不大,难分孰优孰劣。然而,通过该问题,我们简单了解了频率派和贝叶斯派的不同思考方法。 不少学者认为贝叶斯分析的方式和人脑的工作机制有相似之处,这也是为什么近年来将贝叶斯统计方法广泛应用于人工智能研究,特别是机器学习领域的原因之一。当今人工智能技术的崛起,部分归功于计算和统计的联姻,实际上也就是说,归功于计算机和贝叶斯方法的联姻。 参考文献: 【 1 】 Aldous, D. J. (1985). Exchangeability and related topics. Lecture Notes in Mathematics. 1117. pp. 1–1. 1983. 【 2 】 Ruggles, R.; Brodie, H. (1947). An Empirical Approach to Economic Intelligence in World War II. , Journal of the American Statistical Association. 42 (237): 72. 【 3 】 Edwin Thompson Jaynes. Probability Theory: The Logic of Science. , Cambridge University Press, (2003).
个人分类: 系列科普|24685 次阅读|8 个评论
[转载]怎么设置贝叶斯Mrbayes中各种碱基替换模型参数
Bearjazz 2018-1-21 17:42
# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz ##GTR lset applyto=() nst=6 # GTR lset applyto=() nst=6 rates=propinv # GTR + I lset applyto=() nst=6 rates=gamma # GTR + gamma lset applyto=() nst=6 rates=invgamma # GTR + I + gamma ##SYM lset applyto=() nst=6 # SYM prset applyto=() statefreqpr=fixed(equal) lset applyto=() nst=6 rates=propinv # SYM + I prset applyto=() statefreqpr=fixed(equal) lset applyto=() nst=6 rates=gamma # SYM + gamma prset applyto=() statefreqpr=fixed(equal) lset applyto=() nst=6 rates=invgamma # SYM + I + gamma prset applyto=() statefreqpr=fixed(equal) ##HKY lset applyto=() nst=2 # HKY lset applyto=() nst=2 rates=propinv # HKY + I lset applyto=() nst=2 rates=gamma # HKY + gamma lset applyto=() nst=2 rates=invgamma # HKY + I + gamma ##K2P lset applyto=() nst=2 # K2P prset applyto=() statefreqpr=fixed(equal) lset applyto=() nst=2 rates=propinv # K2P + I prset applyto=() statefreqpr=fixed(equal) lset applyto=() nst=2 rates=gamma # K2P + gamma prset applyto=() statefreqpr=fixed(equal) lset applyto=() nst=2 rates=invgamma # K2P + I + gamma prset applyto=() statefreqpr=fixed(equal) ##F81 lset applyto=() nst=1 # F81 lset applyto=() nst=1 rates=propinv # F81 + I lset applyto=() nst=1 rates=gamma # F81 + gamma lset applyto=() nst=1 rates=invgamma # F81 + I + gamma Jukes Cantor lset applyto=() nst=1 # JC prset applyto=() statefreqpr=fixed(equal) lset applyto=() nst=1 rates=propinv # JC + I prset applyto=() statefreqpr=fixed(equal) lset applyto=() nst=1 rates=gamma # JC + gamma prset applyto=() statefreqpr=fixed(equal) lset applyto=() nst=1 rates=incgamma # JC + I + gamma prset applyto=() statefreqpr=fixed(equal) 转载自以下网址 https://gist.github.com/brantfaircloth/895282 注:K80模型设置同 HKY
个人分类: 我的研究|4688 次阅读|0 个评论
Mrbayes出错原因
Bearjazz 2017-7-22 14:38
# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 有段时间没用Mrbayes建树了,最近再使用时老是出现一个问题: Could not open file DatasetA03.nex.run1.p 使用时老是说无法打开这个文件,我以为是系统问题,便重新安装了好几回Mrbayes,没有解决; 后来读屏幕上的信息发现,这个打不开的文件应该是 Mrbayes自己生成的,可是在文件夹里没有看到呀。 又用英文搜索了错误情况,读到了老外的原因分析,……,简单的说可能就是权限问题,这下才恍然醒悟,我的 Mrbayes是安装在C盘的(C:\Program Files (x86)\mrbayes32),每次往C盘粘贴个什么文件都会跳出一个对话框要求我提供权限…… 于是我重新找到了,我以前安装在D盘的 Mrbayes目录,在其中运行了,成功了。
个人分类: 我的研究|7568 次阅读|0 个评论
检测诊断与贝叶斯公式
热度 15 xying 2017-4-29 08:26
张老师贴个科普概率的帖子,用了贝叶斯公式,联系起仪器性能指标与预测的准确率,它们都可以用概率来表示,却具有不同的含义,人们常把它们混为一谈。张老师的科普意在指出它们虽然不同,但存在着数学关系。质疑者困惑于仪器性能指标与判定概率的巨大反差,作了各类反应。至此楼歪了,质疑者多以无关概率计算的论据来评论这个故事,贝叶斯公式,知者固觉浅显,惘者益加不解,转为娱乐搞笑,科普反而造成吃瓜群众对概率更多的迷惑。 我现在换个方式,看能不能把它讲清楚。人们常用仪器或某种方法检测物品,这检测的只是物品的属性,却用以区别物品的分类。检测对分类的判断总是有误差的,这误差或精确性可以用不同方面的概率数值来表示。例如验尿查红血球,用来判断是否肾癌膀胱癌尿结石这类大病或者不是这些病。当然现在去医院不只查这一项,分类也不止怀疑这些病,医生喜欢一次开了一大堆检查,不用替病家省钱,我们只是用这种简化的例子,来说明几种概率间的关系,强调检测从来只是查属性,并不可能直接知道病类的本身,在血检和判病都是二分时,检测阳性只是预示可能有病,并非能够确定有病。但这个概率估计对你的进一步行动有指导意义。(被计算举例的批判搞怕了,先出一个罗嗦的免责声明,能接受想了解概率计算合理性的人往下看,只谈金标准的可以离席了)。 记 A 为有 x 病的事件, B 为检测到某个相关指标阳性的事件。检测机器的性能用两种指标来表示,有 x 病情况下检查出有关某指标为阳性的概率,称为敏感度( sensitivity ),用概率表示是 P(B|A) ,无 x 病查出阴性的概率,称为特异度( specificity ),为 P(~B|~A) ;检测出阳性被证实有病的概率,称为准确率( precision ),即 P(A|B) ,而检测用来辨识分类的正确率 Acc ,称为检验的精度( accuracy )。它们是模式辨识的标准术语。这四者都用百分比来表示,简称也相近,都是某种精确性的意思,人们常常把它们混淆起来。 一般检测的敏感度和特异度都很高,否则不好用来分类查病,但它们毕竟只是仪器或检测方法上的性能,并不代表着用它们来判断分类的准确率就很高。因为怕吃瓜群众没文化,一般检查都不告诉他们这些指标的概率,查到阳性接着查别的,这些指标留着专业人员看。美国医生常告诉病人,没专业知识不要上网查。要是作死自己上网查,见到 x 病血检阳性失误率只有 1% ,以为这就有 99% 的可能性中标,紧张起来就麻烦了。科学网有人建议,别给愚昧民众多罗嗦,直接告诉他这是两码事,接着查别的打发走就是了。张老师想科普贝叶斯,借医生安慰不安者的剧情,来解说正确的概率计算。这个计算就必须牵涉到群体的患病率 P(A) ,拿俗话来说,检测出阳性者的实际患病率,不仅与检测性能有关,还需要乘上世界人民的患病率。用贝叶斯公式表示如下: P(A|B)=P(A)P(B|A)/(P(A)P(B|A)+ (1-P(A)) (1-P(~B|~A)))) 比如说某种检测的敏感度 P(B|A)=99% ,特异度 P(~B|~A))=99% ,世界人民有 0.1% 得这病,检测判断为阳性事后,被证实确实有病其实只有 P(A|B)=9%. 这下有些人愤怒了,这原来查出阳性的 99% 检测精度,怎么经过计算就变成了 9% 了!这医生该打机器得砸! 张老师为了科普贝叶斯,故事里无意打破了医生忌禁的潜规则。如果不满这一点,说一句就是了。怕会引起群众的误解,就应该多做科普。用反对贝叶斯公式计算,压制群众求知,不是让人更加误解日常中许多的概率说法? 这里的贝叶斯公式改变了什么呢?不是一些人以为的 99% 准确率,经过计算变成了 9% ,而是对患病的估计,从 0.1% 的先验群体患病率,测得阳性指标后,升高到 9% 的后验可能性。那个 99% 是检测机器性能,它测的只是血中一些指标的敏感度和特异度,或者称作是真阳性和真阴性的概率,不是患病可能性。故事中的王宏弄不清它们的区别,科学网里有些人也是如此糊涂的。 从血检性能和群体患病率计算出阳性患病率,不同时期不同群体的患病率是不同的,因此同一个检测结果,对应着阳性患病率也是不同的,例如检测出 PSA 阳性,同一个数值,对男人和女人,对不同年龄段的人,预测前列腺癌的可能性都不一样。同一个阳性指标在平时和役病流行时预测的患病可能性也不同,这些已是常识。但想知道具体的概率数值,你就需要计算,因为检测说明书只能提供那些不随应用情况而变的敏感度和特异度功能性指标。具体应用群体的阳性患病率,必须通过贝叶斯公式来计算。有时对常见的不同群体,检测单位也预先算出列表供给医生和病人参考。但这不意味着机器性能指标和预测准确率没有贝叶斯这个关系。 为什么还要给群众科普?因为现在不实广告,专家误导太多,打官司查骗子,他们数据并非造假,吃瓜群众上当后,欲哭无泪,只怪自己没有文化。看下面例子。 某仪器广告说,它的灵敏度极高,只要有x病,检出率是99%,只卖99元为了扶贫。你很高兴买回来,发现只是个改制的体温计。得x病的有99%发烧,广告检出率数据并没错,得x病时确实有99%,它都显示出阳性。但综合其他数据算出这测有阳性真正患x病的不到2%,这是你自己无知没想到的。 某专家宣称重大发明,他先进的检测方法,只要测出阳性几乎99.9%证实都是癌症。他没造假,只是到了癌症晚期有大量癌细胞时,他的方法才能显示出阳性,这时99.9%确是癌症。你可能没想到,这预测准确性与要评估的检测功能指标是两回事。 有个机器坏了,运行很长时间后,统计发现它的检测正确率反而提高了,从过去还不错的99%,提高到99.9% ,原因是这坏的机器总是给出阴性的报告 ,而它检查那个病只有0.1%的患病率。 有人说这是玩数学游戏。对。但玩这游戏的是那些骗子,不是希望民众了解这些概率真正含义和正确计算方法的科普。 初等概率其实很简单,公式和推理不过是初中的数学,经典的例子不外乎扔钢蹦掷骰子。人人读后都以为懂了,其实很多人糊涂就在于,一开始就没弄清楚这些概率指的是什么。 P.S. 张老师科普故事的原文在假阴性、假阳性上有笔误,说“测试的准确性”比较含糊,但这些都不难从上下文中自己直接纠正。书刊论文都不如教科书那样反复校对,做研究的人通常以理解作者文中真义,而不是低看作者的方式来读顺这些笔误和含糊之处。我的文章一定也会有这类笔误,希望读者指出纠错,但如果讨论只着眼纠缠于这些细处那就没意思了。
个人分类: 科普|17988 次阅读|59 个评论
贝叶斯:99%的背后!
热度 18 xqhuang 2017-4-26 11:17
贝叶斯:99%的背后! 久闻应大侠怜香惜玉、仗义行仁,不想果然如此。 漂洋过海数十载后,张女侠练就了西洋贝叶斯武功秘籍,一时兴起,竟在众人面前炫摆了一番,却被一群叫花子围殴欺负后抱头暗泣。正周游世界的应大侠闻声赶来,用独创的“混沌功”弹出一根救命稻草:《 预测混淆与贝叶斯公式 》,张女侠抓草洒热泪一行:应大侠果然武功盖世,不愧是“天下第二”的逍遥侠,比我强太多了! 贝叶斯套路明显花拳绣腿,应大侠的混沌功粗看有点“无招胜有招”的味道,但仔细观察还是能发现不少BUG。应大侠在江湖以胜率99%得来了“天下第二”的美名,殊不知,这99%的胜率是完全基于对手100%不会武功的前提条件下刷出来的,如果对手中有千分之一会武功,应大侠的胜率将直降到9%,把应大侠扔进100%会武功的人群中,他的胜率只剩下可怜的1%,原来江湖神传99%胜率的逍遥侠不过是裘千丈的角色。 张女侠的贝叶斯99%与应大侠的混沌99%性质完全相同,都是忽悠指数!王宏例子中夺人眼球的99%概率,是仪器对已100%确认为X疾病的检测对象的统计结果,与应大侠99%胜率玩法如出一辙,这样玩出来的贝叶斯概率毫无悬念与疾病的罕见度有关。 与我一样,相信很多读者被张女侠的99%误导带进沟,贝叶斯概率的99%与公众常识的仪器测量准确率99%完全不是一回事,在医生的世界里,99%是可以任意修改的可调参数,只要医生乐意,一番贝叶斯后没病的可以变成有病、有病的可以变成没病,反正有概率当挡箭牌。先举两个发生在身边的真实例子: 例一 、大学同窗Y君,帅得不要不要那款,毕业后一路仕途春风,就在他要换档提速时刻,一次单位的例行体检发现了“大问题”,。。。医生认真地看着他的家属:你要有思想准备、要坚强,根据进口设备的检测数据,Y先生有99%的可能性得了X病,你知道X病目前几乎没治,我们建议从腿根处截肢,这样有99%的概率可以保命。在获悉99%真相后,Y君一夜白了头,下刀的前夜他做出了一生最英明的抉择:逃离医院!后来,Y君又辗转了多家医院,99%奇迹地变成了1%,一场虚惊! 例二 、同事A君,一日闲着忽觉蛋疼,急去医院就诊,整套检查完医生让速通知家属,。。。医生认真地看着他的家属:你要有思想准备、要坚强,A君的那个坏蛋必须立即切除,否则另一个99%的概率不保!希望你不要有心里担忧,“独头蒜更辣”是有科学根据的。家属签字后,A君被忍痛割爱。 几天后,医生的一席话让A君一家彻底奔溃:由于手术感染,A君的另一个蛋也必须摘除,否则99%的概率性命不保!无法面对无精岁月的A君态度非常坚决:要蛋不要命!听说后来换了医生,新医生采取了保守疗法,经过漫长的疗程,终于等来医生的微笑:“一个好消息一个坏消息,先听哪个?”,“好消息吧。”,“剩蛋快乐!”,“坏消息呢?”,“欲练此功,不必自宫!”,“啊!那前面算白宫了?”,。。。 想想这关乎生死的99%顿觉毛孔悚然,有多少无良医生为了利益巧借99%把无辜的人们送上手术台?必须说,张女侠的贝叶斯科普还是有意义的,她告诉我们不要轻信医生的99%, 99%背后是深不可测的医疗陷阱! ********************************** 很多人不理解我为什么要对张女侠的贝叶斯例子说三道四,下面举两个例子,您会接受哪个贝叶斯? 贝叶斯一、小水獭是美女吗? 小水獭是美女吗?爱管闲事的徐晓在科学网进行了网络投票,结果99%选是,于是,徐晓下结论:小水獭是美女。应大侠对此有不同看法,他认为小水獭是否美女是个贝叶斯问题,科学网美女到北京电影学院可能就不是美女,中国美女到世界可能也不是美女,所以,要正确回答小水獭是否美女?必须扯上全世界女人! 贝叶斯二、小水獭是女人吗? 小水獭是女人吗?高山医生利用最先进的生物仪器对小水獭进行了全面的检测,下结论:小水獭99%是女人。张女侠对此有不同看法,她认为小水獭是否女人也是贝叶斯问题,仪器的99%不足以让高医生下结论小水獭是女人,还要考虑女人的“珍稀度”。就是说,同一个小水獭,高医生在出小水獭是否女人的诊断报告时,还要考虑一个重要因素:小水獭是外语系还是物理系?
个人分类: 乱七八糟|7014 次阅读|72 个评论
贝叶斯:XX与YXX,谁当院士的概率更大?
热度 22 xqhuang 2017-4-20 12:29
贝叶斯:XX与YXX,谁当院士的概率更大? “概率”一词,已无孔不入地侵入现代人生活的方方面面,装NB也好、扮SB也罢,就像当年有人喜欢把U盘挂在胸前乱晃,把似懂非懂的“概率”挂在嘴边已成一种时尚。 人生,不过是一场确定性死亡的概率游戏? 这个清明节出了点意外,这么说吧,那一刻有很大的概率要与科学网永远了,上帝保佑!清明思故人,大学同窗可舟兄生前曾感叹:“上帝开了我个天大的玩笑!”,大名鼎鼎的霍金有个中国学生叫吴忠超(霍金科普著作的中译本,几乎都是他的杰作),可舟兄在美国与吴忠超做了N年面对面邻居,M年后,却不幸得了与霍金一模一样的病,以概率的语言,这算中头彩吧? 前些日子,死气沉沉的科学网好似恢复了一丁点人气,XX帮与YXX帮因张天蓉博主的博文《 概率论悖论 》而纠缠厮杀,双方火拼的根本原因是《概率论悖论》中的贝叶斯概率例子: 王宏去医院作验血实验,检查他患上了X疾病的可能性,其结果居然为阳性,把他吓了一大跳,赶忙到网上查询。网上的资料说,实验总是有误差的,这种实验有“百分之一的假阳性率和百分之一的假阴性率”。这句话的意思是说,在得病的人中做实验,有1%的人是假阳性,99%的人是真阳性。而在未得病的人中做实验,有1%的人是假阴性,99%的人是真阴性。于是,王宏根据这种解释,估计他自己得了X疾病的可能性(即概率)为99%。王宏想,既然只有百分之一的假阳性率,那么,百分之九十九都是真阳性,那我已被感染X病的概率便应该是99%。 可是,医生却告诉他,他被感染的概率只有0.09左右。这是怎么回事呢?王宏的思路误区在哪里? 医生说:“百分之九十九?哪有那么大的感染几率啊。99%是测试的准确性,不是你得病的概率。你忘了一件事:这种X疾病的正常比例是不大的,1000个人中只有一个人有X病。” 医生的计算方法是这样的:因为测试的误报率是1%,1000个人将有10个被报为“假阳性”,而根据X病在人口中的比例(1/1000=0.1%),真阳性只有1个。所以,大约11个测试为阳性的人中只有一个是真阳性(有病)的,因此,王宏被感染的几率是大约1/11,即0.09(9%)。 问题:王宏“中枪”的概率到底是99%还是9%? 提到贝叶斯,自然想起黄金时期的科学网和老邪博友。大约是三年前,老邪因一双布鞋而意外成为网红,那段时间老邪写了多篇关于贝叶斯的博文,出于娱乐博眼球,我无脑地跟风了一篇:《 老邪、外国女郎与蕾丝内裤 》,虽然老邪宽宏大量不计小人过,我还是知趣地选择了隐藏博文。今天重读老邪当初的私信留言,仍能感受到他老人家的智慧和独特人格魅力。 写那篇博文,除了娱乐更想表达本人对概率的一贯“偏见”:概率不是严格意义下的科学,概率论在科学研究中的所谓应用,更像是公婆说理、神仙算命,算不清、理还乱,99%与9%之争就是最好的例证。贝叶斯概率乱象的背后一定存在更深层次原因,我认为根源在“条件概率”,本文就试着“摆事实讲道理”,顺便给出一个概率判据:XX与YXX谁更接近真相? “概率”点破了就是一种数学游戏,其基础是游戏玩家可以有意无意地利用“障眼法”实现不确定性,比如暗箱摸球、掷骰子、投硬币等,它们的“概率性”都是人为创造出来的,只要玩家愿意,这些“概率”都是确定性地可调可控,本文就不具体展开讨论了。 下面我将利用投硬币讲解“条件概率”,所谓“条件概率”(或后验概率),就是指在事件B已经发生的前提条件下,再发生事件A的概率,数学上用P(A|B)来表示,它满足:P(A|B)=P(AB)/P(B),其中P(AB)代表A和B事件同时发生的概率、P(B)代表B事件独立发生的概率(或先验概率)。 问题一(无条件概率): 如上图(a),一枚硬币随机投2次(第一次用B记、第二次用A记),问:二次全是正面的概率是多少?答:P(AB)=1/4; 问题二(条件概率): 如上图(b),已知第一次投币是正面(相应的先验概率P(B)=1/2),问:第二次也是正面的概率(条件概率)是多少?答:P(A|B)=P(AB)/P(B)=(1/4)/(1/2)=1/2。大家不难看出,无条件概率与条件概率的本质差异,前者是双随机事件、后者已退化为单随机事件。 谨记:先验概率与对应的条件概率(后验概率)之间是存在严格的因果关系,或它们是关联配对纠缠的,切莫乱点鸳鸯谱。 贝叶斯定理可以用公式表示为: 科学网有多篇博文对上式的“科学价值”进行过专业解读,反正我是似懂非懂,在《概率论悖论》一文,张天蓉博主利用它研究了王宏的“中枪率”,作为普通大众我同样困惑:先进仪器锁定的99%可能性的疑似X病王宏,为什么要扯上毫无关系的全世界人民 ?本人的观点:这是胡扯!理由:X病在公众的发病率与仪器测试的准确率之间不存在任何因果关联,两者不能建立条件概率关系。 举例证明,假设XX与YXX博主同时参加院士竞选并成功杀入最后一轮,根据历史统计数据,他们能最终当选的概率为80%,显然,如果不考虑其它因素(是否海龟?是否985?是否院士弟子?是否有NSC论文?是否有国家大奖?。。。),XX与YXX都有80%的可能性最后当选。张天蓉博主肯定不同意这个结论,以张博主的思维:XX与YXX最后当选院士的概率要远低于80%,因为必须考虑,在全国人民中院士人数仅占百万分之一的事实。张博主,被概率是统计局的把戏,请不要乱借全国人民的名义,这事与人民无关! 作为最基本的科学素养,玩科研首先要明确研究对象,否则就是瞎玩。如果一定想对院士评选玩条件概率,第一、必须明确院士(已投硬币)和准院士(将投还未投的硬币)才是研究对象;第二、在已当选的院士中寻找有参考意义的先验概率(相当于已投出并确定正反面的硬币),比如,当选院士的海龟65%、985毕业85%、有国家大奖90%、男性98%、年龄60岁以下75%、。。。;第三、在院士与准院士之间建立条件概率关系。同理,王宏的贝叶斯可以这么玩,第一、已确认X病患者和疑似X病患者为研究对象;第二、在确认X病患者中寻找先验概率,比如,X病患者中XX染色体的中枪率为20%、YXX染色体的中枪率为80%;。。。 XX与YXX,谁当院士的概率更大?很多人以为评院士也是一个概率问题,其实,不过也是一场确定性结果的概率游戏。
个人分类: 乱七八糟|9252 次阅读|97 个评论
贝叶斯公式导向的生活经验——打电话与工作忙
热度 1 mineralter 2016-12-6 12:23
定义基本概率事件 P(A) :与家人通电话的概率; P(B) :工作很忙的概率; P(A|B) :在工作很忙的时候,还和家里人打电话的概率; P(B|A) :一打电话那会儿,工作正忙的概率。 为了少于家人聊天,避免家里人老是影响自己的工作事业,我们要让他们认为每次打电话,都是工作繁忙期间。于是就要增大 P(B|A) 。 根据贝叶斯公式: P(B|A)= P(A|B) P(B) /P(A). 增大 P(A|B) :在工作时间段的时候,才接受家里面人打电话.而且每次打电话 只聊工作上的事情 , 都求助一些特別重要的事情(比如方法失敗、资金流轉出現問題)。 增大 P(B) :充实自己的工作时间,给自己时刻都留足工作繁忙的聊天内容。也可以让自己在外观上有所表现(就是工作繁忙的表现,每个人每种工作都有自己的表达形式)。 减小 P(A) :不要天天连通电话,把频率降低。 为了和某些人多通电话,我们应该减小 P(B|A) 。这类人是谁,你懂得,方法你可以自寻。 或者为了表现孝心,我们要让他们觉得这是在工作繁忙的情况下,给他们通的电话。于是就增大 P(A|B) 。 根据贝叶斯公式: P(A|B)= P(B|A) P(A) / P(B). 增大 P(B|A) :每次打电话的时候,多给家里面的人抱怨工作繁忙,目的是让他们觉得这会儿你很忙。 增大 P(A) :多和家里人打电话,在频率和时间上增加。 减小 P(B) :减小自己的工作时间,多给自己放松的时间。做些其他业余的事情,比如谈朋友,谈人生等等,积累聊资。那么在聊的时候,就让他们觉得你的工作时间不多,剩下的时间在考虑和他们有关的事情。而且专门挑只在工作忙的时候给他们打电话,小投资大回报----平时闲的要死,我一工作就定时给你们打电话.还要给他们造成一种假象,我平时闲的很. 就最近才忙起来( 嘿嘿嘿 ,我就只在这会儿给你们打)... 有感:任何生活经验做法,有人只能用文字叙述,无法抽象成统一的数学语言或者一般性规律的东西,缺乏理论依据。对于这类事件,我往往不太容易相信。但是贝叶斯公式的出现代表了一类方法原则 。 从《 思考 的乐趣 matrix67 数学笔记》获得的数学笔记。
个人分类: 无聊八卦|962 次阅读|1 个评论
Tree-ring Research Express 20160203
zhuhf 2016-2-3 11:38
1. European summer temperatures since Roman times Luterbacher et al., 2016 ERL The spatial context is critical when assessing present-day climate anomalies, attributing them to potentialforcings and making statements regarding their frequency and severity in a long-term perspective. Recentinternational initiatives have expanded the number of high-quality proxy-records and developed newstatistical reconstruction methods. These advances allow more rigorous regional past temperaturereconstructions and, in turn, the possibility of evaluating climate models on policy-relevant, spatiotemporalscales. Here we provide a new proxy-based, annually-resolved, spatial reconstruction of theEuropean summer(June – August)temperature fields back to 755 CE based on Bayesian hierarchicalmodelling (BHM), together with estimates of the European mean temperature variation since 138 BCEbased on BHM and composite-plus-scaling (CPS). Our reconstructions compare well with independentinstrumental and proxy-based temperature estimates, but suggest a larger amplitude in summertemperature variability than previously reported. Both CPS and BHM reconstructions indicate that themean 20th century European summer temperature was not significantly differentfrom some earliercenturies, including the 1st, 2nd, 8th and 10th centuries CE. The 1st century (in BHM also the 10thcentury) may even have been slightly warmer than the 20th century, but the difference is not statisticallysignificant. Comparing each 50 yr period with the 1951 – 2000 period reveals a similar pattern. Recentsummers, however, have been unusually warm in the context of the last two millennia and there are no30 yr periods in either reconstruction that exceed the mean average European summer temperature of thelast 3 decades(1986 – 2015 CE). A comparison with an ensemble of climate model simulations suggeststhat the reconstructed European summer temperature variability over the period 850 – 2000 CE reflectschanges in both internal variability and external forcing on multi-decadal time-scales. For pan-European temperatures we find slightly better agreement between the reconstruction and the model simulationswith high-end estimates for total solar irradiance. Temperature differences between the medieval period,the recent period and the Little Ice Age are larger in the reconstructions than the simulations. This mayindicate inflated variability of the reconstructions, a lack of sensitivity and processes to changes in externalforcing on the simulated European climate and/or an underestimation of internal variability oncentennial and longer time scales.
个人分类: Tree-Ring Research Express|1724 次阅读|0 个评论
系统发育重建中主流算法的未来走向
热度 6 hypermarket 2015-12-13 12:33
系统发育重建中会被使用到的算法大体包括最大简约法(maximum parsimony, MP),非加权组平均法(unweighted pair-group method with arithmetic means, UPGMA),邻接法(neighbor-joining method, NJ),最小进化法(minimum evolution, ME),最大似然法(maximum likelihood, ML),贝叶斯推断(Bayesian inference, BI)。这其中,UPGMA、NJ、ME都属于距离算法(distance method),从根本上讲属于数值分类学派-遗传距离思想的衍生产物。虽然说今天的分类学研究中,分支分类、数值分类、进化分类三者之间的竞争远不像曾经的那样激烈,而是各取所长融合而成,但是各派的主要贡献内容还是比较分明的。分支分类学派主要贡献了对于类群间关系和特征类型的精确定义,数值分类学派主要贡献了对于大数据量、多位点、量化建模的强调,进化分类学派主要贡献了对于进化支长、分歧时间等方面的重视。由于UPGMA、NJ、ME都从遗传距离而不是特征状态出发,与分支分类学的基本思想存在本质区别,再加上在系统发育研究实践中的表现普遍不佳(主要是在高级阶元问题上),因而并未被分类学家普遍采用。 从表面上看,ML在实践中似乎与NJ和ME很相似,都会使用分子进化模型,但是那是因为一般的研究者在使用软件进行系统发育重建的过程中体会不到“基于距离”与“基于特征”这样隐藏的却同时也很本质的区别。也就是说,ML是融合了分支分类学派“基于特征”和数值分类学派“量化建模”优点的一种算法,并且在结果中也能很好地体现进化分类学派所强调的进化支长。BI与ML在计算流程上虽然有区别,但是在本质上也是以似然值作为评价树的标准,只不过不是强调似然值最优的树,而是强调包括似然值最优树在内的一个树的集合的总体表现(集合中的非最优树与最优树的似然值差异不显著,也就是所谓“收敛”的结果)。在计算效率上,BI曾一度占优(2003-2013),但是面对组学大数据时,在与RAxML的竞争中处于弱势(可能与树形空间扁平化导致收敛效率减低有关)。因此从目前各方面综合来看,ML明显占优。 但是,不同算法表现差异这个事情的真相是否已经大体揭晓?这个时候,我们应该意识到,上述讨论中其实尚未涉及一个更为基本的问题,那就是数据本身。在“目前分子系统发育研究中的两点局限性”一文中( http://blog.sciencenet.cn/blog-1292052-923288.html ),曾经提及类群选取、序列比对、基因筛选、位点筛选、数据类型、算法选择、模型选择等都有可能影响系统发育重建的结果,其中“类群选取、序列比对、基因筛选、位点筛选、数据类型”都可以被划归为数据本身的问题,如果再加上基因数量、序列总长,那么不难看出其实相较于算法而言,数据本身可能存在问题的方面是更多、更复杂的。通过完备的类群选取减弱系统误差、通过足够总长的序列减弱随机误差、通过校正比对提高碱基或氨基酸位置同源性的准确性、通过对位点进行筛选事先剔除部分噪音,这些都是提高数据质量的重要保证,是使得系统发育重建具有良好效果的前提。如果系统发育信号足够强,完全可以做到MP、ML、BI有大体一致的系统发育推断结果,这在Cladistics期刊的一些研究中有比较明显的表现;如果序列错拼、数据漏洞较多,那么就算是大数据研究,也不能确保ML就能给出正确答案。简而言之,就是数据本身比算法选择更为重要。 看完数据与算法之间的基本关系框架,如果我们再回到对于算法的讨论上,那么ML(或者加上BI一起)会持续占优么,MP还有希望么?或者换句话说,还有什么是ML做不到的么?对于这个问题,这里无法给出最终答案,但是可以给出一些思考方向和个人观点。首先,我们不防在脑海中简单回顾一下各种基于进化模型的算法和相关软件的改进过程,不难发现算法和软件的主要进步都是一直在对各种bias进行各种建模纠偏。这说明数据中存在各种各样的异质性,而基于进化模型的ML和BI一直在这方面进行持续努力。然后,我们不妨看一下MP和ML在处理数据时,有什么基本特点(表1)。 表1 不同原则下算法的特点(谢强 等,2012) 简约 似然 对单一特征形成模型的能力 有 无 对整体形态特征形成模型的能力 - - 对整体序列特征形成模型的数量 单一 多样 特征数量对于建立模型的影响 较小 较大 从这个表中可以看到,其实简约法也是有隐藏的进化模型的,并且和似然法存在较大区别。其实ML、BI中所使用的不同的分子进化模型就是不同的进化假设。MP对简约的追求可能给人以生硬、刻板、过于理想化的感觉,但是那其实是表象。在理论层面,MP与其他所有算法的根本区别在于MP不仅关心建树本身,还关心特征演化,这是优点;在实践层面,MP对于多重替换的考量比较薄弱,这是缺点。不过另一方面,ML虽然在过去十几年中依靠模型的不断完善在整体表现上优于MP,但是近年来在面对组学数据时也备受数据异质性的困扰,因而在实践中会在前期常规性地先对数据本身进行一些处理。也就是说,就算是ML,如果忽视数据本身的质量问题,那么模型能起到的作用极为有限。 总的来说,简约法可以对数据进行更为个性化和具有针对性的处理,而似然法倾向于用参数定义特定的模型进行统一的处理。如果简约法的个性化特点和数据的异质性特点能够有效对接,这或许是未来MP重新迎来辉煌的转机。 参考文献 谢强. 2012. 分子系统学的建树原则与算法. in: 现代动物分类学导论. 谢强, 卜文俊, 于昕, 郑乐怡 编著. 第13章,第176页. 北京: 科学出版社.
6798 次阅读|8 个评论
概率论基本概念之贝叶斯公式时间离散化经典应用例子1
linzhiheng 2015-1-27 18:08
贝叶斯公式: 一个时间离散化的经典应用的例子: 某人下午5:00下班,他所积累的资料表明: 到家时间 5:35-5:39 5:40-5:44 5:45-5:49 5:50-5:54 迟于5:54 乘地铁 的概率 0.10 0.25 0.45 0.15 0.05 乘汽车 的概率 0.30 0.35 0.20 0.10 0.05 某日他抛一枚硬币来决定乘地铁还是乘汽车,结果他是5:47到家的。试求他是乘地铁回家的概率。 解: 令事件A 1 表示“乘地铁回家”, 事件A 2 表示“乘汽车回家”, 因为此人是抛硬币决定乘地铁还是汽车,故有 , 再令事件B表示“此人5:47到家”,由题意可知, 因此由贝叶斯公式可知, 所求事件的概率为 ,其中, 事件B(5:47回到家)发生有两种方式:A 1 (乘地铁回家)、A 2 (乘汽车回家), 因此事件B的发生概率为 =0.5*0.45+0.5*0.20 因此,此人5:47到家乘坐地铁的概率为: =0.5*0.45/( 0.5*0.45+0.5*0.20 )= 。 总结: 贝叶斯公式实质就是假设某事件B的发生有多种方式,那么要求的就是某种方式A i 的发生率是多少. 贝叶斯公式 就是求事件B发生的某种 方式A i 占 该事件所有方式集合A( )的比率。
3387 次阅读|0 个评论
与黄老邪网络互动大略
热度 9 xcfcn 2015-1-12 10:32
与黄老邪网络互动大略 与黄老邪素未谋面,但最后见他一面却将是在他的八宝山遗体告别仪式上。 最早,黄老邪以游客“ lix ”面目出现在科学网的,而我也是以游客“傻傻笑”身份出现在科学网。大概活跃了若干个月,我们都成了博主。这段时间我们应该没啥交集。 成为博主后,我貌似比较积极在他博文下评论,互动大体是和谐的,有时候可能他觉得我尾巴有点翘,也会略略打击一下我。但具体互动我早已经忘了,也懒得再去翻看原始记录了。 后来我偶然知道,他是院士,我查看了一下他的简历,发现他还真的是个牛人。但我同时知道,他是要求甚至刻意以普通网友身份出现在科学网上的,所以我还是没大没小的跟他互动,没有对他见外乃至生分。 老邪的博文古怪精灵,评论则是一针见血。但我印象深刻的是老邪知识的广博。大概 2008 年 12 月,我写了一篇文章介绍我的家乡江西崇义县,顺便扯了一下崇义跟邓小平的渊源,结果老邪看到后,纠正了我的错误,并特意写了一篇博文介绍了这段“ 新政委崇义作逃兵 ”的轶事。 邓小平三下三上,每次“下”都有人拿这个说事。污陷小平同志是敌军夜袭崇义时才跑的。好在第一次“下”时,许卓还没有牺牲,这事有人证。记录在案,否则后两次下时,李明瑞、许卓都已牺牲,就更说不清了。 2009 年 5 月份左右,有个博主陈应泉对“科技评价体系研究”很热心。黄老邪也积极介入。不知怎的,老邪居然把我拉进来,我们甚至成立了研究小组,黄老邪还说,如果调研需要钱的话,他会想办法。可惜通了一段时间邮件后,此事就无疾而终,我也忙着毕业找工作了。前段时间,李侠提议科技人员排名引起科学网轩然大波,我如果不是刚才翻看邮件,我都一点都想不起来,我居然曾经对此事介入那么深。 大概是 2010 年 3 月,自己混的很差,老父又脑溢血,我非常冒昧的在科学网给老邪发短信息借 1 万块钱,这大概是从出生到当时我所借过的最大一笔钱,而且是向一个从未见过面的人。老邪二话不说,就叫我给他账号,并让师母吴老师给我打过来。可这事我已经再也不能当面感谢啦。 老邪的博文,只要不是太专业,我都会瞄上一眼,我也会暗中关心他的身体,也关注他的“布鞋院士”事件。但我刻意不直接跟他互动。 2013 年 8 月份开始,我跟随 CY 开始休博半年。期间看到老邪发文说 看不懂 Nate Silver 的《信号与噪声》(中文版)的某个图 ,我看后找来英文版,并截图给他看。我知道 老邪一直对贝叶斯非常感兴趣 。然后老邪趁机写了一篇幽默风趣的博文( CY 呼唤肖子:蕾丝短裤之谜 )叫我回来写博,其中博文写道: 在求教:贝叶斯定理(乳腺癌例) 评论4,王春艳 说:“我都回来了,肖子还端着不下来。很感兴趣老邪的问题,可惜手头上没书,以后也弄本翻翻,要是肖子能赏脸耗力帮大家把问题整理出来讨论,那是要非常感谢滴”。 感谢肖子,及时解答了老邪的疑问。希望响应CY妹妹的呼唤,接着回答老邪的疑问:怎么样讲贝叶斯定理,最容易被同学理解无误。 可惜我当时非常傲娇的没有理他,虽然我后来很快又写博了。这大概是我最后跟老邪的互动,今年暑假去过一次北京,但没有敢去打扰他。总觉得后会有期,但却是后会无期。 老邪老了有科学网这个玩具,我想他老人家应该是幸福的。我相信天堂一定是有科学网的镜像,否则他不会那么匆匆离去,而不管不顾他心爱的玩具和玩伴。
个人分类: 杂论|9688 次阅读|9 个评论
用贝叶斯评估食品安全
热度 1 andydong 2014-11-23 22:31
贝叶斯是 18 世纪的英国数学家,他的思想是概率论的精髓之一,简单的说就是“逆概”。 2013 年是贝叶斯提出 250 年,国际贝叶斯学会有专门的庆祝活动,被称为“永不会灭亡的理论”,应用非常广泛,比如最近寻找马航失联的坠机,就有国外的数学家应用这一理论方法成功推算出准确的失事地点。 食品风险评估体系是被写进我国食品安全法的,评估食品风险有很多方法,贝叶斯也可以用到这一研究领域中。举个例子:控制食品低温有利于食品保藏,据统计 80% 的家庭都用低温冰箱冷藏食品,经过冷藏后食品的安全性可以达到 85% ,不经过冷藏安全性只有 75% ,假设有一天冰箱控温坏了,低温变高温了,那么吃后的食品安全性从 85% 降到了 75% ;反之,如果我们想知道没有吃坏肚子的前提下,冰箱失控了,有多少低温食品变成了高温食品?这是现代食品安全中过程控制( Process Control )的常见科学思路之一。 我们用贝叶斯的思路来简单推测下,假设食品就只按照两类方式进行保藏:低温和高温,比例分别为 80% 和 20% ,这其实是根据我们的先验知识确定的,简记为 P(LT)=0.8 , P(HT)=1-P(LT)=0.2 ,低温和高温食品的安全性分别简记为 P(Safe|LT)= 0.85 和 P(Safe|HT)= 0.75 ,那么总的食品安全性可计算为: P(Safe)=P(LT)*P(Safe|LT)+P(HT)*P(Safe|HT)=0.8*0.85+0.2*0.75=0.83 保证安全性的前提下高温食品的比例 P(HT|Safe) 应为高温食品的比例 P(HT) 乘以高温食品的安全性 P(Safe|HT) 再除以上面总的食品安全性,即 P(Safe) ,写成公式即是: P(HT|Safe)= P(HT)* P(Safe|HT)/P(Safe) = 0.2*0.75/0.83=0.18 这就是吃冰箱坏了,还没吃坏肚子的食品中可能是高温食品的比例。如果我们再把上面的写法简化下, A=Safe, B=HT , B~=LT 那么 P(B|A)=P(B)*P(A|B)/P(A)= P(B)*P(A|B)/ 大学学过概率论的都会明白上式的含义,这就是经典的贝叶斯公式。 下面再举个与食品安全有关的简单例子,通常情况下,致病菌( A )可以导致食物中毒( B ),假设某菌在 4 个对数菌落单位以下导致食物中毒的概率为 0.2 ,而在超过 4 个对数菌落单位导致食物中毒的概率为 0.89 ,那么根据贝叶斯理论,有如下结论成立(具体计算略去,有很多软件可以自动计算理论值): 当检测 100 个样品中有 1 个样品都高于 4 个对数菌落单位时,导致食物中毒的概率为 0 ; 当检测 100 个样品中有 5 个样品都高于 4 个对数菌落单位时,导致食物中毒的概率为 0.23 ; 当检测 100 个样品中有 95 个样品都高于 4 个对数菌落单位时,导致食物中毒的概率为 0.86 ; 如果有 100 个样品中有 99 个样品都高于 4 个对数菌落单位时,导致食物中毒的概率为 1 ; 因此可以根据上述推测采取相应的食品安全监管措施。当然,以上都是最简单的形式,实际的食品生产链节点变量更多,影响因素更复杂,要真正实现可追溯性,可采用贝叶斯网络的形式进行食品风险评估和预警。
1697 次阅读|2 个评论
老邪、外国女郎与蕾丝内裤
热度 13 xqhuang 2014-4-24 11:04
老邪、外国女郎与蕾丝内裤 自从老邪一“脱”走红,小邪就被娱记们盯上了,希望能披露一些关于老邪的“麻辣故事”,迫于生计,无情地把老邪出卖了。哥,算不算,您说了算! ******************************************** 不久前,有好友QMe: 小邪,老邪中邪了! 还有这事?老英雄他中什么邪? 桃花! 花粉过敏? 不是,是内裤过敏! 化纤内裤? 蕾丝内裤! 哈,老邪还有这等嗜好? 告诉你吧,老邪迷上一位穿蕾丝内裤的外国女郎,她叫贝叶斯。 英雄难过美人关,更何况是洋美人。 。。。。。。 晚上偶过老邪的“办公室”,抬头望见房间的灯还亮着,隐隐约约一个“女人”的身影在窗前晃动,传说中的“贝叶斯”?去见识一下!上楼正欲敲门,屋内传来老邪低沉的声音: 正等着小邪和我掐架呢 。真邪门,老邪能掐会算?犹豫了一下,心里话小邪还真不惧与老邪过招,担心的是江湖险恶,若有人捕风捉影:老邪与小邪为一女人打起来了!到时跳进黄河也洗不清啊。 科学网朋友都知道,老邪比较“花心”,表现在兴趣广泛,这回移情“贝叶斯”,也算情理之中。关于美女贝叶斯的故事,小邪虽早有耳闻,因她不是我的菜,所以不是特别关注。贝叶斯,全名 托马斯·贝叶斯,二百多年前,他提出了被后人称为贝叶斯定理的概率关系式: P(A|B)=P(B|A)*P(A)/P(B) 上式中,A和B代表两个随机事件,P(A)是单独发生A事件的概率;P(B)是单独发生B事件的概率;P(B|A)是A事件出现的前提下,再发生B事件的概率;P(A|B)是B事件出现的前提下,再发生A事件的概率。关于贝叶斯定理的理解与解读,有兴趣的朋友可以翻翻书,或放狗拜读一下。 CY说:我是大约明白贝叶斯的,以前学的时候做题带公式也没问题,只是直觉上总觉得别扭。相信与CY有类似感觉的不止她一人,小邪对“贝叶斯”也一直没啥感觉,老邪试图通过给贝叶斯穿蕾丝短裤以增加其吸引力,此举无疑是彻底失败了。 概率是对随机事件发生的可能性的度量,概率统计早已融入到现代科学的所有学科领域,也无孔不入地渗透进人们生活的方方面面:马航飞到何处去?中国、美国打起来的可能性多大?房价什么时候开始跌?刚买的彩票能中奖吗?股市什么时候涨呀?今年的基金申请会中吗?研究生能找到好导师、导师能选到好学生吗?心中的女神会接受屌丝的爱吗?。。。 概率统计看上去像科学,其实就是街头八字算命,总有蒙对的时候,用“蒙”有人肯定不爽,不过这绝对是实话实说。就像迷信一样,概率统计生存的基础,是人们对概率事件发生的本质和原因不了解或不想深入了解,一旦弄清事件的本质,所谓的概率统计结果都将被破坏,例如: 1、抛一枚硬币,理论上出现正反面的可能性各为1/2。而一名专业的抛币者(或把银币变大),却能完全控制正面或反面,掷骰子也一样,它们的规律都是可以人为掌控的。 2、生男生女,以前认为是上帝安排的随机事件。到了能控制精子、卵子这个层面,随机性就被彻底破坏。 3、花2元钱买一注彩票,你就有机会中千万大奖,卖彩票的都这么忽悠,事实上,让谁中头奖,摇奖人说了算。 。。。。。。 现实生活中(科研也一样),很多人陷入概率的陷阱而不能自拔,概率统计的先验结果在宏观集体上有一定的指导和参考意义,但对判断个体的行为是毫无意义的。就比如,老邪吸没吸毒?老邪出没出轨?。。。,算出概率为99.9%或0.1%,有何差异?因为真相只能是1(有)或0(没有),99.9%可能是0,而0.1%却可能是1。事实上,老邪脑子无比清楚,99.9%仅仅代表老邪很值得怀疑,只要不是100%的铁证(比如捉奸在床),司法上就是证据链不完整,不可以骤下毒手抓人,你还得“补充侦查”。 最后讲一段老邪与蕾丝内裤的八卦故事,也算作与老邪的一架吧。 老邪做任何事情,总是全身心地投入,大冬天讲课也能汗流浃背,所以,手帕是他的随身必带品。春节刚过,陈安研究员请老邪做一场学术报告,题目是《 关于国家重点实验室开放基金 》,科学网博主武夷山、王德华、孤魂、老蒋、YC、CY、LL、吕秀齐、迟菲、王海辉、赵明等悉数到场捧场。 老邪是典型的人来疯,听众越多表演欲就越强,一会儿功夫就汗如雨下,他习惯性地从电脑包摸出“手帕”揩汗,突然,听众轰地一声笑开,老邪很淡定地说:“我不穿袜子,喜欢用袜子擦汗,吸汗效果好,...”老邪边说边继续擦汗,还幽默地地把“手帕”放在鼻子上闻了闻:味道真不好!此时此刻,听众已经笑倒一半。 CY终于忍不住了:老邪,看看您手里是什么?蕾丝内裤!老邪定睛一看,喊了一小声:啊!。。。老邪不愧为江湖老将,转眼就面带微笑:应LL教授之邀,后天我要到清华大学做报告,题目是《 蕾丝短裤之谜 》,这是道具,欢迎各位届时继续捧场!说着瞟了一眼坐在第一排、手足无措的陈安,心里说:望你安好,应急靠我! 老邪正为自己的灵机一动得意着,听众席中突然站起一年轻女子:老邪,瞧你装的,那不是你的女研究生贝叶斯的内裤吗!闲话少说,虽然陈安采取了一系列应急措施, 老邪走桃花运 的消息,还是第一时间传进老邪夫人的耳朵。 夫人:听说最近桃花盛开? 老邪:春天终于来了! 夫人:第二春? 老邪:春来春去,几度风雨几度春秋? 夫人:装,继续装!蕾丝短裤是怎么回事? 老邪:夫人,不要听信谣言。 夫人:谣言?你最近不是在研究贝叶斯吗,算一算你出轨的概率。 老邪:这根本就没法算。 夫人:薛宇不是算出来29.41%。 老邪:他还算出67.57%。 夫人:这不更能说明你有问题。 老邪:这只能说明,所谓的概率预测是胡说八道。 夫人:难道一定要“捉奸在床”。 老邪:当然,司法上就是证据链完整。 夫人:CY说得好,狡辩的男人总能想出千奇百怪的理由来糊弄女人。 老邪:不然你去问问你的偶像陈安。 夫人:陈安是你的死党。你不是还说过,有陈安,不平安。 老邪:陈安是研究应急的,不平安才需要应急,有应急事件必有陈安,比如昆明、马航。 夫人:算了,我还是去找你的死敌小邪。 老邪:随便,身正不怕影斜,人正还怕小邪? *************************** 师母:小邪,听说过老邪的事? 小邪:蕾丝短裤?有所耳闻。 师母:唉,想不到呀!555555... 小邪:师母勿要伤心。 师母:你说得倒很轻巧,这回我决不能饶他!有人建议我到科学网开博,也有人建议找方舟子,还有人建议直接到《中国科学院学部科学道德建设委员会》进行举报,你认为哪个效果好? 小邪:哪个效果都不好!师母请冷静!此事必有蹊跷。 师母:怎讲?老邪一直夸你能掐会算,老邪出轨的概率多少? 小邪:概率,让人不明觉厉,其实都是为了隐瞒真相! 师母:我也觉得不靠谱,玩概率就像玩暧昧。 小邪:言归正传,我认为老邪是清白的。 师母:理由? 小邪:1、老邪真出轨,有必要收藏内裤吗?2、收藏内裤,会放在电脑包里?3、那天报告会上的女子,显然是有备而来的。4、出事后,为什么有那么多人为你出谋划策?目的昭然若揭,要置老邪于死地而后快。。。 师母:听起来很有道理,是阴谋? 小邪:老邪以快人快语而闻名江湖,这难免得罪身边的某些人,。。。 师母:谢谢小邪,我懂了! 小邪:不客气,顺便转告老邪,不要再迷恋贝叶斯,那只是传说。 。。。。。。 有人把描述微观世界的物理学玩成了概率统计,认为上帝是掷骰子,借李总理的一句话:开什么玩笑!
个人分类: 乱七八糟|4481 次阅读|30 个评论
[转载]狐狸,贝叶斯与大数据的思维方式
sheep021 2014-4-3 20:22
狐狸,贝叶斯与大数据的思维方式 假设掷出一枚硬币,正面朝上的概率是 50% ,如果连续 99 次投掷硬币都是正面朝上落地,那么下一次投掷硬币正面朝上落地的概率是多少?这是 Taleb 在《黑天鹅》一书中给出的一个假想的问题。在 Taleb 的书中,受过正统教育的约翰博士给出了教科书教给我们的标准回答,下一次投掷硬币正面朝上落地的概率仍然为 50% ,因为下一次硬币朝向与之前投掷的结果无关。而教育背景没有那么光鲜的胖托尼则认为下一次投掷硬币正面朝上的概率为 99% 。孰对孰错?我和读者都不妨给出自己的判断。而如果一定要为自己的答案下一万块钱的赌注的话,我和 Taleb 一样,更倾向于与不是那么教条的胖托尼保持一致,更倾向于相信下一次硬币正面朝上的几率为 99% ,更倾向于相信我之前的有关正面朝上落地的概率是 50% 的假设是错误的。 2012 年, “ 大数据 ” 是一个抓住了上到国家政要下到普通老百姓眼球的热词。随着技术的进步,数据获取成本、数据存储与处理成本都在以指数的速度迅速下降,普通老百姓都能感觉到数据将对人们的生活产生至关重要的影响。虽然,人们谈大数据时往往都会谈及利用 Hadoop 等新兴技术对海量数据处理等技术问题,也会谈及 Facebook 、 Google 等公司所处理的 PB 级别数据的问题。但是,正如周涛教授所言, 大数据的核心问题在于预测 。电子商务网站通过数据预测顾客是否会购买推荐的产品;信贷公司通过数据预测借款人是否会违约;执法部门用大数据预测特定地点发生犯罪的可能性;交通部门利用数据预测交通流量。 但是,预测不是大数据时代才有的新问题,它是人类本能的一部分 。心理学家认为,对世界一致性观点的需求以及对环境控制力的需求是人类的两个基本需求,而在此基本需求驱动下,人类像 “ 朴素的科学家 ” ( naive scientist )一样行为,理性地合乎逻辑地验证自己关于世界的假设。即使原始人通过他的切身体会也可以知道,如果将手伸到火中将会被烫伤。这样,原始人根据其直接经验可以构建关于火与烫伤之间关系的关联模型。数字是人类直接感觉的延伸,正如麦克卢汉所说, “ 数字是我们最亲密的、相互关系最密切的(触觉)的延伸与分离 …… 古代世界不可思议地将数字与物质实体的性质联系在一起,与事物的因果关系联系在一起 …… 科学始终倾向于将一切客体量化 …… (数字是)我们的中枢神经系统在电力时代的延伸。 ” 而未来无所不在的传感器将构成地球的中枢神经系统( Central Nervous System for the Earth CeNSE )。这个地球的中枢神经系统使得人们能够超越其直接体验,感知到来自地球每个角落的讯息,这些形式多样的、海量的、快速的( Variety 、 Volume 、 Velocity )信息流将构成大数据时代的主要特征。而人们将基于这些信息理解世界,构建与验证关于世界的新的假设,并以此为基础进行预测,并采取行动。 但是,与科学研究中以求真为目的的构建模型不同,大数据时代的模型构建将更加以务实为目的,即遵循统计学家 George E. P. Box 的观点 “ 本质而言,所有模型都是错误的,只是有些模型更有用 ” ( Essentially, all models are wrong, but some are useful )。大数据时代的很多模型都是为了指导商业决策而设的,而商业决策通常会影响决策者的利益。所以,一个模型是否正确不是最重要的,重要的是决策者对这个模型有多大的把握,决策者能否从这个模型中获利。所以, 大数据时代中最为关键的应该是基于数据的模型能否说服决策者据此进行决策,并且帮助决策者改善决策赚取相应的利润 。前者表现为决策者愿意将多少钱押在这个模型上,而后者表现为这个模型在现实中的表现如何。所以,如果让读者你参加本文开始所设计的假想赌局,无论约翰博士看起来多么专业也不能阻止读者更相信胖托尼的模型,因为毕竟这涉及到真金白银。胖托尼也许在最初和约翰博士一样,相信硬币正反面朝上面落地的概率各是 50% 。既然所有模型都是错的,但是胖托尼能够利用他所观察到的硬币一次次正面朝上落地的事实修订他的模型,使其越来越接近真实情况。而约翰博士仍然抱残守缺,固守着他的 50% 的最初假设。 以赛亚 * 伯林( Isaish Berlin )曾经援引古希腊诗人的残简 “ 狐狸多知而刺猬有一大知 ” 将知识分子分为狐狸和刺猬两类。 刺猬用一个宏大的概念解释所有现象,如约翰博士一般;狐狸知道很多事情,用多元化的甚至相互矛盾的视角看待问题,狐狸也愿意包容新的证据以使得自己的模型与之相适应,如胖托尼一般 。 Tetlock 等人的研究表明,在现实的预测中,狐狸的表现要优于刺猬。在大数据时代,人们能够接触越来越多的信息,这些信息能否修订决策者已有的观念,对决策者的决策产生影响,这是大数据能否发挥价值的关键所在。有些刺猬类决策者,他们可能会有意无意忽略与其观念相左数据而只保留那些能够证明其想法的数据,在这里无论系统处理了什么规模的数据,这些系统投资也只是粉饰太平的装饰,没有太大意义。 很多人都知道亚当斯密( Adam Smith )在《国富论》中所描述的市场中的 “ 看不见的手 ” 。在市场中,没有人掌握有关生产和消费的全局信息,但是人们通过市场交易对供需的行为作出反应,从而逐步更新价格,进而达到平衡。与亚当斯密同时代且同在苏格兰接受教育的 Thomas Bayes 的贝叶斯定理( Bayesian's Theorem )也和亚当斯密的 “ 看不见的手 ” 有相通之处。贝叶斯理论允许每个人拥有有关世界的先验的信念,胖托尼也许最初认为硬币正面朝上的概率是 1/2 ,如果他看到了 99 次投掷硬币的结果中有 50 次是正面朝上,他会认为这个硬币正面朝上的概率是 51/101 ,大致可以确信硬币正面朝上的概率是 50% 。而当他看到了连续 99 次的硬币正面朝上落地,则他不断利用数据修改其信念,认为这个硬币可能有问题,正面朝上的概率应为 100/101 ,即本文开始部分所预测的 99% 。当然,你也可以如约翰博士一样固守自己最初 50% 的教科书般的假设,而这样的结果是你输掉了一次又一次的赌博,直到出局。 利用新的数据与新的证据不断修订对世界的假设是狐狸式的思维方式也是贝叶斯思维方式的基本理念,这也应当是大数据时代思维的基本理念 。随着互联网及云计算的普及,在大数据时代,人们有机会从多个渠道、多个角度获得对事物的知识。贝叶斯的 “ 看不见的手 ” 利用这些知识逐步修订人们对事物的假设,而人们基于这些假设进行的决策通过亚当斯密的市场的 “ 看不见的手 ” 被评估与选择,从而形成相应的社会秩序。无论人们最初关于事物的认识存在什么样的差异,在贝叶斯与亚当斯密两重 “ 看不见的手 ” 的作用下, “ 随着越来越多的证据的出现,我们的信念将趋于一致,并且趋于真相 …… 即使我们最初拥有有误的甚至是错得离谱的先验认识,最终也将趋于真相。 ” --------------------------------------------------PS: 英国哲学家艾赛亚·柏林,把一句古希腊谚语“狐狸多技巧,刺猬仅一招”发挥成关于两种类型的思想家之差异的深刻比喻:一类是追求一元论的思想家,他们力图找出唯一绝对的真理,并将它应用于万事万物,恰如刺猬遇到危险总是使用相同的招数枣竖起满身倒刺;另一类则是承认多元论的思想家,他们体察世间万物之复杂微妙,没有不变应万变的宗旨,因此宁可自己思想矛盾,亦不强求圆融统一之理,恰如狐狸遇事之灵活、机智。 看来,东方思想更像是刺猬,一套阴阳五行理论,解释了天地人,乃至世间万物。而现代科学则是狐狸,每门科学都有自己的理论,甚至,同一学科的不同领域都自成体系,乃至“自相矛盾” ,如现代物理学,至今没有建立起所谓的:宇宙大统一理论。 狐狸和刺猬的知识无所谓哪个更“伟大”,一个有宽度,一个有深度,各有千秋,相得益彰。
个人分类: 智慧城市|1409 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-29 17:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部