贝叶斯定理哲学上的意义之一,就是除了和我们关心的集合 A 和 B 之外,还有一些事件,它们与集合 A 和 B 之间,可能没有关系,也可能有关系但尚未发现或者尚未想到,我们先把他们归类为( -A + -B ),留待抽丝剥茧。 上一篇博文,讲应急反应的,没有得罪安哥拉、也没有踩科学网红线。但是毕竟有了没有想到的负面响应。所以主动隐藏了。这样有点对不起发表评论的网友们。抱歉!冷一段时间,修理修理,争取修复吧。这个负面响应真的属于( -A + -B )。 再举一个例子: 刘杜鹏 博主 · 在转基因问题上我为什么给方舟子站台 文章不错。但他的博客名: pengduliu 是怎么回事?从他的博文看起来,他不知道姓名中译英习惯的可能性很小;闹不清楚他自己究竟该姓什么的可能性更小。运用贝叶斯定理,老邪算出他双亲分别姓刘和杜的可能性大于其它可能。其中,父亲姓刘的可能性大于母亲姓刘的可能性。 没有冒犯的意思,只希望 刘杜鹏 博主证实一下老邪的贝叶斯定理用错了没有。
贝叶斯统计和正规化.docx (注:博文中信息不全,见附件) 正规化可以用来防止过拟合,并且保留所有的参数。 1 、极大似然估计( ML )如下图,其哲学思想是在数据之后有一组参数θ来生成 x 和 y ,注意θ是真实存在的,并不是变量,也可以说θ就是关于变量 x 的一个函数参数,只不过到底是什么需要我们自己去估计,这是我们要做的。 ML 算法的目的就是找到这样的θ使得用其作为参数来估计的准确性达到最大。以上的分析是频率学家的观点,属于统计学派。 2 、另外一种观点就是贝叶斯学派的观点。他们事先不知道θ的值是多少,但是他们会假设θ服从一个先验分布来标示θ的不确定性。比如θ可能服从一个高斯先验分布或者一个β先验分布。 若给定一个训练集 ,则我们会计算θ的后验分布,即加入了训练集中的后验知识之后的θ的分布 p( θ |S) 。有: , 事实上可以看到分母是对θ的积分,只要先验分布确定了,其值就是一个定值,也可以说不会影响估计θ的结果。因此可以看成: ,即后验分布只和分母的部分有关系。 这样的话,假设训练集中的 x 标示是房子的属性信息, y 标示的是价格,我们要找到一组参数 来利用 x 估计 y 。则对于一个新房子的价格进行预测时就用上式估计出来的后验分布 p( θ |S) 进行预测,如下: , 进一步的,在给定训练集 S 和输入 x 的情况下估计 y 的期望值的时候需要计算 。 θ的维度可能非常高,计算积分非常困难,因此一般不会计算完整的后验 p( θ |S) ,而是进行近似的计算,然后用得到的确定的一个点θ来代替其积分,比如最常用的一个方法就是 MAP ( maximum a posteriori )了,其得到的形式如下所示: 然后进行预测时,只需要用函数: 。 使用贝叶斯方法能够有效的避免极大似然估计中的过拟合现象,这是因为贝叶斯方法在加入了训练样本信息(先验知识)后会平滑数据。用数学的观点来看,极大似然估计(比如 logistic 线性回归)的目标函数为 ,而贝叶斯方法在加入了先验知识后其目标函数实际上变成了 。
概述 贝叶斯网(directed acyclic graph), MRF( undirected graph)是两种重要的概率图模型,在日益网络化的世界里,它们能对众多事物、现象合理建模,包括:社交网络(facebook, twitter)、交通网络(transportation,travel,network design)、医疗诊断等等,Russell还用它建立全球的crust vibration network, 用以分析预测 核武器生产地、地震。从马克思哲学的角度讲,运 动着的物质世界是普遍联系和永恒发展的,这种联系正是可以用图模型来模拟,而发展便是图模型的inference,看来Bayesian Network, MRF确实是广泛、客观存在的规律。从计算机视觉、机器学习专业领域来看,它更有着广泛的应用、很大的research community。 Equivalence of Joint Distribution and Graph 本质上来讲,用graphical model解决一个问题,首先是要知道变量间的独立关系(independency among variables),这样才便于建立图(I-Map)。需要说明的是,无论是bayesian network,还是MRF,他们的定义是(P,G),也就是同时定义概率和图,在joint distribution 严格 positive的情况下,联合分布和图是等价的:图是联合分布的I-Map,联合分布也能factorize over the graph。另外,对于贝叶斯图,概率分布在图上的factorization的定义很简单,而对于MRF,factoriztion的定义是:Joint distribution中每个factor都是图H的complete subgraph。注意了: complete subgraph并不是 maximal clique,也就是,如果我们建立的图模型中,每三个变量组成一个clique,这时,与这个图结构compatible的joint distribution完全可以是pairwise的clique potentials相乘而得到的。不过如果我们建立的图结构是每3个variable组成一个clique,我们会随之而建立 tri-order clique potentials相乘的gibbs distribution, 而不是 pairwise Markov models. Drawback 从机器学习的角度来讲,MRF和bayesian network都是parametric methods,他们最大的弊病是对模型要假设,然后训练模型参数;to one extreme, 模型完全符合实际,这样当然很好的解决了问题;to another extreme,先验模型is problematic,now we actually deviate from original problems. 所以William Freeman(MIT)写了一篇文章,用MRF求立体视差,能量低并不代表disparity map is closer to ground truth.换言之,MRF model contructed is not compabible with truth.这个问题怎么解决? introduction of kernal will work? 下面推荐三篇paper: 1. Comparison of graph cuts with belief propagation for stereo, using identical MRF parameters , 2003, Tappen 2. Robust higher order potentials for enforcing label consistency , 2009, P. Kohli 3. An application of markov random fields to range sensing , 2006, J. Diebel