科学网

 找回密码
  注册

tag 标签: 似然度

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

交叉熵是谁最早提出和应用的?
lcguang 2018-3-1 14:31
交叉熵 (cross-entropy, 或 CE) 最简单形式就是 H=-∑P(xi)logP(xi|θ). log 后面是似然度或预测的概率。下面是 wikipedia 介绍: https://en.wikipedia.org/wiki/Cross_entropy 我在一个群里说,人工智能需要一个像物理学中“能量”那样的贯穿很多公式的概念,这个概念应该是信息。我用语义信息方法优化假设检验和统计学习,语义互信息是用 “I= 平均 log ( normalized 似然度 )” 定义的,或者说是用交叉熵定义的。其中似然度是通过隶属函数产生的。 有专家说: “对是对的, 不过不够; AI前言论文中一直都在用, 要往前走,不要停留在N年前的思路上, 那样就落伍了, 这样很危险,... 前沿论文中似然度和交叉熵已经用的很多了,别自恋...” 。 前面几句说得很好,但是后面几句看了不是滋味。好像我只不过学了西方学者,或者是发现“新大陆”。我要说, 我不但不是完全学了别人的,而且我提出和应用交叉熵实际上在西方之前。 西方交叉熵研究历史介绍(可以下载全文): https://research.utwente.nl/en/publications/a-tutorial-on-the-cross-entropy-method 其中有一段: The CE methodwasmotivatedby anadaptivealgorithm for estimating probabilities of rareeventsincomplexstochasticnetworks(Rubinstein, 1997), whichinvolvesvarianceminimization. Itwassoon realized (Rubinstein, 1999, 2001) that a simplecross-entropymodification of Rubinstein (1997) could be used not only for estimating probabilities of rareeventsbutfor solvingdifficultCOPs as well. This is done by translating the “deterministic” optimization problem into a related “stochastic” optimization problem and then using rareeventsimulation techniques similar to Rubinstein (1997).Severalrecent applications demonstrate thepowerof the CE method (Rubinstein, 1999) as a generic and practical tool for solving NP-hard problems. 可见,西方交叉熵最早是 Rubinstein 于 1997 年提出的。 Rubinstein 简介 : https://en.wikipedia.org/wiki/Reuven_Rubinstein 但是我最早提出用交叉熵(我当时的用词是 “ 广义熵 ” , 基本公式就是交叉熵公式)改进香农互信息的文章是 1990 年发表的: Lu C., “Shannon equations reform and applications”, BUSEFAL, 44, 1990 (BUSEFAL 是一个不太正规的模糊数学杂志, 法国人 Didier Dubois and Henri Prade 主编的 ) 我的国内文章最早是 1991 年发表的: 鲁晨光 . Shannon 公式改造 , 通信学报 , 12 , 2(1991),95-96. 我关于交叉互信息(即广义互信息或语义互信息)详细讨论的文章是在 1993-1997 发表的。详见: http://survivor99.com/lcg/books/GIT/ 我将近 15 年没有继续研究交流,所以知道我的研究的人很少。虽然我把交叉熵用于统计学习主要是最近,但是 1993 年我就提出 R(G) 函数 —— 是香农信息率失真函数 R(D) 的更有意义形式 ——R(D) 给定对数标准似然度( G )的最小香农互信息。 这一函数和统计学习密切相关, 看来用它可以更好解决最大似然估计(包括不可见实例分类)和混合模型问题: http://survivor99.com/lcg/CM/Recent.html 两相比较, Rubinstein 结合样本检验比我早, 应用也有所不同。我的交叉熵有两种, 一种是含有似然函数的, 和 Rubinstein 的相同; 另一种是含有一组真值函数或隶属函数的 —— 到现在西方也没有;两种可以通过新的贝叶斯公式相互转换。另外一个不同是我的方法和香农理论关系更紧密(香农互信息是语义互信息的上限)。 争发明权也没有太大意义,都是站在前人肩膀上。但是,一说新方法, 马上就有人否定,认为西方早有了, 这让人感觉不是滋味。 我还发现鸟类华丽羽毛模拟他们喜爱的食物和环境,也有人说西方早发现了。 但是经过考察,可见也是我的发现在先。参看: http://blog.sciencenet.cn/blog-2056-851470.html 我还发现了对称的色觉机制模型,也有人说西方早就有了。 我一查, 也是我在先,西方的还没有我的简洁巧妙。 参看这里: http://blog.sciencenet.cn/blog-2056-677498.html 大多数人见惯不怪, 我相反。所以我的发现比别人多。当然,我也有很多次发现别人早发现的东西, 或者误解前人。所以我也欢迎砸砖。 我最近还发现了第三种贝叶斯定理, 通过它可以用样本求解真值函数或隶属函数(不久推出)。是不是 “ 新大陆 ” 有待读者明鉴。 还有人笑言:苹果砸了很多人, 可是牛顿只有一个。 但是,我要说,没有思考过伽利略的比萨斜塔实验的人被苹果砸了多少次也没用。我至少是最早发现交叉熵用处的两个人中的一个吧?要是交叉熵对于机器学习像能量对于物理学一样重要,朝这个方向走的人(也许是一批人)就会建立机器学习的 “ 牛顿力学 ” 。 总会有人有时候运气好一点 , 捡了大漏吧? ~_~
个人分类: 信息的数学和哲学|9879 次阅读|1 个评论
公布求解最大互信息和最大似然度的信道匹配算法—用以取代EM算法
热度 3 lcguang 2017-6-12 12:25
搜索最大似然度, 可见有33万篇文章: http://www.sciencedirect.com/science?_ob=ArticleListURL_method=list_ArticleListID=-1217372240_sort=r_st=13view=cmd5=32025f8bcf94febd17e33e7009f377cdsearchtype=a 搜索EM算法有8万多篇文章: http://www.sciencedirect.com/science?_ob=ArticleListURL_method=list_ArticleListID=-1217372349_sort=r_st=13view=cmd5=1c0dbe77532804b292213415558828cbsearchtype=a 最大互信息难以求解的, 所以Shannon用失真准则, 而不是互信息准则。 最大似然度——指香农信道没有确定时的最大平均对数似然度——也是难求的。 这两个难题应该说是信息论和统计理论中最顽固的堡垒。 两者只能用迭代方法求解。通常用牛顿法, 梯度法和EM算法。其中EM算法最具神秘性。 本文不是要在么庞大数子上增加一个1, 而是要重新评估以前的做法, 特别是EM算法! 本文提出新的算法是信道匹配算法——多数情况下3-5次就收敛。文中和EM算法做了比较,大多数情况下迭代次数降到1/3。还证明了前人的EM算法收敛证明完全错了。 新的算法是否简洁, 高效,易于理解, 详见最新文章: http://survivor99.com/lcg/CM.html 本来是想先投稿, 争取发表的, 但是一想到那么多人在最大互信息和最大似然度上耗费那么多宝贵时间,想到审稿之漫长, 辩解之麻烦, 我还是先公布算法吧! 语义信息方法历来遭遇主流歧视,因为要权威理解非常困难。这篇文章也是要向主流显示: 语义信息论是怎样powerful, 它可以解决经典方法难以解决的难题! 我有没有做到, 请看完理解再说! 欢迎批评!
个人分类: 信息的数学和哲学|5604 次阅读|7 个评论
想不到有那么多人研究EM算法
lcguang 2017-5-17 13:06
介绍见: https://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm https://wizardforcel.gitbooks.io/dm-algo-top10/content/em.html 光是标题中有 EM algorithm 的论文就有3000多篇。 http://www.sciencedirect.com/science?_ob=ArticleListURL_method=list_ArticleListID=-1202695715_sort=r_st=13view=cmd5=a65f3a03da9eeed4a63c602ea9857144searchtype=a 它通常用于混合模型(比如高斯混合模型)。 比如根据两个似然函数不同比例的混合, 求解最为符合的似然函数参数(两个高斯模型有4个参数)和比例(1个参数)。现在大数据热, 研究的人更多。 我碰巧赶上了。实验结果见下图。求出结果不算什么, 简单快速才算好。能证明收敛才算厉害。 我可是用Excel做的喔。证明嘛,我用的是语义信息方法,特别是R(G)函数(上一篇介绍的)。 具体方法和证明正在整理。 迭代收敛过程: 5次迭代后符合程度: 迭代开始: 想不到Excel做研究工具还真不错, 不但计算简单, 画图也方便。通过绘图, 容易发现错误。 补充:假设 Py1= 0.10000 c1= 35 d1= 8.000000 Py2= 0.90000 c2= 65 d2= 12.000000 所有EM算法都面临这个例子挑战! 因为在M-step和E-step之间,有一个巨大裂缝, ElogP(z,y|模型)能大幅下降。如果这样, 那些收敛证明成立? 但是信道匹配算法没有问题。
个人分类: 信息的数学和哲学|4673 次阅读|0 个评论
挑战信息论的最大信息和最大似然检验--香农也解决不了
热度 1 lcguang 2016-12-9 13:13
检验问题, 说来很简单。 比如医学检验,有病的人记为e1, 没病的人记为e0. 化验指标是Z。 P(Z|e0)和P(Z|e1)分布不同。但是两者有覆盖,h1=阳性=“有病”;h0=“无病”。我们根据Zz*判断检验是阳性,否则是阴性。 但是不管选那个z*, 都有误判, 都有假阳性和假阴性。参看下图 通常有两个准则: 最小误差准则, 和最大似然准则。我的研究表明最大似然准则就是最大预测信息准则。而调整参数可使预测信息达到其上限——Shannon互信息。所以,可以认为最大似然准则就是最大Shannon互信息准则。最小误差准则在P(e1)很小时不合理,比如预测地震,总是预报“没地震”, 正确率高,但是信息是0.所以要用似然度准则或信息准则。 数学题是: 给定P(e0)和P(Z|e0)及P(Z|e1), 求使Shannon互信息I(E;H(Z))达最大的Z=z*. 比如 Z=1,2,...100 P(e0)=0.8,P(e1)=0.2; P(Z|e1)=Kexp P(Z|e0)=Kexp 求z*。 这个问题看起来简单, 但是就像四色定理, 到现在没有解析解。我以为这个问题比那什么哥德巴赫思想要有意义得多。 最耐人寻味的是, 香农及其追随者也解决不了, 他们只好不用信息准 则, 而用误差准则。 虽然这个难题可以利用导数迭代求近似解, 但不能令人满意 。不久出现了一个专门用于求大似然度的EM算法, 也是迭代方法, 但是效率高很多: http://www.csuldw.com/2015/12/02/2015-12-02-EM-algorithms/ 迭代方法有好坏。 标准是:1. 证明肯定收敛, 不管起点多差, 而且证明要简单明了; 2. 计算简单,运算和迭代次数少 。 经典信息论没有办法解决自己的信息准则问题, 原因是,优化z*要改变信道P(H|E), 但是信道不固定你算不出互信息。 可幸的是,我的语义信息论能解决。我在以后的帖子中将证明: 语义信息准则和似然度 准则是一致的, 通过语义信道和香农信道相互匹配和迭代, 可以实现最大互信息检验和估计。 信息论自己解决不了自己的信息准则问题, 还要求助于似然度方法, 这是信息论的耻辱。但是我的语义信息论是香农信息论的推广, 我用以证明收敛的方法借助于R(G)函数, 它是信息率失真函数R(D)的推广, 所以用的还是用本门功夫。遗憾的是, 经典信息论传人对我的推广不理解。现在就通过检验的最大信息准则来看,谁能捍卫霍家拳?! 和已有迭代算法比较如何? 到时候让大家比较。可以先告知的是,我的方法简单到用excel文件就行了。 上面题目我的迭代结果是: z*=54。你们用其他方法算算看是不是。改变P(e0)和P(Z|e0)及P(P(Z|e1), z*也会变。 谢谢关注!
个人分类: 信息的数学和哲学|3833 次阅读|2 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-24 03:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部