科学网 › 标签 › 交叉熵

标签: 交叉熵

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

交叉熵是谁最早提出和应用的？: lcguang 2018-3-1 14:31; 交叉熵 (cross-entropy, 或 CE) 最简单形式就是 H=-∑P(xi)logP(xi|θ). log 后面是似然度或预测的概率。下面是 wikipedia 介绍： https://en.wikipedia.org/wiki/Cross_entropy 我在一个群里说，人工智能需要一个像物理学中“能量”那样的贯穿很多公式的概念，这个概念应该是信息。我用语义信息方法优化假设检验和统计学习，语义互信息是用 “I= 平均 log （ normalized 似然度 )” 定义的，或者说是用交叉熵定义的。其中似然度是通过隶属函数产生的。有专家说： “对是对的，不过不够； AI前言论文中一直都在用，要往前走，不要停留在N年前的思路上，那样就落伍了，这样很危险，... 前沿论文中似然度和交叉熵已经用的很多了，别自恋...” 。前面几句说得很好，但是后面几句看了不是滋味。好像我只不过学了西方学者，或者是发现“新大陆”。我要说，我不但不是完全学了别人的，而且我提出和应用交叉熵实际上在西方之前。西方交叉熵研究历史介绍（可以下载全文）： https://research.utwente.nl/en/publications/a-tutorial-on-the-cross-entropy-method 其中有一段： The CE methodwasmotivatedby anadaptivealgorithm for estimating probabilities of rareeventsincomplexstochasticnetworks(Rubinstein, 1997), whichinvolvesvarianceminimization. Itwassoon realized (Rubinstein, 1999, 2001) that a simplecross-entropymodification of Rubinstein (1997) could be used not only for estimating probabilities of rareeventsbutfor solvingdifficultCOPs as well. This is done by translating the “deterministic” optimization problem into a related “stochastic” optimization problem and then using rareeventsimulation techniques similar to Rubinstein (1997).Severalrecent applications demonstrate thepowerof the CE method (Rubinstein, 1999) as a generic and practical tool for solving NP-hard problems. 可见，西方交叉熵最早是 Rubinstein 于 1997 年提出的。 Rubinstein 简介 : https://en.wikipedia.org/wiki/Reuven_Rubinstein 但是我最早提出用交叉熵（我当时的用词是 “ 广义熵 ” ，基本公式就是交叉熵公式）改进香农互信息的文章是 1990 年发表的： Lu C., “Shannon equations reform and applications”, BUSEFAL, 44, 1990 (BUSEFAL 是一个不太正规的模糊数学杂志，法国人 Didier Dubois and Henri Prade 主编的 ) 我的国内文章最早是 1991 年发表的：鲁晨光 . Shannon 公式改造 , 通信学报 , 12 ， 2(1991),95-96. 我关于交叉互信息（即广义互信息或语义互信息）详细讨论的文章是在 1993-1997 发表的。详见： http://survivor99.com/lcg/books/GIT/ 我将近 15 年没有继续研究交流，所以知道我的研究的人很少。虽然我把交叉熵用于统计学习主要是最近，但是 1993 年我就提出 R(G) 函数 —— 是香农信息率失真函数 R(D) 的更有意义形式 ——R(D) 给定对数标准似然度（ G ）的最小香农互信息。这一函数和统计学习密切相关，看来用它可以更好解决最大似然估计（包括不可见实例分类）和混合模型问题： http://survivor99.com/lcg/CM/Recent.html 两相比较， Rubinstein 结合样本检验比我早，应用也有所不同。我的交叉熵有两种，一种是含有似然函数的，和 Rubinstein 的相同；另一种是含有一组真值函数或隶属函数的 —— 到现在西方也没有；两种可以通过新的贝叶斯公式相互转换。另外一个不同是我的方法和香农理论关系更紧密（香农互信息是语义互信息的上限）。争发明权也没有太大意义，都是站在前人肩膀上。但是，一说新方法，马上就有人否定，认为西方早有了，这让人感觉不是滋味。我还发现鸟类华丽羽毛模拟他们喜爱的食物和环境，也有人说西方早发现了。但是经过考察，可见也是我的发现在先。参看： http://blog.sciencenet.cn/blog-2056-851470.html 我还发现了对称的色觉机制模型，也有人说西方早就有了。我一查，也是我在先，西方的还没有我的简洁巧妙。参看这里： http://blog.sciencenet.cn/blog-2056-677498.html 大多数人见惯不怪，我相反。所以我的发现比别人多。当然，我也有很多次发现别人早发现的东西，或者误解前人。所以我也欢迎砸砖。我最近还发现了第三种贝叶斯定理，通过它可以用样本求解真值函数或隶属函数（不久推出）。是不是 “ 新大陆 ” 有待读者明鉴。还有人笑言：苹果砸了很多人，可是牛顿只有一个。但是，我要说，没有思考过伽利略的比萨斜塔实验的人被苹果砸了多少次也没用。我至少是最早发现交叉熵用处的两个人中的一个吧？要是交叉熵对于机器学习像能量对于物理学一样重要，朝这个方向走的人（也许是一批人）就会建立机器学习的 “ 牛顿力学 ” 。总会有人有时候运气好一点 , 捡了大漏吧？ ~_~; 个人分类: 信息的数学和哲学|9979 次阅读|1 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 交叉熵

相关帖子

相关日志

关闭安全验证