科学网

 找回密码
  注册

tag 标签: 交叉熵

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

交叉熵是谁最早提出和应用的?
lcguang 2018-3-1 14:31
交叉熵 (cross-entropy, 或 CE) 最简单形式就是 H=-∑P(xi)logP(xi|θ). log 后面是似然度或预测的概率。下面是 wikipedia 介绍: https://en.wikipedia.org/wiki/Cross_entropy 我在一个群里说,人工智能需要一个像物理学中“能量”那样的贯穿很多公式的概念,这个概念应该是信息。我用语义信息方法优化假设检验和统计学习,语义互信息是用 “I= 平均 log ( normalized 似然度 )” 定义的,或者说是用交叉熵定义的。其中似然度是通过隶属函数产生的。 有专家说: “对是对的, 不过不够; AI前言论文中一直都在用, 要往前走,不要停留在N年前的思路上, 那样就落伍了, 这样很危险,... 前沿论文中似然度和交叉熵已经用的很多了,别自恋...” 。 前面几句说得很好,但是后面几句看了不是滋味。好像我只不过学了西方学者,或者是发现“新大陆”。我要说, 我不但不是完全学了别人的,而且我提出和应用交叉熵实际上在西方之前。 西方交叉熵研究历史介绍(可以下载全文): https://research.utwente.nl/en/publications/a-tutorial-on-the-cross-entropy-method 其中有一段: The CE methodwasmotivatedby anadaptivealgorithm for estimating probabilities of rareeventsincomplexstochasticnetworks(Rubinstein, 1997), whichinvolvesvarianceminimization. Itwassoon realized (Rubinstein, 1999, 2001) that a simplecross-entropymodification of Rubinstein (1997) could be used not only for estimating probabilities of rareeventsbutfor solvingdifficultCOPs as well. This is done by translating the “deterministic” optimization problem into a related “stochastic” optimization problem and then using rareeventsimulation techniques similar to Rubinstein (1997).Severalrecent applications demonstrate thepowerof the CE method (Rubinstein, 1999) as a generic and practical tool for solving NP-hard problems. 可见,西方交叉熵最早是 Rubinstein 于 1997 年提出的。 Rubinstein 简介 : https://en.wikipedia.org/wiki/Reuven_Rubinstein 但是我最早提出用交叉熵(我当时的用词是 “ 广义熵 ” , 基本公式就是交叉熵公式)改进香农互信息的文章是 1990 年发表的: Lu C., “Shannon equations reform and applications”, BUSEFAL, 44, 1990 (BUSEFAL 是一个不太正规的模糊数学杂志, 法国人 Didier Dubois and Henri Prade 主编的 ) 我的国内文章最早是 1991 年发表的: 鲁晨光 . Shannon 公式改造 , 通信学报 , 12 , 2(1991),95-96. 我关于交叉互信息(即广义互信息或语义互信息)详细讨论的文章是在 1993-1997 发表的。详见: http://survivor99.com/lcg/books/GIT/ 我将近 15 年没有继续研究交流,所以知道我的研究的人很少。虽然我把交叉熵用于统计学习主要是最近,但是 1993 年我就提出 R(G) 函数 —— 是香农信息率失真函数 R(D) 的更有意义形式 ——R(D) 给定对数标准似然度( G )的最小香农互信息。 这一函数和统计学习密切相关, 看来用它可以更好解决最大似然估计(包括不可见实例分类)和混合模型问题: http://survivor99.com/lcg/CM/Recent.html 两相比较, Rubinstein 结合样本检验比我早, 应用也有所不同。我的交叉熵有两种, 一种是含有似然函数的, 和 Rubinstein 的相同; 另一种是含有一组真值函数或隶属函数的 —— 到现在西方也没有;两种可以通过新的贝叶斯公式相互转换。另外一个不同是我的方法和香农理论关系更紧密(香农互信息是语义互信息的上限)。 争发明权也没有太大意义,都是站在前人肩膀上。但是,一说新方法, 马上就有人否定,认为西方早有了, 这让人感觉不是滋味。 我还发现鸟类华丽羽毛模拟他们喜爱的食物和环境,也有人说西方早发现了。 但是经过考察,可见也是我的发现在先。参看: http://blog.sciencenet.cn/blog-2056-851470.html 我还发现了对称的色觉机制模型,也有人说西方早就有了。 我一查, 也是我在先,西方的还没有我的简洁巧妙。 参看这里: http://blog.sciencenet.cn/blog-2056-677498.html 大多数人见惯不怪, 我相反。所以我的发现比别人多。当然,我也有很多次发现别人早发现的东西, 或者误解前人。所以我也欢迎砸砖。 我最近还发现了第三种贝叶斯定理, 通过它可以用样本求解真值函数或隶属函数(不久推出)。是不是 “ 新大陆 ” 有待读者明鉴。 还有人笑言:苹果砸了很多人, 可是牛顿只有一个。 但是,我要说,没有思考过伽利略的比萨斜塔实验的人被苹果砸了多少次也没用。我至少是最早发现交叉熵用处的两个人中的一个吧?要是交叉熵对于机器学习像能量对于物理学一样重要,朝这个方向走的人(也许是一批人)就会建立机器学习的 “ 牛顿力学 ” 。 总会有人有时候运气好一点 , 捡了大漏吧? ~_~
个人分类: 信息的数学和哲学|9979 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-7 03:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部