科学网

 找回密码
  注册

tag 标签: 信息熵

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

信息熵
liumingjin 2016-10-14 18:55
一条信息的信息量的多少与其不确定性有着直接的关系。比如说,我们要搞清楚一件非常不确定的事,或者我们一无所知的事就需要大量的信息。相反,我们对已知事物有较多了解,则不需要太多的信息就能把它搞清楚。从这个角度来说,信息量就等于不确定的多少。(《数学之美》吴军著,第六章,信息的度量和作用)。 不确定性跟事情可能结果的数量以及不同结果的概率分布两个因素有关。 1 )不同结果的概率相等 熵的 统计学定义 是所有可能结果的数量取对数,即信息熵H=logW。 2) 不同结果的概率不等 除了可能的结果数量,还要看初始的概率分布(概率密度函数)。例如一开始我就知道小明在电影院的有 15*15 个座位的 A 厅看电影。小明可以坐的位置有 225 个,可能结果数量算多了。可是假如我们一开始就知道小明坐在第一排的最左边的可能是 99% ,坐其它位置的可能性微乎其微,那么在大多数情况下,你再告诉我小明的什么信息也没有多大用,因为我们几乎确定小明坐第一排的最左边了(摘自 知乎 )。 更准确的信息量的定义由香农提出。信息熵 H=E(-log p i )=-( p 1 *log p 1 + p 2 * log p 2 +…+ p n * l og p n ) ,其中 p 1 , p 2 , p n 分别代表不同结果对应的概率大小。利用上式可以推导出当不同结果的出现概率相等时的特殊结果。 数学上,信息熵其实是信息量的期望。 信息熵的性质: (1)在取值范围固定的概率密度函数中均值分布的熵值最大。 (2)在协方差阵相等的概率密度函数中高斯分布的熵值最大。( 详细证明见 《 独立分量分析的原理与应用 》 ,杨福生著,P20 )
个人分类: 数据挖掘|3214 次阅读|0 个评论
答网友对信息与信息量的质疑
热度 2 accsys 2015-2-12 13:45
计算机是信息处理的工具,信息的奥妙伴随着计算机的广泛应用与迅猛发展,需要彻底弄清楚到底什么是信息?有人将信息说得很复杂,特别是有热力学定律参杂其中,叫人有些晕乎。下网址文从简单的观念出发揭示了信息、信息量、信息熵,对与错可以一起探讨。 http://blog.sciencenet.cn/blog-340399-291076.html
个人分类: 科研讨论|2296 次阅读|13 个评论
文献阅读笔记(10)-利用信息熵进行网页去噪的方法
FangliXie 2014-6-30 15:29
利用信息熵进行网页去噪的方法 Yi L,Liu B.Web Page Cleaningfor Web Mining through Feature Weighting Proc of the 18th Int Joint Conf onArtificial Intelligence(IJCAI-03).SanFrancisco:MorganKaufmann,2003:43-50 本文的方法 先将 DOM 树转化为 CST 树 (Compressed Structure Tree, 压缩结构树 ), 然后计算 CST 树中节点的信息熵及叶子节点 ( 即页面中的各个块 ) 中的特征的权重 , 继而得到页面的特征向量 (feature vector). ( 疑问:根据特征权重怎么去判断网页噪声呢? ) 几个定义 Global noise( 全局噪声 ) : It refers to redundantobjects with large granularities, which are no smaller than individual pages.Global noise includes mirror sites, duplicated Web pages and old versioned Webpages to be deleted, etc. Local (intra-page) noise( 局部噪声 ): It refers to irrelevant items within a Webpage. Local noise is usually incoherent withthe main content of the page. Such noise includes banner ads, navigationalguides, decoration pictures, etc. 呈现样式 (presentation style) : DOM 树中节点 T 的呈现样式用 S T : r1,r2,…,rn 表示 . 其中 ri 由 Tag,Attr 构成 , 表示节点 T 中的第 i 个孩子节点的标签和属性 . 当两个节点的样式满足下面条件时可以说这两个节点的样式相同: 1) 孩子节点树相同 2) 两个节点的第 i 个孩子节点的 Tag 和 Attr 都分别相同 . 元素节点 (element node ) : 元素节点 E 表示 CST 树中的节点 , 用 Tag, Attr, TAGs, STYLEs,CHILDs 表示 , 其中 Tag 是 E 的标签名称 ,Attr 是 E 的属性 ,TAGs 是 E 的孩子节点的标签序列 ,STYLEs 是 E 所覆盖的 DOM 树中的所有节点 ( 标签 ) 的样式集 ,CHILDs 指向 E 孩子节点的指针 . 下图是 CST 树的一个例子 . CST 树的构造过程 1. 将所有 DOM 树的根节点合并成 CST 树的第一个元素节点 (root). TAGs 是 DOM 树根节点的标签集合 . 2. 计算元素节点的 STYLEs. 即原来 DOM 树中的所有节点的样式 , 相同的呈现样式会被合并 . 3. 进一步合并孩子节点 . 由于 E1,E2 的 Tag 和 Attr 都分别相同 , 接下来比较 E1,E2 的文本内容 . 如果两个节点的文本特征 ( 用 Ii 表示单词出现的频次 , 当 Ii=γ 时则认为是文本特征 ) 满足 |I1∩I2|/|I1 ∪ I2| ≥ λ , 那么就进行合并 . 本文取 γ,λ 为 0.85. 4. 如果没有孩子节点可以合并 , 那么就结束 . 否则取出孩子节点 , 进入第 2 步 . 权重策略 1) CST 树的内部节点 E 的重要度用下式计算 . 其中 ,l=| E.STYLEs|, m=E.TAGs. pi 表示 E.TAGs 中的标签使用第 i 种样式的概率 . 2) CST 树的叶子节点 E 的重要度用特征的 平均重要度 来计算 . ai 表示节点 E 的内容特征 .H E (ai) 表示特征的信息熵 . 由于 NodeImp(E) 只是反映了 E 的局部重要性 , 为了计算叶子节点的权重 , 还需要考虑从根节点到叶子节点的路径的重要度 . 最后权重的计算公式为: 其中 f ij 为特征 ai 在标签 Tj 下出现的频率 . 在实际操作中 , 并没有采用真实的 CST 树的叶子节点来计算 , 而是用叶子节点的祖父母节点来计算 , 因为真实的叶子节点粒度很小 . 3) 页面中块的权重计算出来之后 , 就把具有相同特征的块赋予权重 , 所有的这些特征权重构成页面的特征向量 , 用作聚类和分类的输入量 . 实验分析 1) 数据集 . 2) 衡量指标 . 用 FScore 来评价该方法在分类 (k-means) 和聚类 (SVM) 中的表现 . Lin S H,Ho J M.Discoveringinformative content blocksfrom Web documents Proc of the 8th ACM SIGKDDInt Conf on Knowledge Discovery and DataMining.NewYork:ACM,2002:588-593. 本文的方法 本文认为 TABLE 是 HTML 分块的依据 , 并且认为一个网站的网页同属一个页面群 (page cluster, 即共用相同的网页模板 ). 方法步骤如下: 基于 TABLE 标签从 HTML 中抽取出内容块 然后再从每个内容块中抽取特征 ( 与关键字相关的文本或术语 ) 根据特征在页面群中出现的频率计算特征熵 通过加和得到内容块的信息熵 ( 用 H(CB) 表示 ) 若 H(CB) 值大于阈值或越接近于 1 那么判为冗余块 , 反之则认为该内容块是信息块 . 其中 , 阈值由贪婪法来确定 , 从 0.1 到 0.9 进行实验 , 依次增加 0.1. 实验分析 1) 数据集 . 选取 13 个新闻网站 ( 都用 TABLE 来布局 ), 每个网站选取 10 个页面 2) 衡量指标 . 查准率 (Precision), 召回率 (Recall). 论文点评 由于是较早的一篇文献 , 文中所提出的方法依赖很强的假设前提 , 比如 1) 认为大多数网站利用 TABLE 来布局 2) 认为网站的所有页面属于同一个页面群 3) 认为 dot-com 类的网站都是 ” 上下左右 ” 四个块的布局样式 4) 基于信息熵来判定冗余块的标准跟后续的相关研究有出入 , 即后续研究认为 H(CB) 值大于阈值或越接近于 1 那么判为信息块 , 反之则认为该内容块是冗余块 . 除此之外 , 本文在内容块的抽取 , 信息熵的计算等关键环节描述得很模糊 , 使得读者难以细入研究 .
个人分类: 科研笔记|2861 次阅读|0 个评论
[转载]引文熵
wl2119 2014-6-1 03:08
期刊“引文”指标 熵起初作为热力学中一个十分重要的态函数,有着确切的物理意义,然而它的应用已远远超出这一范畴,广泛运用到信息论、控制论、概率论等其它领域中。信息理论的鼻祖之一克洛德·香农(Claude E. Shannon)把信息熵定义为对离散随机事件出现概率的一种量度。信息熵作为信息的计量,在信息论中有着重要的作用,其数学表达式与统计物理熵的表达式是一致的。这里,我们受信息熵的概念及数学表达式的启发,首次提出了“引文熵”的概念,用以度量期刊的引文和被引在其它期刊中分布的“宽泛度”和“不集中度”(见公式1.6),表征了引文链接范围的宽化和泛化。由于指标5)度量的是期刊在引文分布中的“中心性”。因此,指标5)和6)在一定程度上是互补的。 基于对称链接的期刊引文熵 《基于期刊聚类的科学结构研究》——张琳博士论文
个人分类: 混合聚类|1119 次阅读|0 个评论
对徐晓老师“文字之熵”观点的质疑
热度 11 张能立 2013-11-14 05:07
1、“从庐山之外看庐山” 考虑一幅如图1奔跑的小鹿,采用2部SONY家用数码摄像机拍摄。甲数码摄像机的的摄录格式选择为“HD FX”,乙数码摄像机的摄录格式选择为“HD LP”,拍摄小鹿同一奔跑过程,拍摄时间长度均为1分钟。从对“小鹿奔跑”这个客观事实来说,甲、乙摄像机的录制,都是表达了。问题是:这两种表达是等效果的吗?哪一种表达更清晰(或精确)? 图1 奔跑的小鹿 对于使用过家用DV的人来说,这个问题纯属小儿科的问题。因为,对于SONY家用数码摄像机而言,摄录格式分:HD FX、 HD HQ、HD FM、HD LP。其中FX画质最好,但文件占的存储空间最大;LP则占的存储空间最小,但画质也较差一些。 从上面这个生活经验常识,我们可以看出:甲摄像机的录制比乙摄像机更清晰地表达了“小鹿奔跑”这个客观事实,不过,这是以花费了更多的信息换来的。 2、不同自然语言对“地球绕太阳转”这个客观事实的表述 “地球绕太阳转”这是一条客观真理,我们仅仅用天文仪器观察到了这个客观现象还不够,还必须要用自然语言表达出来,一方面供他人学习,另外一方面作为历史资料保留下来。图2是地球绕太阳转的示意图: 图2 地球绕太阳转 我们看用汉语和英语对于这个客观真理表达产生的差异; 汉语:地球绕太阳转 英语:The earth moves around the sun. 汉语花费了6个字符(汉字)表达了这条客观真理,而英语花费了25个字符和5个空格符,共计30个字符表述了这条客观真理。初看,汉语的表达相当于英语来说,非常给力,于是,就被这种假象所蒙蔽,得出汉语比英语精确的结论。其实,这种观点是错误的。原因如下: (1)大前提1:任何自然语言的表述都存在歧义,因此,用自然语言来表述“大自然的客观真理”都是有损变换。 (2)大前提2:不同的自然语言,对于同一大自然的客观规律的表述,所花费的有效字符越多越精确。(参见数码摄像机摄录格式) (3)小前提:对于“地球绕太阳转”这个客观真理而言,英语的表述所花费的字符远比汉语多。 (4)结论:英语比汉语精确。 上面仅仅是从信息熵这个角度评价的。如果考虑定冠词有加强客观性的效果,时态有强调客观真理的效果,谓语的单复数形式,有强调主语的单复数效果等因素,那么英语对于客观真理的表述,相对汉语而言,其精准度要强很多。 事实上,如果把“The earth moves around the sun”,翻译成“地球绕太阳转”,会把英语如下蕴藏的信息丢掉: (1)earth和sun分别只有一个,而这个信息从汉语的表达看不出来,需要用生活经验来补充。 (2)earth和sun是客观存在的,而不是脑海里面虚构的。这个信息从汉语表达也看不出来。 (3)earth和sun分别是个体名词,而汉语的地球和太阳看不出是个体名词还是集合名词。 (4)英语的表达,是表达一个客观规律。换句话说,这个认知是过去、现在及将来都认为成立的,但是从汉语的表达,也仍然看不出来。 反之,如果把“地球绕太阳转”翻译成英语,必须额外补充上述信息才行。 从上述汉语与英语互译的讨论可以归纳出一条自然语言互译的定理: 定理:从信息熵这个角度出发,只有字符信息熵接近的不同自然语言互译,信息基本不发生变化(增加或减少);如果字符信息熵差异越大的自然语言互译,信息需要增加或减少,信息变化的大小正比于两种自然语言字符熵之差。 例如英语、法语、意大利语、西班牙语、德语等印欧语系语言之间的互译,不同语言表述蕴藏的信息量变化很小,而汉语与上述这些语言之间的互译,不同语言表述蕴藏的信息量变化就非常大,原因就是汉语的熵是9.65,而上述自然语言的熵均是4.0左右。 其实。不论是从信息熵这个角度评价,还是从日常生活来观察,英语比汉语精确是确定无疑的。上面的评价是从信息熵这个角度说的,我们再看看日常生活中的事实。中国加入WTO无论是对于中国来说,还是对于世界来说,都是一件划时代的事情。可是,“中国加入WTO法律文件的英文本、法文本和西班牙文本为正式文本,中文译文仅供参考,不具法律效力。” 。科学网各位老师和同学,我们政府捍卫领土主权的决心,不可谓不大,为什么加入WTO这样涉及中华民族利益和未来,这样天大的事情,咋不捍卫汉语语言权利的呢?为什么不要求洋人认可汉语表述的法律文书,与英语、法语和西班牙语版本法律文书,具有同样的法律效力的呢?事实上,我们现在变成了世界全球工厂,与洋人签订的外贸合同,有用汉语签订的吗?如果说中国以前穷,被洋人讥为“东亚病夫”,现在我们不是仅次于美国的第二大经济体的么?现在该有实力要求洋人用汉语签订合同的吧?即使用英语签订合同,至少也要求汉语版的合同有同等法律效力的吧?问题是,现实生活中,有这样的外贸汉语版具有法律效力的合同文书的么? 3、对徐晓老师的观点的质疑 徐晓老师刚发表了一篇论文字熵的博文“文字之熵”( http://bbs.sciencenet.cn/blog-731678-740992.html )。对于徐老师关于信息熵的介绍和汉语及英语不同的信息熵值,笔者都不持异议,笔者只对徐老师对于汉语和英语不同的信息熵值的解读存在疑问。 徐老师在博文是这样解读的:“换言之一个汉字所包含的信息量大约是一个英文字母的两倍多。这也是为什么我们将一篇中文翻译成英文,篇幅明显变长的原因。再说清楚些,这说明一个汉字表达的意思要比一个英文字母的意思要精确得多。 所以,文字的熵越大,其包含的信息量越大,其单个符号表达则越清楚” 。笔者在徐老师博文下面是如下评论: (1)徐老师好,徐老师没有对“精确”这个概念的内涵给予界定,怎么可以从“一个汉字所包含的信息量大约是一个英文字母的两倍多”这个前提得出“一个汉字表达的意思要比一个英文字母的意思要精确得多”这个结论的呢?其实,我可以用一个字符X表示所有的信息,例如,我这个X字符可以表达所有徐老师这篇文章的信息(假定我这样定义),那么,按照徐老师的推论过程,是否说我的这个X字符比一个汉字还有精确得不知多少倍的呢? (2)我这样定义字符X的含义 X = {{爱因斯坦的观点},{牛顿的观点},...,{徐老师的观点},...,{世界上所有人(自古至今)的观点}};简单说,我的这个X字符,就是孙大圣的“装天袋”,按照徐老师潜在的对字符的精确性定义,我的这个X字符,应该是在精确性方面,打遍宇宙无敌手。徐老师怎么看? (3)徐老师对于汉语和英语熵的分别计算过程和结果,我无异议,但是,对于结果的解读,我持相反看法。徐老师,再仔细想一下,是不是一个字符表达的信息,越少才是越精确?而不是越多才是越精确?恰恰是一个汉字表达的信息比一个英语字符表达的信息多一倍多,就已经证明了汉字表达比英语表达模糊。对于“地球围绕太阳转”这个客观真理的不同自然语言表述,可以视为一种自然语言有损压缩变换,显然,能够采用较少编码表达的,就是通过牺牲精确性为代价,提高压缩比。 (4)徐老师,我给你介绍武汉麻将的打法,有一种打法是叫“打赖子”,这种玩法是,先用骰子撒一个点出来,假如是5点,然后在码好的麻将最后面,第5墩最上一张牌翻开,假如是二万,那么,武汉麻将的规矩是,这门花色牌后面一张牌,也就是三万作为“赖子”。假如这张牌是九万的话,那么循环过来,一万作为“赖子”。这个了“赖子”规定为可以充当麻将里面的任何一张牌。对于这个例子,三万,除了充当三万之外,可以充当五条、发财等等。按照你的定义,这个“赖子”的信息是最大的吧?难道这个“赖子”比二饼这张牌表达的单一信息“精确”?当然,我现在明白你对字符“精确”的定义,但是,这种定义是语言学界公认的么?你这种定义,与皮尺、游标卡尺、千分尺之间的精度的定义类似么?如果按照你对字符精度的定义,那么,我现在可以把测量工具的精度,定义为哪种工具能够测量的范围最大为精度最高。如果我这个定义能够成立的话,那不是得出皮尺测量精度最高,游标卡尺次之,千分尺精度最低?这种观点,学科学的人,哪个能够认同的呢? 4、疑问和遗憾 对于徐老师这篇博文有多达45位网友推荐,其中包括38位实名博主(截止2013-11-14日早),实名博主中有很多是获得了洋博士学位的老师,笔者从这些老师的博文中,受到很多的教益,在此先表示感谢。笔者也推荐了徐老师博文,不过,不是以支持徐老师观点角度推荐的,而是想引起科学网师生 “对于学习及研究现代数学和科学,用什么自然语言更有效?” 这个话题给予高度重视来推荐的。但是,从徐老师博文后面的评论可以看出,除了笔者等个别博主外,其余的博主基本都是赞同徐老师的观点,这让我内心非常悲凉,笔者继续重复呼吁: 如果汉语存在的语言问题,不能成为中国知识分子的共识,那么,中华民族肯定永远处于二流民族这个地位。这个真的是不以人的善良的意志和孜孜不倦的努力为转移的。道理非常简单,当今没有一个现代数学和科学水平是二流的民族,成为了世界上执牛耳的一流民族! 后记:再次鸣谢yuelushan1老师对我的指导和帮助。 参考文献: 1、中国加入世界贸易组织法律文件(原件复制本) http://product.dangdang.com/product.aspx?product_id=8922783 2、冯志伟文化博客:“Shannon怎样测定英语字母的熵值?” http://blog.sina.com.cn/s/blog_72d083c70100pekd.html
个人分类: 科普|6410 次阅读|85 个评论
信息熵
热度 3 lijiankou 2013-5-1 00:30
信息熵是对信息的度量,那什么又是信息呢? 直观上的理解就是,知道我们原来不知道的事物就是获得信息的过程,因此对于个人来说,一件事的未知性越大,即不确定性越大,相应的信息就应该越大,传输或者存储应该付出更多的代价。例如我们说太阳从东边升起,这是一件必然的事,听到这句话没有获得任何信息,因此它的熵是0,信息论中信息与不确定性等价。 有了这个直观认识,可以对其数学化,在数学中表达不确定性的就是概率。在上面的例子中,我们讨论信息的时候,实质上是在说一件事发生的概率大小,这件事有一定概率发生。我们说信息熵是大是小,要明确是哪个随机变量的信息熵,这样才不至于迷糊。一件事发生的概率大,那么它的熵就小,一件事发生的概率小,那么它的熵就大。 问32支球队哪个得冠军,我们可以设一个随机变量X表示得冠军的球队,假设每个球队得冠军的概率相等,那么一个球队的熵x1 表示为 h(x1) = logp(x1), 所有球队求和得到X的熵: 一般情况对数取2为底,表示X对应的比特数。 总之,信息熵可以让我们定量的说出信息有多少,让一个抽象的概念可以定量的描述。另外,当我们说到信息熵的时候首先明确一下是哪个随机变量的信息熵,该随机变量的样本空间是什么,然后运用概率论的知识就可以求出来了。需要注意的是信息量的多少和信息的重要性没有必然的联系,信息熵只是在数量上给了一个数值,并非表示该信息的重要性。 参考 数学之美
个人分类: 机器学习|15407 次阅读|8 个评论
科学方法论--信息论、老鼠毒药问题、称球问题(全文)
热度 13 tianrong1945 2013-3-11 08:40
科学方法论--信息论、老鼠毒药问题、称球问题(全文)
为完整起见并方便阅读,将上次的博文及续篇全文登载于此。 我在帖子“大将军数学题 2- 答案”中,出了一道有关用老鼠检测毒药瓶的附加题: 有 100 只一模一样的瓶子,编号 1-100 。其中 99 瓶是水,一瓶是看起来像水的毒药。只要老鼠喝下一小口毒药,一天后则死亡。现在,你有 7 只老鼠和一天的时间,如何检验出哪个号码瓶子里是毒药? 这儿把它叫做‘ 问题 1 ’,解决此题的方法可谓二进制应用的经典: 首先,将瓶子的 10 进制编号数改成 7 位的 2 进制码。然后,让第 1 只老鼠喝所有 2 进制码第 1 位是 1 的瓶子中的水;让第 2 只老鼠喝所有 2 进制码第 2 位是 1 的瓶子中的水;以此类推下去。这样,每个老鼠第二天的死活情况就决定了毒水瓶子二进制码这一位的数字:老鼠死,对应 1 ,反之为 0 。换言之,将 7 只老鼠死活情况排成一排。比如说结果是“死活死死活活死”的话,毒水瓶子的二进制标签就是: 1011001 ,转换成 10 进制,得到 89 。 这道题可以有很多种在各个参数方向的扩张和一般化。最“通 - 通 - 通 - 通”的解够你研究好一阵子。比如,如果我们把题目稍加变化( 问题 2 ): 有 100 只一模一样的瓶子,编号 1-100 。其中 99 瓶是水,一瓶是看起来像水的毒药。只要老鼠喝下一小口毒药,一天后则死亡。现在,给你 2 天的时间,请你告诉我,你至少需要多少只老鼠,才能检验出哪个号码瓶子里是毒药? 比较原来的题目,这个题目有两个变化:一是给你的时间多了一天。因为老鼠喝毒药 1 天之后死去, 2 天意味着你可以做两次实验,这给了你一个时间方向(实验次数)的空间,有可能让你用更少数目的老鼠,达到同样的目的。 第二个改变是提问的方式。这次的问题是: 你‘至少’需要多少只老鼠?回答这类问题,是只要估计一个下限,对你来说,做实验的小白鼠多多益善,但你的老板要花钱买它们,他得考虑经济效益。当你还没有完全把方案想清楚之前,你好歹给老板一个交代呀。这种时候,信息论能派得上一点用场。 刚才我说‘信息论’,实际上,我们完全用不上什么信息论的任何高深理论,用的只不过是由香农定义的计算信息量的一个公式而已。牛刀杀鸡虽然太大,但用它锋利的小尖给开个小口也未尝不可。 不仅仅是这道题,还有几星期前科学网讨论热烈的“称球问题”,都是能用此‘牛刀’而有所受益的。实际上,我认为,许多问题的解决,都能和这‘牛刀’沾上边。如果从‘信息’的角度来分析某些问题,可以使你更登高望远,对问题能有更深层的理解,更容易融合各学科的间隙,达到借他山之石而攻玉的效果。 科学(不仅限于数学)上的大多数研究,说穿了就是一个处理‘信息’的过程。摈弃无用的信息,想办法得到有用而正确的信息,用以消除原来课题中的不确定性,得到更为确定的科学规律。 那么,我们首先要明白,什么是信息? 这是一个古老的问题,又是一个现代的问题,也是一个迄今为止仍然众说纷纭、悬而未决的问题,特别是在社会所认可的广义信息的层面上。 你要是问:“什么是信息?”,人人都能列出一大串他称之为‘信息’的东西:新闻、消息、音乐、图片……。然而如果问:“信息是什么?”那就难以回答了。因为你可以说:“音乐是信息”,但你不能说:“信息是音乐”;你可以说:“照片是信息”,但你不能说:“信息是照片”。要给信息下个定义是不容易的。‘信息’的定义需要从许多具体信息表现形式中抽象出它们的共性来。 中国古人理解的信息其实很简单,正如李清照的名句中所述:“不乞隋珠与和璧,只乞乡关新信息。”,看来这只是通俗意义上的‘音讯’或‘消息’而已。 现代人比较考究,注重科学。因此而成天琢磨:信息到底是什么?信息是主观的还是客观的?是相对的还是绝对的? 昨天北京发大水,你将这个消息,用电话告知你南京的两个朋友,可是, A 说他早知此事, B 原来不知晓,因此,这条消息对 A 来说,没有增加任何信息,对 B 来说就增加了信息。 B 抱着的小狗好像也听见了电话中的声音,但它不懂人的语言,这对它来说也不是信息。 信息是模糊的还是精确的? 你走到树林里,艳阳高照、和风习习、桃红李白、燕飞鸟鸣,大自然传递给我们许多信息,这些算是没有精确度量过的、模糊的信息。 信息和‘知识’是一码事吗?也应该不是。众所周知,我们的信息化社会虽然充满了信息,但其中“鱼龙混杂,良莠不齐”,以至于大家都希望自己的孩子不要整天沉迷于网上,许多人抱怨:“信息虽发达,知识却贫乏”。所以,信息并不等同于知识! 文学家、哲学家、社会学家……,各家各派都对‘信息’ 有不同的理解和说法。这其中,物理学家们,是如何理解和定义信息的呢? 物理学家们的研究对象是物质和物质的运动,即物质和能量。在他们看来,信息是什么呢?是否能归类进这两个他们所熟悉的概念呢? 信息显然不是物质,它应该是物质的一种属性,听起来和能量有些类似,但它显然也不是能量。物理学中的能量早就有其精确的、可度量的定义,它衡量的是物体(物质)做功的本领。信息与这种‘功’似乎无直接关联。当然,我们又知道,信息是很有用的,个人和社会都可以利用信息来产生价值,这不又有点类似于‘做功’了吗?对此,物理学家仍然摇头:不一样啊,你说的好像是精神上的价值。 信息属于精神范畴吗?那也不对啊,从科学家们的眼中看来,信息,仍然应该是一种独立于人类的主观精神世界、客观存在的东西。因此,到了最后,有人便宣称说: “组成我们的客观世界,有三大基本要素:除了物质和能量之外,还有信息。” 美国学者、哈佛大学的欧廷格( A . G . Oettinger )对这三大基本要素作了精辟的诠释: “没有物质什么都不存在,没有能量什么都不会发生,没有信息什么都没有意义。” 尽管对“信息是什么?”的问题难有定论,但通过与物理学中定义的物质和能量相类比,科学家们恍然大悟:信息的概念如此混乱,可能是因为我们没有给它一个定量的描述。科学理论需要物理量的量化,量化后才能建立数学模型。如果我们能将‘信息’量化,问题可能就会好办多了! 于是,在二十世纪 40 年代后期,一个年轻的科学家,后来被人誉为信息和数字通讯之父的香农,登上了科学技术的历史舞台。 香农的两大贡献:一是信息理论、信息熵的概念;另一是符号逻辑和开关理论。香农的信息论为明确什么是信息量概念作出了决定性的贡献。感谢香农,在定量研究的科学领域中,他将原来模模糊糊的信息概念,天才地给以了量化,使我们大家在解数学问题时也能‘牛刀小试’。 其实香农并不是给信息量化的第一人,巨人也得站在前人的肩膀上。 1928 年,哈特利( R.V. H. Harley )就曾建议用 N log D 这个量表示信息量。 1949 年,控制论创始人维纳将度量信息的概念引向热力学。 1948 年,香农认为,信息是对事物运动状态或存在方式的不确定性的描述。并把哈特利的公式扩大到概率 pi 不同的情况,得到信息量的公式:    H= ∑ -pi log pi 如果计算中的对数 log 是以 2 为底的,那么计算出来的信息就以比特( bit )为单位。 根据香农的信息概念,信息能消除不确定性,而我们在解决数学题的时候,也是要消除不确定性,得到确定的答案。并不仅仅是老鼠问题和称球问题如此,我认为大多数问题都多少是一个‘消除不确定性’ 的过程。因此,我们为何不借用香农的工具,研究研究我们的问题有多少不确定性呢?也就是说,需要多少信息量才能解决这个问题?另外,根据题目所限制的手段,最多能够得到多少信息量?有无可能完全解决这个问题?等等。 具体到老鼠和毒药的问题。 100 瓶液体中 1 瓶有毒,每 1 瓶发生有毒的概率是 1/100 ,这时候要确定毒药瓶所需的信息量 H = -(p1logp1+p2logp2+….+p100logp100) 。 因为所有瓶子完全相同,这是一个等概率问题, p1 = p2 =…=p100 = 1/100 。 得到 H=-log ( 1/100 )。 下面计算从老鼠能得到的信息量。 首先考虑问题 1 ,即给定时间为 1 天的情况。一天后,每只老鼠或死或活,因此,能够提供 1 比特的信息。 7 只老鼠则能提供 7 比特的信息。 再看看刚才列出的确定毒药瓶所需的信息量 H 的公式: H=-log ( 1/100 ) -log ( 1/128 ) = 7 比特。 因此,问题 1 应该可以解决。这个可能性是信息论提供给我们的。实际上,应该不仅仅是可能性,这种计算信息量比特数的方法能启发我们的思维。在解题时,学习别人解题的方法固然重要,而探讨别人是如何想到这种方法的,可能更为重要。在《大将军数学题 2 》的讨论中,就有博友说,如果提到 2 进制,此题就容易了。的确如此,如果不想到 2 进制,对此题往往好像有点束手无策,不知如何下手。 我们再来讨论问题 2 。 所需要的信息量 H 的计算是和问题 1 一样的。然而,从每只老鼠能得到的信息量的计算,却可能会有所不同。这儿我用了‘可能’两个字,是因为我们还丝毫未曾谈及如何解决这个问题 2 。 问题 2 和问题 1 的差别是在于老鼠可以参加接连两次实验。问题 1 中,只能做一次实验时,老鼠有两种状态:死或活。因此它可利用的信息量是 1 比特。如果能做两次实验,两次实验中都有生死的可能性,仅就逻辑而言,老鼠有四种可能情况:生生、生死、死生、死死。但其中的第三种情形:死生,是不可能发生的,因为在第一天的实验中死了的老鼠,不可能在第二次实验后又活过来。所以我们要将第一天实验中死了的老鼠,排除在第二次实验之外。所以,对问题 2 ,老鼠有 3 种状态,每种状态的概率为 1/3 ,因此,从一只老鼠得到的信息量 S=- ( 1/3log ( 1/3 ) + 1/3log ( 1/3 ) + 1/3log ( 1/3 )) = log ( 3 )。 如果将这儿的对数取以 3 为底的话,可以说成,每只老鼠能得到的信息量是一个 3 进制位( trit )。 多少只老鼠才能使总信息量大于 log ( 100 )呢? 解方程: k*log(3)log(100) = 3**k100 ,可得到 k=5 。 因此,至少要 5 只老鼠,这便是问题 2 的解。 问题 2 直接所问的问题已经有了答案:实验至少需要用 5 只老鼠。况且,理论上来说,从 5 只老鼠能提供的最大信息量,转换到可能检验的最多瓶子数: 3**5 = 243 ,已经大大地超过了 100 ,余量很多,将这个数目提供给老板,问题不大。 但是无论如何, 5 只老鼠到底能否判定出有毒的瓶子,还需我们想出具体检验的方案才成定论。 因此,我们继续思考问题 3 (问题 2 的延伸):在能做两次实验的条件下,如何找出有毒的瓶子? 沿着刚才信息量计算的思路,问题 1 最优答案用 2 进制有关的实验方法得到;问题 2 中估计老鼠数目的下界时,用到了 3 进制。那么,在能做两次实验的条件下,找出有毒的瓶子的最佳方案是否与 3 进制有关? 试试看吧。首先,将瓶子的号码转换成 5 位的 3 进制。为什么是 5 ? 5 只老鼠?对,由于同样的原因,最大的号码 100 需要用‘ 5 位的 3 进制’来表示。这 100 个 5 位 3 进制码列表如下: 00000 , 00001 , 00002 , 00010 , 00011 , 00012 , 00020 , 00021 , 00022 , ………… 10201 然后,第一次实验: 从左到右:让第 1 只老鼠喝所有 3 进制码第 1 位是 2 的瓶子中的水;让第 2 只老鼠喝所有 3 进制码第 2 位是 2 的瓶子中的水;以此类推下去。这样,每个老鼠第二天的死活情况就决定了毒水瓶子 3 进制码这一位的数字是不是 2 :老鼠死, 2 ;老鼠活, 1 或 0 。 第一次实验中死去的老鼠没有白死,它的死决定了毒水瓶 3 进制码的这位数字是 2 !虽然这个老鼠为 2 而牺牲了,但很幸运,这一位的数字也被决定了,我们也不再需要这只老鼠。嘿嘿,我们让这个老鼠作出了它的最大贡献,要不然,就不是最优化的方案了。 第一次实验中没死的老鼠也没有白白地冒险,也为我们提供了信息:毒水瓶子 3 进制码的这一位的数字肯定不是 2 !所以,我们可以将 3 进制码这位是 2 的瓶子去除,因为它们肯定无毒。然后…… 第二次实验: 让没死的老鼠喝下所有 3 进制码的该位数字为 1 的瓶子中的水。这个老鼠一天后的死活情况便决定了毒水瓶子 3 进制码这一位的数字是 1 还是 0 :老鼠死, 1 ;老鼠活, 0 。 这个问题可以此类推地扩展成更一般的问题:假设有 n 个瓶子,其中 1 个瓶子中的水有毒,实验的小白鼠喝了毒水 1 天后死去,给你 i 天的时间, k 只老鼠。问 n 的最大值是多少?如何实验,才能检测出毒水瓶来。 答案:有 i 天的时间,你可以做 i 次试验,因为死了的老鼠不能继续试验, i 次试验后,老鼠总共的可能状态有( i+1 )个: 第 1 次就死去、第 2 次死、第 3 次死、……、第 i 次死、一直活着。 能检测的最多水瓶数 n=(i+1)**k 。检测方法:将所有瓶子用 k 位的 (i+1) 进制数编码,然后,遵循上面所述 i=2 类似的过程, i 天之后,根据 k 个老鼠的状态,可以确定毒水瓶的 (i+1) 进制数值。 通过用信息论解老鼠喝毒药的这个简单练脑题,说明科学思维方法之重要性。 作为信息论应用于数学题的另一个例子,再来分析“称球”问题。 称球问题是说,用天平称 k 次,在 n 个球中找出唯一的一个重量不标准的次品球来, n 最大是多少?如何找?有关这个次品球的说法,通常有 3 种变形: 1. 已知次品球是更轻(或更重); 2. 不知次品球的轻重,找出它并确定轻重; 3 、不知次品球的轻重。 利用信息熵的概念,可计算出这 3 种情形下 n 的最大值,并且帮助思考构成算法的过程: 1. 已知次品球是更轻(或更重),这时 n 的最大值 = 3**k ; 2. 不知次品球的轻重,找出它并确定轻重,这时 n 的最大值 = ( 3**k-3 ) /2 ; 3 、不知次品球的轻重,这时 n 的最大值 = ( 3**k-1 ) /2 。 下面首先分析第 1 种问题。为解释起来更为直观,设定 k=3 。换言之,我们的问题是:如何用天平称 3 次,从 27 个球中找出唯一的那个稍轻的球? 27 个球中只有 1 个球稍轻,可能发生的情形为 27 种,每个球为次品的概率是 1/27 。类似于上面所说老鼠试药的问题,要确定是‘哪一只’老鼠,所需的总信息量 =log27 。 在此题中的判定手段,限制了是天平。那么,天平每称一次,最多可以提供多少信息量呢?或者是说,可以为解题消除多少不确定性? 天平称一次后,有 3 种结果:左轻右重( A )、左重右轻( B )、平衡( C )。因此,称一次所消除的不确定性 =log3 。接连称 3 次后,所消除的不确定性 =3*log3= log27 。 根据刚才的分析,这个问题中,判定轻球所需的信息量与天平称 3 次能获得的信息量刚好相等。因此,用最佳的操作方法,有可能解决这个问题。 既然从信息论作出的估算给了我们解决问题的希望,我们就试试看吧。 天平似乎与 3 进制有关,我们便首先优选 3 进制。将 27 个球贴上 3 进制码的标签: 000 、 001 、 002 、 010 、 011 、 012 、 020 、 021 、 022 、 100 、 101 、 102 、 110 、 111 、 112 、 120 、 121 、 122 、 200 、 201 、 202 、 210 、 211 、 212 、 220 、 221 、 222 。 将 3 进制码中,第 1 位(左)为 0 的 9 个球放天平左边,第 1 位为 1 的 9 个球放天平右边,称 1 次。如果天平平衡,则次品球 3 进制码第 1 位是 2 ;左轻右重,第 1 位是 0 ;左重右轻,第 1 位是 1 。总而言之,称这一次,确定了次品球 3 进制码第 1 位的数字。 接下去,继续称,逐次确定次品球 3 进制码各位的数字,问题解决了。这个第 1 类问题不难推广到任意 k 的情形。 下面再分析第 2 类称球问题:次品球不知轻重,最后需确定轻重的情况,具体来说就是,天平称 3 次,要找出 12 个球中那个唯一的又‘不知轻重’的次品球。 将两个问题对比一下,共同之处是都用天平,因此,天平称 3 次能提供的最大信息量仍然是 log27 。不同之处是如何计算找出次品球所需要的信息量。 因为现在要找出的次品球‘不知轻重’,因此,对每个球来说,不确定性增多了,这也是能判定的球的数目大大减少了(从 27 变到 12 )的原因。 现在,考虑这 12 个球,其中一个是或轻或重的次品的各种可能性。如果这个球是‘轻’的次品,记为 - ,‘重’的次品,记为 + ,因此,可能的次品分布情况: 1+ 、 1- 、 2+ 、 2- 、……、 12+ 、 12- 。 共 24 种情形,所需要的信息量则为 log24 。这个值小于天平称 3 次所能提供的最大值,所以,可能有解,那我们就试试看吧。有人说,你用什么信息论扯了半天,最后还是要一个一个地列举,那你这信息论不是多余的吗?科学定律是客观的,但各人的观点却是见仁见智的,我不需要去强人所难,也并非想比较解称球问题各种方法孰好孰坏,孰优孰劣,只是想将信息论用于分析此题,如此而已。 将 12 个球作如下编码: ( 000+ , 000- )、( 001+ , 001- )、( 010+ , 010- )、( 011+ , 011- )、 ( 100+ , 100- )、( 101+ , 101- )、( 110+ , 110- )、( 111+ , 111- )、 ( 200+ , 200- )、( 201+ , 201- )、( 210+ , 210- )、( 211+ , 211- )、 这儿,除了抽取了部分 3 进制的编码之外,还对每个球都给贴上了( + 、 - )两个标签,以表明此球‘或轻或重’而成为次品的两种可能性,也可等效于另一层编码。 然后,将第 1 位为 0 的 4 个球(第 1 行)放天平左边,第 1 位为 1 的 4 个球(第 2 行)放天平右边,称第 1 次。 1 如果天平左轻右重,这也许是第 1 行中的某个球轻了、或是第 2 行中某球重了而造成的: 000- 、 001- 、 010- 、 011- 、 100+ 、 101+ 、 110+ 、 111+ 。 2 反之,如果天平左重右轻,也许是第 1 行中的某个球重、或是第 2 行中某球轻而造成的: 000+ 、 001+ 、 010+ 、 011+ 、 100- 、 101- 、 110- 、 111- 。 3 如果天平平衡,则次品球在第 3 行的‘ 毫不知轻重 ’的 4 个球( 200 、 201 、 210 、 211 )中。虽然是 4 个球,仍然有 8 种可能性: 200+ 、 200- 、 201+ 、 201- 、 210+ 、 210- 、 211+ 、 211- 。 前面两种情形类似,都是将次品球限制到了 ‘ 半知轻重 ’的 8 个球中。所谓半知轻重,是因为该球有一个 已经确定 的附加标签( + 或 - )。 比如说,编码为( 000- )的球是个‘半知轻重’的球,而编码为( 000 )的球是个‘毫不知轻重’的球。对( 000- )来说,尽管尚未确定此球是否是次品,但有一点是明确的:如果它是次品的话,它只能是更轻的次品。而球( 000 )则有‘轻重’两种次品的可能性。 因此,‘半知轻重’球比‘毫不知轻重’球少了一半的不确定性。判定所需的信息量也成为一半。 天平不平衡的情形,问题成为,“称 2 次从这 4 个半知的‘轻球’,及 4 个半知的‘重球’中找出次品球”的问题。 为此,取 2 个 轻球 加 1 个 重球 放天平的一边,另 2 个 轻球 加 1 个 重球 放天平的另一边。称第 2 次之后便将问题归为称 1 次从 3 个 半知轻重 球中找出次品的问题。 这个问题在 David J.C. MacKay 信息论的书中有叙述,借他的图表贴在下面。其中称球的过程看得很清楚,所以不再赘述。 指出一点:在天平平衡的情形,称第 2 次时,需要用到称第 1 次后确定的标准球,即天平上的 8 个球。标准球是能够提供信息的,每个标准球在每次称量中最多能提供 1 比特的信息。 下面再对第 3 类称球问题稍加分析,就是,天平称 3 次,要找出 13 个球中那个唯一的又‘不知轻重’的次品球的问题。 类似于第 2 类问题,将 13 个球作如下编码: ( 000+ , 000- )、( 001+ , 001- )、( 010+ , 010- )、( 011+ , 011- )、 ( 100+ , 100- )、( 101+ , 101- )、( 110+ , 110- )、( 111+ , 111- )、 ( 200+ , 200- )、( 201+ , 201- )、( 210+ , 210- )、( 211+ , 211- )、( 222+ , 222- )、 与第 2 类问题不同的是天平平衡的情况。这时需要从 5 个球, 10 种状态中找出次品: ( 200+ , 200- )、( 201+ , 201- )、( 210+ , 210- )、( 211+ , 211- )、( 222+ , 222- ) 将 5 球中的 3 个放在天平一边, 3 个标准球放另一边。天平不平衡情形的最后一次称法与第 2 类问题同,不同的又是天平平衡时的情形。 天平平衡的情形,留下了 2 个不知轻重的球。因为我们有标准球可用,取 2 个待定球中的任何一个与标准球比较,如果不平衡,此球则为次品,并知其轻重;如果平衡,另 1 球为次品,但不能判定其轻重。 读者可能注意到了,在上面两个用信息熵方法解数学题的例子中,我们经常说:“使用最佳方案”,只有使用最优化的操作方法,才能达到信息论所预期的上限。这儿所说的最佳方案,与信息论中的“最大信息熵原理”有关。 什么是最大信息熵原理?它来自于热力学及统计物理中的熵增加原理。要讲清楚这个问题需要太多篇幅,在此只简单地科普一下。 用通俗的话来说,最大信息熵原理就是当你对一个随机过程不够了解时,你对概率分布的猜测要使得信息熵最大。熵最大就是事物可能的状态数最多,复杂程度最大。换句话说,对随机事件的预测要在满足全部约束条件下,保留各种可能性。 比如,你的女朋友叫你猜猜她的生日是哪一个月?如果你曾经看过她出生不久的照片,是秋天,那你可以猜测她生日是夏季的几率比较大;如果你对此完全没有概念,你就最好是对一年中的每一个月都一视同仁,给予相同的可能性。 另一个例子是买股票投资的时候,专家会建议你买各种类型的不同股票。 “不要把鸡蛋放在一个篮子里!”投资专家说。这句话的意思,其实就是警告你要遵循最大熵原理,对难以预测的股票市场,最好的策略是尽可能多地保留各种可能性,才能降低预测的风险。 在本文中所举的老鼠毒药问题中,尽量让每个老鼠试喝相等数目瓶子的水;在称球问题中,尽可能使天平‘左、右、下’的球的数目相等,这都是考虑最大信息熵原理而选择的最优策略。 参考资料: David J.C. MacKay book :“ Information Theory, Inference, and Learning Algorithms ”
23458 次阅读|20 个评论
最大熵模型(MaxEnt)
hxs91 2013-3-4 19:31
最大熵模型是一个很简单的概率模型,涉及到的知识也不多,简单易懂。 1 ,什么是熵( entropy )? 熵这个词最早是出现在热力学中,现在被广泛使用的信息熵则是信息学的鼻祖香农博士引进的。说的简单点,熵的含义就是“信息的大小”,也就是说熵是一个衡量信息量大小的尺度。 这么解释还是有点笼统,举个例子来说吧。现在我要告诉你一个信息并收你 10 元钱,这个信息是新一任国家主席是谁,那你肯定不愿意给我这 10 元钱,因为这是个显而易见的事情,换言之这个信息所含的信息量就不大。但是如果这个信息是新一任美国总统是谁,那你花 10 元买到这么一个有价值的信息还是很值的,因为在最后结果没有出来之前,谁也不知道美国总统是谁。这就是熵。 先给出熵的定义: $H(p) = - \sum {p(x){{\log }_2}p(x)} $ 对于任意一个随机变量 X ,它的不确定性越大,它的熵也就越大(这是合乎常理的,如果一件事越是让人琢磨不透,那么当有人把正确信息告诉你,你就越会感觉这信息的价值有多大)。 2 ,什么是最大熵( maximum entropy )? 有一句俗话说的是“不要把鸡蛋都放到一个篮子里”,这是因为如果这个篮子出了问题,那么所有鸡蛋都没了。也就是当我们在作考虑的时候,不要人为的人为哪件事出现的概率会高一点,一句话,不要添加任何人为因素,要使不确定性最大。这就是最大熵原理,在一篇文章上这样说到: Information theory provides a constructive criterion for setting up probability distributions on the basis of partial knowledge, and leads to a type of statistical inference which is called the maximum entropy estimate. It is least biased estimate possible on the given information; i.e., it ismaximally noncommittal with regard to missing information . 3 ,最大熵模型 3.1 问题 在 NLP 中有这么一个问题,即对于给定的语料,我们要将其中的内容划分出类别,这也有点类似于词性标注。当然对于这种划分存在很多种,我们要找的是其中最有可能的一种划分,在这里就是找出一种熵最大的划分。 说得更加明确一点,用 A 代表可能的类的集合,用 B 代表可能的语料的集合,最大熵模型 p 拥有最大熵: $H(p) = - \sum\limits_{x \in \varepsilon } {p(x)\log p(x)} $ 其中 x= ( a,b ) ,a$ \in $A,b$ \in $B, 而且 $\varepsilon $ =A $ \times $ B 3.2 表示限制 在语料的上下文关系中,还有各种各样的限制,例如 p(0,1)+p(1,1)=0.6 之类的,我们可以种特征函数来将这些限制表示出来,为了方便说明,下面我用“特征”来代替“限制”。 特征函数是一个从 $\varepsilon $ 到 {0,1} 的映射: ${f_j}:\varepsilon \to \{ 0,1\} $ 假设我们存在 k 个特征,那么我们有如下形式: ${E_p}{f_j} = {E_{\mathop p\limits^ \sim }}{f_j}$ , 其中 1=j=k 。 于是最大熵模型就是要找到一个 ${p^ * }$ ,使得 ${p^ * }$ 满足: $P = \{ p|{E_p}{f_j} = {E_{\mathop p\limits^ \sim }}{f_j},j = \{ 1...k\} \} $ ${p^ * } = \arg \mathop {\max }\limits_{p \in P} H(p)$ 这里说的不是很清楚,在引用的文献中有一个比较简单的例子来说明。 3.3 相对熵的定义: $D(p,q) = \sum {p(x)\log \frac{{p(x)}}{{q(x)}}} $ 关于相对熵有两个定理: 定理1: ( 1 )非负性: $D(p,q) \ge 0$ (2) 相对熵等于 0 当且仅当 p 等于 q ,也就是说 p 和 q 是相同的概率分布。 证明见: http://www.cs.washington.edu/education/courses/cse527/00wi/lectures/lect08.pdf 我们定义: $P = \{ p|{E_p}{f_j} = {E_{\mathop p\limits^ \sim }}{f_j},j = \{ 1...k\} \} $ $Q = \{ p|p(x) = \pi \prod\limits_{j = 1}^k {\alpha _j^{{f_j}(x)},0 {\alpha _j} \infty } \} $ 定理2: 如果 $p \in P,q \in Q,{p^ * } \in P \cap Q$ ,那么: $D(p,q) = D(p,{p^ * }) + D({p^ * },q)$ ,证明详见文后引用。 3.4 最大熵模型 对于最大熵模型可以通过最大熵以及最大似然两个角度来解释,这里只给出最大熵的解释,是通过一个定理来给出的。 如果 ${p^ * } \in P \cap Q$,那么 ${p^ * } = \arg \mathop {\max }\limits_{p \in P} H(p)$,而且 ${p^ * }$ 是唯一的。这正是我们要找的模型。 4 ,模型训练 最大熵模型的训练有一个传统的方法: Generalized Iterative Scaling ( GIS )以及后来一个改进迭代算法 Improved Iterative Scaling ( IIS )。 值得一提的是,最大熵模型尽管有着特别简单的形式,但是训练及其复杂,到今天为止,世界上能有效实现这些算法的耶找不到 100 人,所以后来多为学习所用。 A Simple Introduction to Maximum Entropy Models for Natural Language Processing,Adwait Ratnaparkhi
个人分类: record|30345 次阅读|0 个评论
错误或混淆的“神奇的熵世界”
热度 5 jitaowang 2012-7-29 20:43
作者 : 王季陶 当前大家都很关心刘翔的奥运会比赛表现 . 似乎张三或李四就可以来一个 “ 神奇的 翔 天下 ”. 把所有叫 “ 刘翔 ” 的人在网络上联起来 , 甚至于把 “ 张翔 ”, “ 李翔 ”, … 都包罗在内 , 让他们一个个都做 “ 负熵 ” 测试 . 然后就可以 “ 神奇 ” 地作出判断 : 刘翔在这次奥运会能不能拿到金牌 . 这当然是错误或混淆的 “ 神奇的 翔 天下 ”. 最近的网友们可能说 : 现实版的 “ 神奇的 Lu Jun( 陆骏 ) 世界 ” 比 “ 神奇的 熵 ( 或 entropy) 世界 ” 还要 “ 神奇 ”!!! 据说 : 从陆骏的拼音 lu Jun 可以查到以下的相关人员 : 陆骏: 66 人, 陆军: 425 人, 陆君: 20 人, 卢俊: 74 人 ,卢军: 171 人, 卢君: 11 人, 鲁俊: 23 人, 鲁军: 87 人, 鲁君: 5 人 , 路俊: 7 人, 路军: 91 人, 芦俊: 3 人, 芦军: 18 人, 如果陆骏把所有 Lu Jun 的简历都拿来混为一谈 . 你看是不是远远比 “ 熵 ”, “ entropy ” 或 “ 孙悟空的 72 变 ” 更为神奇 ! 这就是错误或混淆的 “ 神奇的 Lu Jun 世界 ”. 近日有幸聆听了 “ 神奇的熵世界 ” 的学术报告 . 在整个约一小时的 “ 熵 ” 报告中涉及热力学第二定律的 “ 熵 ” 本身不多 , 还会有错; 而且是不加区别地引入了一堆掷硬币的 “(统计 ) 熵 ”, “ 信息熵 ”, “ 社会熵 ” 及 “ 生命熵 ” 等 . 把它们都错误或混淆地当作相同的 “ 熵 ”. 这就犯了一个国内外流行的 “ 泛化熵 ” 理论的共同错误 . 报告中介绍 “ 生命熵 ” 中 “ 负熵 ” 论 . 显然这在当时就是有争议而现在就可以是不符合复杂系统热力学第二定律的错误 . 报告中的信息论 “ 负熵 ” 和真正热力学第二定律的 “ 熵 ” 又怎么可以任意混淆呢 ! 事实上人们知道 : Shannon 的 “ 信息熵 ” 原来根本就不叫 “ 熵 ”, 只是另一位专家说 : 谁也不知道 “ 熵 ” 是什么 , 你也可以把它叫做信息熵 . (不是原话) 于是就有了 Shannon 的 “ 信息熵 ”. 不同的学科 ( 或人和事 ) 可以有联系但决不能混淆 . 否则陆骏就可以说 : 他提交的也是真实的 Lu Jun 简历 . 其实没有学好热力学第二定律并不要紧 , 千万不要一再到各处(也难免网络报道)去误导他人 . ============ 落叶永离 覆水难收 xxx 详述神奇 " 熵 " 世界 2012-05-09 09:08 来源:珠海特区报 中广网珠海 5 月 9 日消息 “熵”是什么 ? 现场的大学生一片茫然,甚至不少人会读错这个字。但“熵”在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,是各领域十分重要的参量。昨天下午,中国科学院院士 xxx 走进北理工珠海学院,为师生揭开这一神秘面纱。 “自然界中存在许多不可逆的过程,如落叶永离、覆水难收。作为描述不可逆过程方向和限度的量,‘熵’便应运而生。” x 院士介绍道, 1865 年德国物理学家鲁道夫·克劳修斯首次提出“熵”的概念,“熵”这个名词的中文译名是我国物理学家胡刚复教授确定的。如今不仅在科技领域,而且在社会科学甚至人文学领域,都随处可见发音“ shang ”为“熵”这一概念。 xxx 教授长期从事凝聚态物理的理论研究,在量子输运和自旋输运理论、磁性纳米结构和巨磁电阻、半导体的热电子输运,以及超导和磁性理论等方面做出系列的创新成果。曾在 SCI 学术期刊上发表论文 200 篇,包括在美国的《物理评论》发表的 20 篇和《物理评论快报》上发表的 8 篇,研究成果被 1000 多篇学术论文引用。 2007 年,当选为中国科学院院士 ;2010 年,当选全国先进工作者。 x 教授说:“我只是南京大学一个普普通通的教授,我每天也挤公车上下班,我只是做好我的研究。” 他在昨天的演讲中勉励北理工珠海学院学子要谦虚严谨,求真务实地做学问。不少同学表示,能听到这样的讲座不仅能拓宽自己的知识面并且起到激励自我的作用。记者刘联 实习生赵秋红 ----- xxx院士讲神奇的熵世界 A+ A- xxx 院士  对绝大多数人来说,熵是一个非常陌生的字眼。 1865 年,德国物理学家克劳修斯首次将熵的概念引入热力学,用来阐明热力学第二定律。在热力学中,熵是测定不能再用来做功的能量的量;在统计物理学中,熵是衡量微观系统无序程度的量;在资讯理论中,熵成为资讯不确定度的量。如今,不仅在科技领域,而且在社会科学甚至人文科学领域,都随处可见到熵这一概念。在澳门科技大学将于下週三( 5 月 9 日下午 4:30 )在大学 N 座礼堂举行本学期第十三场科技大师讲座,届时将邀请中国科学院院士、着名凝聚态物理专家 xxx 先生讲解《神奇的熵世界》。    xxx ,物理学家。南京大学教授。 1945 年 2 月生于上海,籍贯江苏南京。 1967 年毕业于南京大学, 1981 年在该校获硕士学位。现任南京大学微结构国家实验室 ( 筹 ) 主任。    x 院士长期从事凝聚态理论研究,在电子输运理论、低维受限的量子系统和超导理论等方面做出一系列有创新意义的工作。发展了非平衡统计运算元理论,正确处理半导体热电子的输运问题,修正了国际上长期沿用理论方案的缺陷发展了具有多穀能带结构半导体的热电子输运理论在掺杂锰钙钛矿氧化物的庞磁电阻机理研究中合作提出双交换机制和非磁无序相结合的理论模型,运用单参数标度理论计算扩散态和局域态迁移率边,解释实验结果发展了磁多层结构和磁颗粒系统的解析输运理论,正确计算了巨磁电阻的角度依赖性和随颗粒尺度的变化。曾获国家自然科学奖二等奖、江苏省科技进步一等奖等奖励。古往今来,人们为认识宇宙殚精竭虑,许多第一流的科学家为此贡献了一生的精力和才华,但是宇宙是这样浩瀚,人们不禁会问:人究竟能否认识宇宙 ?   本周大师讲座,让我们跟随 x 院士的脚步,一起探索神奇的熵世界。欢迎社会各界人士届时聆听大师讲座,如需查询及报名,可联络大学谘询台(电话: 28881122 ,传真: 28880022 )。 落叶永离 覆水难收 院士xxx北理工详述神奇"熵"世界 2012-05-09 09:00:32 点击: 6 来源:未知来源 /*640*60,创建于2011-10-24*/ var cpro_id = 'u653846'; - “熵”是什么?现场的大学生一片茫然,甚至不少人会读错这个字。但“熵”在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,是各领域十分重要的参量。昨天下午,中国科学院院士 xxx 走进北理工 珠海 学院,为师生揭开这一神秘面纱。    “自然界中存在许多不可逆的过程,如落叶永离、覆水难收。作为描述不可逆过程方向和限度的量,‘熵’便应运而生。”x院士介绍道, 1865 年德国物理学家鲁道夫·克劳修斯首次提出“熵”的概念,“熵”这个名词的中文译名是我国物理学家胡刚复教授确定的。如今不仅在科技领域,而且在社会科学甚至人文学领域,都随处可见发音“ shang ”为“熵”这一概念。    xxx 教授长期从事凝聚态物理的理论研究,在量子输运和自旋输运理论、磁性纳米结构和巨磁电阻、半导体的热电子输运,以及超导和磁性理论等方面做出系列的创新成果。曾在 SCI 学术期刊上发表论文 200 篇,包括在美国的《物理评论》发表的 20 篇和《物理评论快报》上发表的 8 篇,研究成果被 1000 多篇学术论文引用。 2007 年,当选为中国科学院院士; 2010 年,当选全国先进工作者。 x 教授说:“我只是南京大学一个普普通通的教授,我每天也挤公车上下班,我只是做好我的研究。” 他在昨天的演讲中勉励北理工 珠海 学院学子要谦虚严谨,求真务实地做学问。不少同学表示,能听到这样的讲座不仅能拓宽自己的知识面并且起到激励自我的作用。 科技大师系列讲座之 113 讲—神奇的熵世界 5 月 11 日下午 4 时,由教务处举办的科技大师系列讲座第 113 讲《神奇的熵世界》在第一教学楼 B104 学术报告厅举行。此次讲座的主讲嘉宾是著名物理学家、中国科学院院士 xxx 教授。学院副院长康学林、教务处处长杨文彦出席了本次讲座,国际贸易与金融系主任郑贵廷教授主持讲座。   讲座中, xxx 为师生揭开熵的神秘面纱。 x 教授以“熵”字的形成入题,介绍了“熵”这一以难懂而闻名的物理量。“自然界中存在许多不可逆的过程,如落叶永离、覆水难收,作为描述不可逆过程方向和限度的量,‘熵’便应运而生。”据介绍, 1865 年德国物理学家克劳修斯首次将熵的概念引入热力学,用来阐明热力学第二定律,在热力学中,熵是测定不能再用来做功的能量的量;在统计物理学中,熵是衡量微观系统无序程度的量;在资讯理论中,熵成为资讯不确定度的量。如今,不仅在物理学领域,在信息学,生命学甚至社会学领域都随处可见“熵”这一概念。   互动环节中, x 院士对同学们的问题耐心的一一解答,许多同学表示通过这次讲座学到了新的知识,从而拓宽了自己的知识面。讲座在阵阵热烈的掌声中圆满结束。讲座前, x 院士夫妇在康学林副院长等人的陪同下,到我院“院士林”手植木棉,为我院“院士林”再添新绿。 … “格物致理 ” 系列讲座之院士专场 为庆祝南京大学建校 110 周年,物理学院分别邀请 xxx 院士、...到仙林作专题报告。物理、材料、化学等院系本科生参加报告会。报告场场精彩,同学提问踊跃。 3 月 29 日, xxx 院士作报告 “ 神奇的熵世界 ” 。 x 院士通俗生动地诠释了热力学熵、信息熵 和 生命熵的概念,以及在物理、天体、生命科学和信息科学等领域的重要应用。同时介绍了与 “ 熵 ” 有关的众多科学家的故事,给同学们很多思考和启示。 … 四场报告不仅为仙林本科生揭示了美妙的物理世界,而且用物理人从事研究的经历来启迪青年:探索未知领域,要充满对科学热爱的激情,要具备对奇异现象的敏锐,也保持对物理规律探究的执着。(物理学院)
个人分类: 科学发展|6066 次阅读|13 个评论
一场粗心引发的杯具
gghgiser 2010-11-30 16:40
昨天在准备今天下午研究生讲坛PPT的时候MM博士发来信息,让我帮她修改Matlab中信息熵的程序,目的是要把原来计算3个波段图像的信息熵程序推广至能计算n个波段。 实话说我之前做影像融合时候用于评价图像质量的信息熵程序是直接在网上面下载的,那是也没有读懂程序就拿来用了,现在让我改,真有点做贼心虚的感觉,害怕人家抓到我拿人家程序做自己东西的把柄。那时候太急躁了,构思好实验思路以后一心只想赶快做好程序,尽早看到计算结构,没有在意这个信息熵程序的真实含义。就这样,在没有完全理解好公式的情况下按照自己的认识简单重写了那个在网上下载的程序,杯具就这样开始了! 不久以后的昨天,我再次拿到程序,修改的时候才知道这个程序构造的含义,怦然意识到之前的小波基融合论文中只要涉及到信息熵指标的计算结果和由此所下的结论都是错误的!餐具!! 所幸信息熵只是论文中3个指标之一,没有对整篇论文构成直接影响,更所幸的是文章还没有投出去,要不就更惨烈了。也许是上天在给我机会,在我差不多要犯大错误的时候恩赐下提示拉我一把,万幸! 这给了我很大的教训。做事太过于急躁粗心了!平时学习、做研究不静下心来根本是不行的,长此下去悲剧不是不到,只是时候未到而已。 吸取教训,静心,再静心,认真,再认真~~
个人分类: 科研学习|3810 次阅读|1 个评论
[转载]基于复杂性测度和OntoTest软件的仿真模型可信度验证方法
qhhuangscut 2010-7-30 13:13
基于复杂性测度和OntoTest软件的仿真模型可信度验证方法 北京树优信息技术有限公司 摘 要 系统仿真的可信度验证是直接影响产品性能、可靠性和安全性的重大问题.本文提出了基于复杂性测度的模型验证方法和OntoTest软件实现,通过将信息熵、互信息和系统结构认知图方法进行综合,能够定量、客观、真实地评价复杂非线性动态系统的试验数据和仿真数据的整体一致性,并为仿真工程师提供模型改善的建议. 对某家庭轿车40%重叠可变形壁障偏置碰撞的实证研究表明,本方法是一种切实可行的仿真模型可信度验证方法,在复杂非线性动态系统仿真验证方面具有广泛的应用前景. 关键词 复杂性,OntoTest,模型可信度验证,VVA,信息熵,互信息,系统图,乘员约束系统,Madymo 一、引言: 近二十年来,系统仿真研究取得了惊人成就,已经成为现代产品研制必不可少的手段,其可信度直接影响产品综合性能、可靠性和安全性 . 为了得到具有预测性的仿真计算结果,如何进行系统仿真可信度评估一直是仿真界探索的重大问题之一 . 一般而言 , 仿真模型可信度评估的主要工作包括仿真模型的校核、验证和认定 (Verification , Validation , and Accreditation ,简称 VVA) . 其中,校核主要关心模型是否准确地表示了开发者的概念描述和需求规范,验证关心的是模型在具体的应用中多大程度地反映了真实世界的情况,确认是权威机构验收模型、确定模型是否可用于具体应用的过程 . 对仿真人员和决策人员而言, VVA 中最重要的环节是仿真模型可信度验证 (Model Credibility Validation), 其最基本的方法是考察在相同的输入条件下仿真模型的输出与实物试验结果是否一致及一致性的程度 . 由于真是的物理现象往往是十分复杂和非线性动力学问题,因此其模型可信度验证方法必须能够客观、定量和真实地反映该问题的整体复杂性特征 . 但是,传统方法很难处理复杂非线性动态系统模型的可行性验证问题 . 从目前文献看, 传统的模型可信度验证方法分为定性方法、定量方法和定性定量综合方法, 这些方法包括相似理论 、假设检验 、现代谱估计 、系统辨识法 、模糊综合评判法 、层次分析法 、灰色关联分析法 等 . 但是 , 这些方法往往存在如下问题 : 需要人为主观判断因素、对数据序列需要进行预处理,或者对样本数量、概率分布、平稳性等有较多要求,因此不可避免地造成部分信息的丢失或人为地加进一些信息 , 从而产生了误差 . 因此,系统仿真可行性验证问题需要通过与复杂性有关的非线性、非平衡、动态的思想和系统方法来解决 . 目前,信息熵、 互信息与复杂性测度是描述非线性时间序列信息量的重要参数 . 信息熵和 互信息来源于信息理论 , 应用广泛 . 复杂性测度最初定义是由 Kolmogorov 于 1965 年提出的,表征为能够产生某一 (0 , 1) 序列所需的最短程序的比特数,并经 Lempel 和 Ziv 发展成为具体的复杂度算法 . Marczyk 于 2006 年提出复杂性测度是系统结构化信息度量的定义 ,并通过模型无关的计算方法进行复杂系统信息拓扑结构的抽取,广泛应用于非线性科学的研究中 . 然而,将复杂性测度引入到仿真模型可信度验证方面的研究尚未见报道 . 本文基于 Marzyck 的复杂性测度,在仿真数据和试验结果的整体复杂度一致性测量基础上,提出模型可信度验证的评价体系,并形成商业化软件 OntoTest. 该方法的优点是 : 从系统全局分析仿真和试验数据的差异,不需要对数据进行预处理,对样本的分布没有要求,不引入人为主观判断因素,能够处理有噪声、不完全、小样本的数据,因此是一种客观、真实反映系统整体复杂性特征的模型可信度验证方法 . 二、算法简介 2.1 基本思想 基于复杂性测度的仿真模型可信度验证的基本思想是 : 根据原始数据包含的信息熵和变量间的信息结构,计算试验数据和仿真数据的复杂性构成,并根据仿真数据与试验数据之间的复杂性差异作为评价指标,主要包括四大步骤 : Step 1 计算仿真数据的复杂性测度 Cmodel Step 2 计算试验数据的复杂性测度 Ctest Step 3 比较仿真模型与实验结果的一致性,得到可信度指标 (MCI , Model Credibility Index)=(Cmodel-Ctest)/Ctest*100% Step 4 识别对可信度指标贡献最大的变量,用于指导模型改进 . 2.2 复杂性指标的 计算 Step 1 相空间信息分析 : 包括构造相空间(Anthill),计算信息熵(Entropy)、基于互信息(Mutural Information)的广义相关系数(Generalized Correlation Coefficient)、有效相空间(Quick View)识别 . Step 2 整体信息结构认知 : 包括相空间模糊化(Fuzzification)、模糊规则抽取(Fuzzy Rules Extraction)、构造系统认知图(System Map) . Step 3 测量复杂性 : 根据系统图代表的信息拓扑结构(Topology),以及变量之间的信息熵,计算复杂性 . 2.3 相空间信息分析 相空间构造方法是:将每两个变量的样本数据构成散点图(Anthill图), 如图1所示. 相空间所包含的信息通过Shannon 熵测度进行定量计算. 相空间变量之间的非线性相关性通过基于互信息测度的广义相关系数(Generalized Correlation Coefficient)进行定量计算. 广义相关系数采用互信息测度分析两个随机变量中隐含的信息,能够很好地量化线性和非线性的相关性 ,优于传统的Pearson(皮尔森)相关系数、Spearman(斯皮尔曼)等级相关系数和Kendall(肯德尔)的tau 相关系数 .广义相关系数定义如下: 其中 I 为互信息,是两个随机变量统计相关性的测度。 2.4 整体信息结构认知 根据Zadeh 不相容原理(Principal of Incompatibility),复杂系统的不确定性越高,对其的精确描述越困难. 因此,按照一定的模糊水平数将相空间分割成模糊单元,可以快速有效地抽取复杂系统中变量之间的模糊依赖规则 . 模糊水平数可以选择3 水平、5 水平和7 水平,取决于分析粒度(Data Granularity)(图2).经过模糊单元划分后,每个样本点属于某一个模糊单元,即每个样本点的精确数值转化为等价模糊状态向量. 在排除高信息熵和低相关性的相空间图后,得到存在有效信息和结构的相空间。在有效相空间的模糊状态向量上进行模糊规则抽取,形成If-then 形式的模糊推理语句,即: If +Delta X = Delta Y IfDelta X= Delta Y If +Delta X = Delta Y If +Delta X = Delta Y 在所有模糊规则计算的基础上,通过系统图(System Map)对系统整体信息结构进行描述(图3).系统图源自模糊认知图(Fuzzy Cognitive Map)的思想,是一种知识表达和推理技术,用于获取变量间的因果联系和依赖关系 ,也可视为一种复杂系统分析和建模的方法. 系统图System Map是一个三元组U=(V, L, C), 其中: 系统图中节点(即变量)的度(Degree)代表了它与其他变量之间联系的程度,其中度值最大的变量称 为核心变量(Hub). 度有两种定义方法: 4 实证分析 4.1 问题描述 本例考查某轿车正面40%重叠可变形壁障碰撞仿真模型可信度验证问题。由于汽车碰撞是一个十分复杂和强非线性动力学问题,包含了大位移、大转角、大应变、接触碰撞现象,因此其模型可信度验证方法必须能够客观、定量和真实地反映该问题的整体复杂性特征. 利用Madymo 7.1进行某轿车正面40%重叠可变形壁障碰撞仿真,碰撞速度为56km/h. 在前排驾驶员和乘员位置分别放置一个Hybrid III 型第50百分位男性假人,试验时该假人佩戴安全带,用以考核安全带性能和测量前排人员受伤害情况. 根据C-NCAP试验规程,选择有代表意义的动态性能参数进行一致性比较,包括: 偏置碰撞中假人胸部压缩量(chest_dis),胸部三个方向的加速度(chest_accx,chest_accy,chest_accz),髋部三个方向加速度(pelvis_accx,pelvis_accy,palvis_accz) ,大腿载荷(femur). 由于仿真模型全局时间步长对计算结果稳定性影响很大,考虑到模型中有airbag、gasflow 的影响,选取模型时间步长为1e-6s,计算时间从0ms 到200ms. 试验和仿真数据文件的样本点数均为2000个. 从图4 所示时间序列上可以定性、直观地看到数据一致性比较差. 4.2 结果分析 通过4 个步骤考察仿真模型整体可信度,并为改善模型提供参考建议: Step1: 单个变量: 统计信息(定量) Step2: 两变量: 相空间形态(定性); 非线性相关性(定量) Step3: 多变量: 系统图形态(定性); 系统整体复杂性测度(定量); Step4: 模型改进建议: 识别对误差贡献率最大的变量,以便进一步改善模型可信度. 表1 是单个变量的仿真数据与试验数据统计信息差异对比表,可以定量地看到单个变量仿真结果 和试验结果存在较大差异. 图5 和图6 定性地表明仿真结果存在较大随机性和波动,模型存在较大数值噪音. 表2 和表3 表 明仿真和试验数据中相关性最强的前十组变量存在较大差异. 图7 表明试验数据中共有4 个核心变量(Hub),分别是:chest-accx, chest-accz, pelvis-accy, pelvis-accz,它们与其他变量之间的相关性最强; 而仿真数据中共有5 个核心变量,除了chest-accx, chest-accz, pelvis-accy, pelvis-accz 之外,增加了一个变量chest-accy,这说明仿真模型放大了原本不重要的变量. 通过分析系统图的差异得到仿真模型可信度指标MCI=45.9%. 从整体角度看,仿真与试验的一致性只有45.9%,因此,该模型不能用于汽车安全性设计,需要修改仿真模型参数提高仿真模型可信度.图8 表明pelvis-accz 和pelvis-accy 两个变量对误差的贡献达到40%左右.因此,可以通过敏度分析进一步考察对pelvis-accz 和pelvis-accy 影响最大的Madymo 模型参数(比如: 安全带织带刚度缩放系数、安全带限力特性函数、安全带预紧特性函数、安全气囊泄气孔直径缩放系数、仪表板特性函数、座椅座垫刚度加载函数等),并通过试验设计或优化匹配等方法提高仿真模型可信度指标MCI. 5 结论和展望 本文讨论了基于复杂性测度的仿真模型可信度验证方法,以及其软件实现OntoTest 软件在某轿车 正面40%重叠可变形壁障碰撞仿真模型验证中的应用. 实证研究表明,本方法能够从整体角度分析试验和仿真数据一致性,不需要对数据进行预处理, 对样本的分布没有要求,不引入人为主观判断因素,可以处理有噪声、不完全、小样本的数据,因此 是一种能够客观、真实反映系统复杂性特征的模型可信度验证方法,适合于对复杂非线性动态系统的 仿真模型验证. 参考文献 Jeong Keun Lee,Soon Gu Hong,Soon Jo Park. A Correlation Methodology of Airbag Body Block Test and Simulation Using Optimization Technique. SAE World Congress,2004 Balci O. Validation,verification and testing techniques throughout the life cycle of a simulation study. Proc. of WSC' 94 (Winter Simulation Conference), 1994. 郭巍,李云芝,姜振东. 用相似理论讨论仿真的可信度 ,系统仿真学报,1999,l0(2):113-115. 吴晓燕 赵敏荣 刘兴堂 李彦彬. 仿真系统可信度评估及模型验证方法研究. 计算机仿真. 2002 19(3): 李鹏波,谢红卫. 现代谱估计方法在仿真可信度研究中的应用, 计算机仿真,1999,16(1):45-48. 蔡金狮等. 飞行器系统辨识. 中国宇航出版社. 1995 杨惠珍,康凤举,李俊.基于模糊AHP 的系统仿真可信度评估方法 ,计算机仿真,2003,20(8): 43-5. 杨惠珍,康凤举等,层次分析法在水下航行器系统仿真可信度评估中的应用研究,系统仿真学报,2002(10). 魏华梁,李钟武. 灰色关联分析及其在导弹系统仿真模型验证中的应用. 系统工程与电子技术, 1997(2):55-61. 邢修三. 物理熵、信息熵及其演化方程.中国科学(A 辑),31(l):77-86 E.T Jaynes,Information Theory and Statistical Mechanics.Phys Rev,1957,106(4):620-630 Lempel A,Ziv J. On the complexity of finite sequences . IEEE Transactions on Information Theory, 1976, IT-22(1):75-81. J Marczyk,Principles of Simulation-Based Computer-Aided Engineering,FIM Publications, Madrid, 1999. J Marczyk,B Deshpande, Measuring and Tracking Complexity in Science,Inter Journal Complex Systems. 2006 Shannon C E. The mathematical theory of communication. Bell Sys Tech J,1948,27(3,4): 373-423, 623-656 S. Aumonier,Generalized Correlation Power Analysis,in the proceedings of the ECRYPT Workshop on Tools For Cryptanalysis,Krakow,Poland,September 2007 Celluci, C. J.,A.M. Albano,and P.E. Rapp (2005),Statistical validation of mutual information calculations: Comparisons of alternative numerical algorithms Phys. Rev. E,71,066208 Zadeh L A. Fuzzy sets and information granularity. in: Advances in Fuzzy Set Theory and Applications, Gupta, N., Ragade, R. and Yager, R. (Eds.), North-Holland, Amsterdam, 3-18, 1979. CD Stylios,PP Groumpos. Fuzzy Cognitive Map in Modeling Supervisory Control Systems . Journal of Intelligent and Fuzzy Systems,2000,18 (2):83-98. 本文引用地址: http://sciencenet.cn/m/user_content.aspx?id=337135
个人分类: 科研天地|3950 次阅读|0 个评论
热力学熵和信息熵——兼答二傻兄
biozhang 2010-2-1 10:03
张星元:热力学熵和信息熵兼答二傻兄 热力学用熵(统计学熵)描述的是孤立系统的混乱状态;信息论用熵(信息熵)描述的是信息系统的信息量。 熵是系统的无效能量的度量 河水越过水坝流入湖泊;当水面下落时,驱动水轮,可发电,或做其他形式的功;然而一旦水落到坝底,就不能再做功了。水平面上没有任何势能的水连最小的轮子也带不动。处于这两种不同的能量状态的能量分别被称为有效的能量(或自由的能量),和无效的能量(或封闭的能量)。 熵的增加就意味着系统内有效能量的减少。每当系统内外有点什么动静,就会有一定的量的能量被转化成不能再做功的无效能量。被转化成了无效状态的能量成了我们所说的污染(耗散了的能量就是污染)。许多人以为污染是生产的副产品,但实际上它只是被转化成无效能量的原来有效能量 或能源的 一部分 。根据热力学第一定律,能量既不能被创生又不能被消灭,根据热力学第二定律,能量只能沿着一个方向即耗散的方向转化,那么在假定的孤立系统中污染就是熵的同义词。因此,孤立系统中,熵是系统的无效能量的度量。 负熵是积极的 负熵是指系统与环境发生交流而引发的系统自身的负的熵变。负熵总是与系统吸收低熵物、消化低熵物和排出高熵物的整个过程联系在一起的。耗散系统或耗散结构存在与发展的过程,实质上就是它们实现负熵抑制熵增的过程。负熵的实现有赖于环境对系统供应低熵物。耗散系统或耗散结构实现负熵的过程可分为输入、子系统之间的竞争与协同、输出和反馈四个过程;其中,输入是环境对系统的选择,环境可以通过调整输入来控制系统;而输出是系统对环境的反作用,系统可以通过输出影响环境。负熵过程体现了系统的存在是系统与环境的双向选择作用。 负熵是积极的。有机体代谢的实质就是把它自身活着的时候不可避免地产生的全部的熵,转移给其生存的环境的过程,这个过程就是系统实现负熵的过程。因此,生命就是有机体实现负熵的过程。 关于广义的熵 信息论和控制论扩充了热力学熵的含义,把广义的熵定义为事物运动状态的不确定程度(不定度,混乱程度)的物理量;把负熵看作为熵的对立面,用负熵值来度量系统的信息量,负熵值相当于信息量。信息量可反映系统或结构的有序程度、组织程度、复杂性、特殊性,进化或发展的程度;信息可降低系统运动状态的不确定程度,就是消除或减少系统的信息熵,也就是增加系统的信息负熵。 对于耗散结构,输入的负熵也是与输入的能量成正比的。但对于信息系统,输入的信息与输入的能量之间却不存在这种比例关系。例如收音机和电视机,它们的信息是从天线输入的无线或有线信号,输入信号的强弱与信号本身包含的信息量不成比例关系。输入信号的信息量与收音机和电视机电源提供的电功率之间也不存在比例关系。这里,从电源输入的是热力学负熵,而从天线输入的是信息负熵。系统内部的有序化,例如喇叭发出声频的有序化变化的振动,屏幕上呈现的有序化变化的图像,来源于信息负熵;输出音频和视频的强度,取决于电能的供应。这种有序化输出以电源的热力学负熵输入为先决条件,以天线信号的信息负熵为依据,但两者之间却并不存在数量关系。从天线输入的信息负熵才是产生这类信息系统内部有序化的内因。正如人脑活动的有序化与吃饭(供应能量或热力学的负熵)之间不存在数量关系一样。 信息论的负熵概念较热力学的负熵概念含义要广,而且具有更普遍的意义。 广义负熵给许多不同学科提供了一个共同的、统一的词汇,这就有助于为这些不同学科建立一套共同的语言,促进它们的相互渗透和相互丰富,从而实现普里高津提出的广义有序化(实际上就是广义进化)的大一统的目标。
个人分类: 复杂系统|12498 次阅读|11 个评论
信息与信息量的现代定义
热度 1 accsys 2010-1-29 07:42
姜咏江信息的定义:信息是事物的表现或描述。 姜咏江信息量的定义:信息量是表现或描述信息的物质形态基本元素的数量。 我在若干年前就给信息的定义做了如上的表述,并将这样的表述写在了我所著的书中。近期在网上见到信息与信息量的讨论,遂在博客上写了几篇博文(见下面附录),其中最重要的解释了香浓的信息量来源和信息熵表达的意义。后又见到“百度”上有“信息的现代定义”词条,并且未有内容,就将“信息是事物的表现或描述”写上了。后见登了出来,想到应将信息量的定义表述得更通俗一些,于是给出:信息量是表现或描述信息的物质形态基本元素的数量。 我之所以这样给信息量定义,是因为考虑到度量的基本法则:(1)有基本元素,其中有尺度;(2)无论如何,度量的结果有限,不然就不可度量;(3)不同质,不可度量。 有兴趣,就来讨论吧。 2010-1-29 信息是简单还是复杂的概念 信息究竟是一个简单的概念还是复杂的概念?我给信息是这样下定义的:信息是事物的表现和描述。 这个信息的定义大家都能够理解,因而可以说信息是一个十分简单的概念。然而信息的问题讨论了上百年,如果真是这么简单,那么信息学的学者们不是太小题大做了吗?其实长期以来,信息概念的复杂度来自于我们对“事物”、“表现”和“描述”这三个基本概念的认识。 事物是指世间的万事万物。表现或描述是事物存在的基本特征。事物之间通过表现或描述进行相互联系作用。正因为信息是表现或描述,故而,信息可以存储、复制、转化、传播、由简单到复杂地综合、从复杂到简单地分析,这些是信息的基本属性。人为地进行信息属性方面的工作,就称为信息处理。待处理的信息是人们常说的数据。 信息所描述的对象叫信息主体,信息赖以存在的物质形态叫媒体。由信息主体或媒体都可以来划分信息的种类。例如,商业信息,战争信息,这是从信息主体方面分类的。再如,电信息,光信息,文字信息,这是从媒体方面进行分类的。 信息长期的困惑就是信息量的问题,也就是信息如何度量。 信息的度量必须根据其具有的基本属性来进行。由于信息概念起源于通信学问题,从人类通信的角度来看,同一个消息,对受信者有知晓程度之分,故香浓前辈将信息量定义为“未知程度”的量度。显然,这种度量信息的方法,只可以说明信息对接受者的“有用程度”,但因为并没有一把统一的尺子,也就不具有“客观性”。 度量不仅要在同一属性内进行,而且一定要有一个统一固定的尺度,这两者缺一不可。香浓的信息量度量,虽然有同一属性的前提,但缺乏统一的尺度,因而不能对不同的信息进行“统一”的度量。 计算机的出现,使信息的度量有了客观的,统一的尺子。由于在计算机领域中,用二进制数可以表示一切信息,因而,信息量的大小就可以用二进制数表示的位长来量度,bit就是统一的尺度。这种量度不会因人而异,不必再通过通信的方式才能度量,所以客观实在,目前被人们普遍接受了。若一条信息是二进制数N,那么这个数的位数就是log 2 N,于是信息量n=log 2 N。 由于用数可以表示任何信息(这是理论上的,实际上要寻求具体的表达方式),当然用k进制数表达也完全可以。那时用数k进制数N表示的信息的信息量应是n=log k N,k是大于1的整数。 信息有许多属性,按着某一种属性都可以产生一种度量方法,前提必须能够找到统一的尺子。这就如同物体一样,你可以按照它的质量来量度它,也可以按照它的体积来量度,无论哪种度量都要有尺子。究竟我们要采用何种方式度量信息,这跟对信息的需求有关。在计算机科学和二进制通信中,以bit作为信息量的基本单位,统一量度大有好处。 信息的概念很容易理解,但由于表现和描述与科学的发展关系密切,故而体现出多种多样的复杂性。例如量子计算机中的量子bit就不是二进制的,两个量子纠缠的信息表示,很可能就是四进制的关系。如果是三个量子纠缠,信息的表示就可能是八进制的。如果我们能够找到用十进制表示全部信息的方法,那么信息N的信息量就应该是 n=logN。 至此我们应该不难理解,信息的复杂度来源于对信息如何表现和描述。用什么样的物质方式来描述信息,这会随着科学技术的发展,以及人们对客观世界的认识深入,不断地发生变化。物理学之中,对信息的概念研究太纠缠在信息的表达方式上了,这就造成了信息概念难以确定的假象。科学研究的目的不是要将简单的事情搞复杂,正相反,科学研究的目的,是要将复杂的问题简单化,从而让人们都能够理解它,掌握它,从而为我们的生产生活服务。 欢迎讨论。 2010-1-23 香农的信息度量方式实用吗 姜咏江 许多研究者将信息说成一个很抽象的概念。其实,我们时时刻刻在接触着信息,天天在使用信息,如何说信息很抽象?我们天天看报纸,听新闻,不间断地断地聆听世界的声音,嗅闻周围的气味,睁开眼睛就能够看到周围的一切,我们可以触摸物体而感知它的存在,我们可以书写文章来传达自己的心声,…。这一切不都是信息的实在吗? 信息是事物的表现和描述,是客观实在的东西,不论我们是否认识或承认它,它都随时随地地伴随着我们。 宇宙间的一切事物无不具有两重性,这就是“确定性”和“不确定性”。信息虽然也是客观实在的东西,但充满了不确定性也是它的一个重要特征。人们最早注意到信息,是来自“消息”。因为各种各样的消息会引导人们的行动。特别是在战争中,消息往往会起着决定战争胜负的作用。消息有真有假,当人们已经知道某个消息之后,这个消息再传来,已经是过时的了,因而就没有对这个消息一无所知的人用处大。可见消息或信息的“可用性”是它们的一个重要属性。从信息对人们的可用性来考虑,同一信息对不同的接收者的作用来说,就有大有小,对于这方面度量研究,就产生了香农的信息熵(shāng)概念。 由于信息对不同的接收对象作用不定,香农就想到用事件的概率作为信息的量度的依据。假如一个信息能够用随机变量x表示,并以概率p(x)向x传达信息。那么每一个p(x)“这个数”的二进制表示就需要 -log 2 p(x)位,在十进制下则需要-logp(x)位。前面加“-” 号是因为p(x)1,为使熵值为正而添加。 从不确定的可能性理解,这种二进制可能的位数就应该是 -p(x)•log 2 p(x) 或十进制下的 -p(x)•log p(x)。作为表达该信息x的全部信息量,从数的角度出发,应具有求和特征。于是用H表示信息量(即所谓的熵),则有二进制表数的公式为 同样,我们可以得出其他进制的熵公式。 从香农信息量计算公式的得出,不难看出他首先使用了信息数值化方法。也就是用二进制数来表示概率,其次才找出一种数学的计算公式。虽经千变万化,最终还是以“数码的位数”来确定信息量的大小而已。 在古典概型下,很容易证明 H = log 2 x。因为古典概率p(x)=1/x,所以 x H = -∑(1/x•log 2 (1/x) ) 1 x = -∑(1/x•log 2 (1/x) ) 1 x = ∑(1/x )•log 2 x 1 = log 2 x 我们之所以采用二进制来计算信息量,是因为通信使用二进制编码,计算机也使用二进制编码。信息采用何种度量方式,取决于我们对信息的工作方式,亦即信息处理方式。还取决于我们对信息的量化方式。从“可能”到“必然”是我们求知认知的过程。如今我们已经确定地掌握了数字编码和通信的方法,当我们处理一个编码数据的时候,已经基本上没有了那种“不确定性”,而且有了错误还能够及时纠正,因而也就无需非要与“概率”硬拉关系,除非要搞纯粹的“数学理论推导”。 数字化时代,信息量的计算十分简单,只要数一数以数码方式表达的信息有多少位,就知道这个信息的信息量有多大了,不必麻烦仙农前辈。 2010-1-24 信息计量为什么 姜咏江 谈过什么是信息和信息如何用数学方法度量之后,我们来谈谈为什么要对信息计量。 世界上一切事物的计量都是为了用。除了有特殊的用途之外,信息的计量主要是为了公平的交换。在商品市场上,交换的基础首先是数量,其次才是价格,没有数量,就失去了价格的意义。 最典型的,也可以说是“公平”的信息计量,是体现在文字信息上,这也许在信息科学家没有研究之前,人们已经学会了如何度量信息了。计量文字信息量的方法,就是数文字的个数。不论哪一个有文字的民族都是以这种简单的方式对文字信息进行计量的。用文字的数量作为付给作者报酬的标准。用文字数量来确定图书的价格。这一切都显得那么自然,合情合理。用文字来描述事物的人,他们在从事“信息处理”的工作,并在工作中,付出了艰辛的劳动。他们将各种各样的信息搜集起来,然后又转化成用文字描述的形式,这其中需要功底和技巧,就如同我们要将各种各样的信息,进行数字化一样,绝非易事。 一切事物都可以都可以用语言文字来描述,因而一切信息都可以转化成文字信息。由此来看,信息量的问题并不是什么新的发明,而是有文字的历史以来,人们就已经掌握了的问题。用二进制数字来表达信息,应该说是人类的结构最简单的一种文字信息,可以叫“万国通用文字”信息,数码“0”“1”就是其中最基本的文字。0或1在万国通用文字描述中的数量就是信息量! 一个语言文字所占的位置就是一个“bit”,只是由于语言文字之间没有进位关系,故而不能用数学算式来表达一个信息的位数多少。而用数字描述信息x,就能够做到用数学计算的方法,得到数码的位数log 2 x。 信息的计量都是在某种公认的“一致性”基础上进行的。就文字描述事物来说,事物的描述可以是“精准”的,即言简意赅。这种情况下,使用文字的数量会相对少。对同一事物的描述,也可能是“罗嗦”的,那么所用的文字就会较多。在这两种情况下,似乎是以文字数量来计算信息量又不够精确了。其实任何一种计量方法都有误差,只要我们不“计较”那些“无关紧要”的误差,一切不就都变得“精确”了吗? 任何事物抽象到数值化的过程,都会有舍弃误差的过程,从这种情况来看1≠1,只有当我们对实际误差不计较的时候,才是纯数学的1=1。 最后要说,用概率方法计算信息量,不仅因为随机的概率不容易确定,而更重要的是失去了“公认的”一致性,因而在实践中很难应用于信息交换。 呵,科学,你要简单还是复杂? 2010-1-25
个人分类: 教学点滴|10575 次阅读|1 个评论
香农的信息度量方式实用吗
accsys 2010-1-24 16:09
姜咏江 许多研究者将信息说成一个很抽象的概念。其实,我们时时刻刻在接触着信息,天天在使用信息,如何说信息很抽象?我们天天看报纸,听新闻,不间断地断地聆听世界的声音,嗅闻周围的气味,睁开眼睛就能够看到周围的一切,我们可以触摸物体而感知它的存在,我们可以书写文章来传达自己的心声,。这一切不都是信息的实在吗? 信息是事物的表现和描述,是客观实在的东西,不论我们是否认识或承认它,它都随时随地地伴随着我们。 宇宙间的一切事物无不具有两重性,这就是确定性和不确定性。信息虽然也是客观实在的东西,但充满了不确定性也是它的一个重要特征。人们最早注意到信息,是来自消息。因为各种各样的消息会引导人们的行动。特别是在战争中,消息往往会起着决定战争胜负的作用。消息有真有假,当人们已经知道某个消息之后,这个消息再传来,已经是过时的了,因而就没有对这个消息一无所知的人用处大。可见消息或信息的可用性是它们的一个重要属性。从信息对人们的可用性来考虑,同一信息对不同的接收者的作用来说,就有大有小,对于这方面度量研究,就产生了香农的信息熵(shāng)概念。 由于信息对不同的接收对象作用不定,香农就想到用事件的概率作为信息的量度的依据。假如一个信息能够用随机变量x表示,并以概率p(x)向x传达信息。那么每一个p(x)这个数的二进制表示就需要 -log 2 p(x)位,在十进制下则需要-logp(x)位。 从不确定的可能性理解,这种二进制可能的位数就应该是 -p(x)log 2 p(x) 或十进制下的 -p(x)log p(x)。作为表达该信息x的全部信息量,从数的角度出发,应具有求和特征。于是用H表示信息量(即所谓的熵),则有二进制表数的公式为 同样,我们可以得出其他进制的熵公式。 从香农信息量计算公式的得出,不难看出他首先使用了信息数值化方法。也就是用二进制数来表示概率,其次才找出一种数学的计算公式。虽经千变万化,最终还是以数码的位数来确定信息量的大小而已。 在古典概型下,很容易证明 H = log 2 x。因为古典概率p(x)=1/x,所以 x H = -(1/xlog 2 (1/x) ) 1 x = -(1/xlog 2 (1/x) ) 1 x = (1/x )log 2 x 1 = log 2 x 我们之所以采用二进制来计算信息量,是因为通信使用二进制编码,计算机也使用二进制编码。信息采用何种度量方式,取决于我们对信息的工作方式,亦即信息处理方式。还取决于我们对信息的量化方式。从可能到必然是我们求知认知的过程。如今我们已经确定地掌握了数字编码和通信的方法,当我们处理一个编码数据的时候,已经基本上没有了那种不确定性,而且有了错误还能够及时纠正,因而也就无需非要与概率硬拉关系,除非要搞纯粹的数学理论推导。 数字化时代,信息量的计算十分简单,只要数一数以数码方式表达的信息有多少位,就知道这个信息的信息量有多大了,不必麻烦仙农前辈。 2010-1-24
个人分类: 教学点滴|6923 次阅读|2 个评论
试答黄老邪的对联信息熵问题
shanggv 2009-6-23 13:59
shannon 熵是有局限的,它撇开了人的主观因素,只考虑符号(消息)的概率(比如每个汉字出现的概率)。 先讲自信息。如果某一消息出现所能消除的不确定性越大,一旦它发生,消除的不确定性越大,获得的信息量也就越大。反之,要消除对事件发生的不确定性,也就是从不知到知就必须获得足够的信息量。而事件发生的不确定性与事件发生的概率有关。事件发生的概率越小,我们猜测它有没有发生的不困难程度就越大,不确定性就越大。根据客观事实和人们的习惯 ( 主观性 ) ,自信息要满足以下条件: 1 , f ( P )单调递减 2 , p ( ai ) =1 时, f(Pi)=0; 3,p(ai)=0 时, f(Pi)= 无穷大 4 , X,Y 相互独立时, f ( X , Y ) =f ( X)+f(Y) 数学上可证明,这种函数形式只能是对数形式: I=-logpi ,底数 1 ,以 2 为底,算出来的单位为比特。这个比特与计算机的比特有所不同,是抽象的信息量单位。 而信息熵的定义,更准确的说应该是自信息的数学期望,即平均自信息量。在统计物理学中,热熵是一个物理系统杂乱性(无序性)的度量,在概念上两者也有相似之处,因此 借用 了熵这个名称,称为信息熵, Shannon 计算公式为: H=-sigma(pi*logpi); 当所有 pi 相等时, H 达到最大值 , 为 logN. 其中 N 为符号个数。 关于信息熵公式的唯一性,是由其选定的公理性条件决定的( 主观性) ,不同的条件会有其它的信息熵表达式。此处不展开(我不懂)。 下面,尝试解答黄老邪三瓶好酒悬赏的问题: 海水朝朝朝朝朝朝朝落; 白云长长长长长长长消。 这幅对联的信息熵是多少? 根据 主观判断 ,其可能的形式有: 1 , 海水潮,朝朝潮,朝潮朝落 浮云长,常常长,常长常消 2,海水朝朝潮,朝潮朝朝落 浮云常常长,常长常常消 3,海水潮,朝潮,朝潮朝朝落 浮云长,常长,常长常常消 当然,还可以有其它解读,为简化起见,此处假设只有三种,并且假设每种解读的情况(人)一样多(实际情况要复杂得多)。 那么这副对联信息熵咋计算呢? 信息熵只管出现概率,不管具体的主观含义 。 对于海 , 水,浮,云 , 落,消六字,所有人都不会有多种理解,也就是说, 在这幅对联中 只有一种含义(概率为 1 )它们意义的不确定性为 0, 这些字的信息熵均为 0 。 第一个朝,被解读为潮的概率为 2/3, 被解读为朝的概率为 1/3. 可以求得,该朝的信息熵为 0.92 。 依次类推,可以分别求出后面的朝,长的信息熵。所有信息熵加和,就是整幅对联的信息熵了(具体是多少,俺没算)。 以上是最简化的计算方法 , 准确的计算此对联的信息熵,还要考虑更多。 1, 断句,即标点符号 , 是否出现 这一点较易实现,无非就是在每个字后判断,是否出现,计算信息熵。 2, 语义相关 上面的做法是将每个字都看作独立的,但实际的语言中,单字与单字之间,词组与词组之间存在依赖关系。将这些依赖关系考虑进去,要引入条件概率和条件熵才能完整描述。举个例子,朝后面出现潮的概率为 6/10 ,不可能出现朝朝朝或朝潮潮的解读方法。 (主观性) 对于汉语这个信源(系统),也可以计算每个汉字的概率。不过其计算范围不是对联,而是整个汉语了。比如,可以根据潮或潮的某种含义在汉字中出现的概率计算其信息量。 下面附加介绍下信息冗余的概念: y=1- ( H1/H0 ) , 其中 H1 是实际的信息熵, H0=logN 是最大熵, N 是符号数。 由于汉语中每个字出现的概率不等,且相互之间有依赖关系,所以汉语是相当大的信息冗余的。 可以看出,信息熵不但在定义时有主观性,而且实际运用中,也涉及和撇开了主观性。 等批。
个人分类: 地球系统科学|6454 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-23 15:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部