tianrong1945的个人博客分享 http://blog.sciencenet.cn/u/tianrong1945

博文

“熵”- 信息世界也逞强 精选

已有 19690 次阅读 2016-6-30 08:59 |个人分类:系列科普|系统分类:科普集锦|关键词:学者

热统系列之4

上一篇中我们指出,波尔兹曼熵的表达式S = kB ln W中,W是对应于同一个宏观态中微观态的数目,或相空间的体积。这个定义中有一些含糊之处。

首先,“同一个宏观态”是什么意思?无论宏观态是一种人为的约定,还是依赖测量技术来定义的,似乎都不是一个完全固定而清晰的概念。因此,人们可能产生下面的疑问:熵与测量技术有关吗?熵是绝对的还是相对的?这些问题留待以后再深入探究,暂且可将波尔兹曼熵对应的宏观态理解为微观能量相同的状态。由此我们可以进一步假设,对于一个确定的能量Ei,每一种可能的微观构形是等概率的(Pi),这样,波尔兹曼熵的公式,可以表示为概率的形式:

S = -C(Ei) ln(1/ Pi)

上面公式中的比例常数C是能量的函数。如果考虑系统中存在不止一个能量值,而是多个微观能量值E= E1,E2, ….等,波尔兹曼熵公式需要做点修改。1878年,美国物理学家斯(Josiah Gibbs1839---1903)将熵的表达式写成1下面的公式(1):


吉布斯推导出的熵公式(1)将熵的定义从微正则系综扩展到能量不唯一确定的正则系综、巨正则系综以及非平衡态系统,使得熵成为非平衡态统计研究中最基本的物理概念,此是后话。1948年,美国数学家克劳德·香农(ClaudeShannon1916年-2001年)建立信息论,又提出了信息熵的概念,如公式(2)所示2

先看看公式(1)和(2)有何异同?第一,kB是波尔兹曼常数,信息熵当然不予考虑。第二,pi是概率,在吉布斯熵中表示一定能量的微观态出现的概率,信息熵中将它推广到信息论中描述某信息的随机变量的概率。第三,公式(1)中的对数以e为底,(2)中以2为底,这点没有本质区别,两种熵定义中的对数都可以任何实数为底,得到的单位不一样而已,自然对数得到nat,以2为底时得到的单位是bit(比特)。

所以,(1)和(2)的形式是完全一样的。由此,有些人便认为两种熵没有区别,也有人将热力学的熵从信息熵中“推导”出来。实际上,两种熵的确有同样的数学基础,许多概念和结论都可以互相借用,彼此对应,统计物理中也包含了若干与“信息”以及“不确定性”相关的内容。但两者的关联也仅此而已,各有各的物理意义和应用范围,大可不必牵强附会地认为两者等同。

现在让我们回到信息熵。什么是信息?信息的概念既抽象又多变,要给信息下个确切定义是不容易的。信息既不是物质,也不是能量,比较靠谱的说法是:

“组成我们的客观世界,有三大基本要素:除了物质和能量之外,还有信息。”

美国学者、哈佛大学的欧廷格(AGOettinger)对这三大基本要素作了精辟的诠释:

“没有物质什么都不存在,没有能量什么都不会发生,没有信息什么都没有意义。”

科学家们将信息与物质和能量相类比后恍然大悟:要理清信息的概念,必须首先给它一个定量的描述。科学理论需要物理量的量化,物质和能量都是可度量的,量化后才能建立数学模型。于是乎,便有了香农,他年纪轻轻地就登上科学技术的历史舞台,为我们创立了信息论,定义了“信息”的科学意义,成为“信息之父”!

信息量

暂且不追究“信息”的严格定义,本文的大多数例子中将用一段文字来代表信息,很容易看出,文字表达的信息显然是有“多少”之分的。比如,下列的语句中,从前到后5个短句代表了越来越多的信息,即每个句子包含的信息量,显然是越来越大:

“小妹读书”,“小妹今天读书”,“我的小妹今天读书”,“我的小妹今天去学校读书”,“我的小妹今天去城北的中文学校图书馆读老子的书”……

刚才提到的“信息量”,是基于人们通常理解的直观语义。那么,如何按照香农的信息熵公式(2)来理解信息?如何定义信息量?信息熵依赖于概率,因此,它描述的对象是随机变量,以下从两个最简单的例子来说明。(注:这儿首先谈随机变量,不用急于跳到随机过程,也就是说本篇博文尚不考虑任何时间因素

抛硬币的结果是一个2值随机变量,如果硬币两面匀称但图案不同,正反面出现的几率完全相等,各为1/2,那么从公式(2)计算的结果:

S匀称硬币 = (2x0.5)x(-log2(1/2)) = 1bit

掷立方体骰子的结果也是一个随机变量,骰子有6个面,所以该随机变量的取值范围可记为ABCDEF,如果6个面的几率相等,每一个面出现概率是(p=1/6),则:

S匀称骰子 = p(-log2(p))  = log26 > 2bit

上面两个例子中的(-log2(p))项,可以看成是“结果为某一个面”之事件所携带的信息量。概率p总是小于1,使得信息量总为正值。掷骰子时得到“A”(或BC……)包含的信息量大于抛硬币时出现“正”包含的信息量。也就是说,概率越小的事件信息量反而越大,这句话咋一听感觉怪怪的,不过,用刚才有关小妹读书的几个句子对照一下,便发现果然如此。最后一句的信息量比第一句多多了,但第5句“我的小妹今天去城北的中文学校图书馆读老子的书”,发生的几率显然要比第1句“小妹读书”发生的几率小得多,验证了“几率小信息量大”!

如果硬币或骰子不是制造得那么标准对称的,各个面出现的几率不一样,比如说,“正”面的几率为0.99,“反”面的几率仅为0.01。将这样的硬币丢来抛去,你看到的绝大多数情况都是“正”面,你感觉十分无趣。突然,你发现出现了一个“反”面,你因为少见多怪而惊喜,因为它给了你更多的信息:这枚硬币的确是有正反两面的!说明比较不可能发生的事情,当它真正发生了,能提供你更多的信息。

信息熵

掷骰子例子太简单,一点也不“高大上”,但也能说明不少问题。如果要精确计算像小妹读书例子中一句语言包括的信息量就要复杂多了。句子中的每一个字出现的概率有所不同,一句话中所有字的概率以一定方式组合起来,决定了这一句话出现的概率。于是,香农给出公式(2),不仅仅针对语言句子,而是针对一般的所谓“信息源”,用随机变量中所有可能事件信息量的平均值,来度量这个随机变量“信源”之信息,称之为“信息熵”,也叫信源熵,自信息熵等。前面计算而得的S匀称硬币S匀称骰子,都是信息熵。

计算信息熵的公式(2)可以推广到连续取值的随机变量,只需将(2)中的求和符号代之以积分即可。用p(x)取代pi,函数p(x)是信源的事件样本的概率分布。

所谓通讯,就是信息的传输过程,简单地说包括信源(发出)、信道(传送)、信宿(接收)三个要素。比如说,老林收到小张一条微信消息,小张发出的消息可看作是信源,微信是信道,老林接收到消息是信宿。香农的信息熵,不仅可以描述信源,也能描述信道的容量,即传输能力,香农的理论将通信问题从经验转变为科学。

对上面我们所举的“小妹读书”的语言例子,容易使人从“语义”上来理解传递的信息量。这种理解基于人们的经验,或许与信息量有点关系,但完全不能等同于通信工程方面所说的信息量,就科学而言,上例中每句话的信息熵是可以从每个字的信息量严格用公式计算出来的,与那几句话仅仅就语义而作出的判断完全是两码事。比如说,工程上计算中文英文信息熵的方法便与日常所谓的“语义”无关,英语计算中不是用单词,而用字母,虽然单个汉字有字义,一个英文字母没有任何语义。

英语有26个字母(没计算空格),假如每个字母使用时出现的几率相同的话,每个字母的信息量应该为:

信息量(1个英语字母) = (-log2(p英文))  = -log2(1/26)  = 4.7bit

而汉字的数目大多了,常用的就有2千多个(约2500个),假如每个汉字出现几率相同的话,每个汉字的信息量为:

信息量(1个汉字) = (-log2(p汉字))  = -log2(1/2500)  = 11.3bit

刚才计算的英文字母信息量和汉字信息量都是假设所有元素出现几率相同的情况,但这点完全不符合事实,英文中26个字母各有各的概率,中文的几千上万个字出现概率也大不相同。所以,如果想要计算一段话的信息熵,就必须知道其中每个字的概率后再来计算。尽管不知道“小妹读书”例子中每个汉字的概率,但后面的每一句话都包含了前一句话中的所有的“字”,从这一点起码可以判定,那5句话的信息熵,的确是一个比一个大。

从上面的计算可知,对平均概率分布而言,英文字母的信息量为4.7bit,一个中文字的信息量11.3bit,这是什么意思呢?设想有一本书,分别有英文版和中文版,再进一步设想两个版本都没有废话,表达的信息总量完全相等。那么,显然地,中文版的汉字数应该要少于英文版的英语字母数,不知道这算不算汉字的优点,但却显然是我们观察到的事实:从英文翻译而来的中文书,页数要少多了。

香农的理论以概率论为工具,所以信息熵更是概率论意义上的熵。统计力学也用概率论,在描述不确定性这一点上是一致的,但统计和热力学的熵更强调宏观的微观解释,以及熵表达的时间不可逆等等物理意义。统计物理中的熵是系统的状态量,大多数情况下不用作传递量,信息论中很多情况将熵也用作传递量,似乎更容易混淆。实际上,不知道是否真的有那么多的场合,难道都必须要使用“熵”这个名词吗?

自信息熵、条件熵、联合熵、互信息

(未完待续)

参考文献:

1Willard, Gibbs. (1878). “On the Equilibrium ofHeterogeneous Substances: Abstract by the Author”, American Journal of Science,3 ser., Vol. XVI, pgs. 441-58, Dec.

2C.E. Shannon, A Mathematical Theory of Communication, BellSystem Technical Journal, vol.27, pp.379-423, 623-656 July, October 1948.




https://m.sciencenet.cn/blog-677221-987651.html

上一篇:“熵”- 名字古怪性乖张
下一篇:“熵”- 再谈信息论的熵

19 葛永华 王国强 危健 季顺平 田云川 彭星光 应行仁 韦玉程 李颖业 qiue shenlu ep4h xlianggg yangb919 wliming zjzhaokeqin yzqts ZYHDZ sunyang86

该博文允许注册用户评论 请点击登录 评论 (45 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 22:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部