科学网

 找回密码
  注册

tag 标签: 文字熵

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

来说说科学网一些学者讨论的文字熵
热度 5 Avalon2013 2013-11-14 14:09
熵,是物理名字,在信息论里则叫信息量。从控制论的角度来看,叫不确定性。当我们不知道某事物具体状态,却知道它有几种可能性时,显然,可能性种类愈多,不确定性愈大。不确定性愈大的事物,我们最后确定了、知道了,这就是说我们从中得到了愈多的信息,也就是信息量大。所以,熵、不确定性、信息量,这三者是同一数值。 二十世纪四十年代末信息论的奠基人SHANNON建立了一套计算信息数量的方法。我们可以根据事情发生概率的大小,用下式计算信息量 I : I=-log2P 式中P是收到的消息中所指的事件的概率。信息量的单位简称‘比特’ 例如,通常中文电报是四位阿拉伯数字。假定每个阿拉伯数字出现的可能性是相同的,即每个数字出现的概率为十分之一。那么我们 可以计算出收到每个阿拉伯数字所含的信息量为I=-log2(1/10)=3.3比特,因而每个汉字是4×3.3=13.2比特。 英文字母共26个,把空白也算作一个字母,那么共有27个字母。于是每个字母出现的概率为1/27。每个字母的信息量均为-log2(1/27)=4.76比特。拿27个字母来平均,得到的结果也是4.76比特。如果考虑各个字母出现的概率不相同,那么每个字母的平均信息量为 I=-ΣPilog(Pi) 所谓的信息量并不是真正代表信息的数量,而是各个符号之间相互区别的能力。也可以认为是将整个人类的知识划分成多少份的一个指标。 汉字的信息熵计算方法和英文有所不同,是从笔画入手的,如果泛泛的说,“汉字的信息熵”,那就指的是字符集。给定一个字符集,根据它的成员的实际使用频率,来计算它的熵。所以文字的信息熵值也受时代的影响。但是,我们可以很轻松的计算它的上限,比如英文字母就是log2(26)=4.7,康熙字典里汉字字符就是log2(47035)=15.5 。熵越大表示系统的不确定度越大。最大的时候,是所有成员都有一样的概率的时候。汉字信息熵的实验统计显示是9.5左右,小于15.5,说明有很多字有非常小的出现频率,也就是说,不确定性较小了。我们是否能随意增加大量一辈子也用不到的汉字,来无限地增加每个汉字的信息量?中国汉字信息化的先行者学者冯志伟有一个“汉字容量极限定律”,他认为字数达到12366后,信息量不再增加。 脱离信息论谈文字熵没有任何意义,有些人胡扯的什么“低熵文字更精确、更有逻辑”是非常滑稽的。如果想让汉字的熵值变低,你可以少认几个字,谁也没有强迫你去背康熙字典。知识是人在学的,学习的知识越多就必然模糊不精确和知识越多人就要越脑残的逻辑一样荒谬,无知的人肯定熵低。
6164 次阅读|19 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-3 18:20

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部