科学网

 找回密码
  注册

tag 标签: 笔画

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

汉字的笔画熵以及…
热度 2 zhangxw 2013-11-12 13:38
汉字的笔画熵以及 … 张学文, 2013/11/12 今天再次看在科学网博客上讨论中文的熵与西文的比较文章:“文字之熵”, http://blog.sciencenet.cn/blog-731678-740992.html ,我支持作者的认识。 汉字的结构基础与西文的字母结构基础是不同的,形式地,简单地去比,不能说明什么。也不应当把我们自己搞糊涂了。 当我们提笔写一个英文字母时,它是在 26 个字母中做选择(而且还要考虑是否为数码、大小写的差别方面做选择),当我们写一个中文字时,我们需要在这个汉字有多少笔画中做选择(而且还要在该笔画下的字的具体结构中做选择)。这个选择的难度肯定比选择一个英文字母的难度(信息熵)要大,这个问题体现在汉字单字的笔画熵(不确定性)大。 一个汉字的笔画的不确定性有多大?这就是统计出不同笔画的汉字各有多少(百分比),再根据这个百分比,概率,按照申农熵的定义公式计算出来;而且再考虑其结构的不确定性。这里我们着重讨论汉字的笔画的不确定性。 根据本人先前的统计(见《组成论》一书 18 章 - 汉字的数学美)。如果认同 辞海 给的汉字是 12626 个,而不同笔画的汉字数量是下表,代入计算熵的公式, {- (概率) log2( 概率 )} 的合计值, 我得出汉字笔画的信息熵是 8.27 比特 ,(此数据是第 1 次公布在这里)。 不同笔画汉字的数量、占有的权重,概率和信息熵 {- (概率) log2( 概率 )} 笔画 个数 概率,% bite 熵 笔画 个数 概率,% bite 熵 1 3 0.000184 0.014752 18 567 0.034867 0.362197 2 23 0.001414 0.062653 19 495 0.030439 0.343741 3 74 0.00455 0.131252 20 370 0.022752 0.304555 4 163 0.010023 0.20475 21 264 0.016234 0.261022 5 261 0.01605 0.2596 22 208 0.012791 0.232205 6 464 0.028533 0.334963 23 159 0.009777 0.202074 7 823 0.050609 0.411832 24 121 0.007441 0.174206 8 1084 0.066658 0.445846 25 65 0.003997 0.121434 9 1281 0.078773 0.46454 26 34 0.002091 0.080969 10 1357 0.083446 0.470567 27 27 0.00166 0.069673 11 1445 0.088857 0.476859 28 19 0.001168 0.055112 12 1571 0.096606 0.484751 29 9 0.000553 0.03284 13 1307 0.080371 0.466668 30 4 0.000246 0.018263 14 1188 0.073054 0.456317 31 3 0.000184 0.014752 15 1125 0.06918 0.450148 33 2 0.000123 0.010872 16 956 0.058787 0.430743 35 1 6.15E-05 0.006387 17 788 0.048457 0.406197 36 1 6.15E-05 0.006387 总数 16262 信息熵 单位比特 8.269127 我认为不讨论汉字的这些基础特征,难以对比中英文的信息特征。 附带说一句,在汉字集合中不同笔画 x 的汉字与其数量 y ,的关系是一个很漂亮的曲线,我曾经指出它符合对数正态分布。它对应的图如下。
个人分类: 组成论|7367 次阅读|13 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-17 13:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部