一条信息的信息量的多少与其不确定性有着直接的关系。比如说,我们要搞清楚一件非常不确定的事,或者我们一无所知的事就需要大量的信息。相反,我们对已知事物有较多了解,则不需要太多的信息就能把它搞清楚。从这个角度来说,信息量就等于不确定的多少。(《数学之美》吴军著,第六章,信息的度量和作用)。 不确定性跟事情可能结果的数量以及不同结果的概率分布两个因素有关。 1 )不同结果的概率相等 熵的 统计学定义 是所有可能结果的数量取对数,即信息熵H=logW。 2) 不同结果的概率不等 除了可能的结果数量,还要看初始的概率分布(概率密度函数)。例如一开始我就知道小明在电影院的有 15*15 个座位的 A 厅看电影。小明可以坐的位置有 225 个,可能结果数量算多了。可是假如我们一开始就知道小明坐在第一排的最左边的可能是 99% ,坐其它位置的可能性微乎其微,那么在大多数情况下,你再告诉我小明的什么信息也没有多大用,因为我们几乎确定小明坐第一排的最左边了(摘自 知乎 )。 更准确的信息量的定义由香农提出。信息熵 H=E(-log p i )=-( p 1 *log p 1 + p 2 * log p 2 +…+ p n * l og p n ) ,其中 p 1 , p 2 , p n 分别代表不同结果对应的概率大小。利用上式可以推导出当不同结果的出现概率相等时的特殊结果。 数学上,信息熵其实是信息量的期望。 信息熵的性质: (1)在取值范围固定的概率密度函数中均值分布的熵值最大。 (2)在协方差阵相等的概率密度函数中高斯分布的熵值最大。( 详细证明见 《 独立分量分析的原理与应用 》 ,杨福生著,P20 )