科学网

 找回密码
  注册

tag 标签: bit合理性

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

信息与信息量的本质
热度 1 accsys 2020-1-10 22:44
姜咏江 关键词: 信息 信息处理 信息熵 前言 什么是信息?时至今日仍然有很多人说不清楚。一谈到信息,常见是一大堆信息的历史,还有各家各派的观点,很少有作者自己的观点。本文想从实际通信数据计量的角度,谈谈有关信息的概念和信息如何度量问题。文中力求简单通俗的给出信息的概念,说清楚香农的信息熵度量同现今实用信息量的关系。希望此文能与读者共同探讨。 信息的概念 简单地说, 信息就是事物的表现和描述 。 事物、表现、描述是人类最基本的一类概念。事物是指世间的万事万物。表现是事物在环境中自身发出的属性。而描述是事物之间的相互关联属性。事物之间通过表现或描述进行相互联系和作用,从而才构成了纷纭复杂的世界。表现是一种直接的形式,描述是一种间接的形式。 一切事物自身的存在总是在一定的环境内表现着,这是事物存在的一种形式,这种形式不以人们或周围的事物是否已经“感知”它的存在为客观现实。当人们或周围的事物感知某事物存在的时候,在人们或其他事物之中就形成了一种区别于被感知事物的描述,这就是信息。举个例子,某处发生了爆炸,那么其周围的环境就会以声音和光等形式将爆炸描述出来,并传递到各个能够接受的事物。由于爆炸周围有空气,故而才会以声光的形式传播。没有爆炸自身的表现,就不会有爆炸现象的描述与传播。因此人们说:“表现是信息的根本,描述是信息的长期存在形式。” 信息既不是物质,也不是精神,信息就是信息。信息依赖事物存在,事物通过信息相互关联。 信息属性与相关概念 正因为信息是表现或描述,故而,信息可以存储、复制、转化、传播、由简单到复杂地综合、从复杂到简单地分析。这些是信息的基本属性。进行信息属性方面的工作,就称为信息处理。数据体现了信息将被处理的特性,因此待处理的信息是人们常说的数据。 信息是事物的表现或描述,自然要涉及到表现或描述什么?用什么表现或描述信息?还有如何得到信息的表现与描述的问题。如何得到信息的表现或描述就是信息处理问题。回答表现和描述什么,引出了信息主体概念。回答用什么来表现和描述信息,引出了媒体的概念。 信息表现描述的对象叫 信息主体 ,信息赖以存在的物质形态叫 媒体 。由信息主体或媒体都可以来划分信息的种类。例如,商业信息,战争信息,这是从信息主体方面分类的。再如,电信息,光信息,声音和文字等信息,这是从媒体方面进行分类的。 由于信息主体纷纭复杂,信息媒体多种多样,才使以往的认识难以准确给信息定义。从信息主体与信息媒体可知,信息不是物质,也不是人们的精神,而是事物关联作用的一种客观形式。主体是信息产生的根源,媒体是信息存在的形式,二者缺一不可。 信息的度量 信息的概念长期遭到的困惑,恐怕是因信息量的问题而起。信息以表现或描述的存储方式,对人类社会很有用,所以信息很早就成为了有价值的东西。特别是现代社会,信息早已经成为了可以交换的商品。商品交换需要度量信息。但由于商品交换价值的随机性,因而信息的计量也曾被左右其中了。 由于信息概念起源于通信学问题,从人类通信的角度来看,同一个消息,对受信者有知晓程度之分,故香浓前辈将信息量定义 为 “ 未知程度 ” 的量度。显然,这种度量信息的方法,只可以说明信息对接受者的 “ 有用程度 ” ,但因为并没有一把统一的尺子,也就不具有 “ 客观性 ” 。 度量不仅要在同一属性内进行,而且一定要有一个统一固定的尺度,这两者缺一不可。香浓的信息量度量,虽然有同一属性的前提,但缺乏统一的尺度(概率难确定),因而不能对不同的信息进行 有效准确 的度量。 计算机的出现,使信息的度量有了客观的,统一的尺子。由于在计算机领域中,用二进制数可以表示一切信息,因而,信息量的大小就可以用二进制数表示的位长来量度, bit 就是统一的尺度。这种量度不会因人而异,不必再通过通信的方式才能度量,所以客观实在,目前被人们普遍接受了。在二进制中,表达的数码的位数是由最高位前一位基数幂 2 n 来确定的。若一条信息是二进制数 N ,那么这个数的位数就是 log 2 N ,于是可定义信息量 n=log 2 N 。不难理解 n 就是 bit 数量。 由于用 k 进制数也可以表示任何信息(这是理论上的,实际上要寻求具体的表达方式),那么 k 进制数 N 表示信息的信息量也可以用 n=log k N 表示, k 是大于 1 的整数。 概率信息量的解释 宇宙间的一切事物无不具有两重性,这就是 “ 确定性 ” 和 “ 不确定性 ” 。信息虽然也是客观实在的东西,但充满了不确定性也是它的一个重要特征。人们最早注意到信息,是来自 “ 消息 ” 。因为各种各样的消息会引导人们的行动。特别是在战争中,消息往往会起着决定战争胜负的作用。消息有真有假,当人们已经知道某个消息之后,这个消息再传来,已经是过时的了,因而就没有对这个消息一无所知的人用处大。可见消息或信息的 “ 可用性 ” 是它们的一个重要属性。从信息对人们的可用性来考虑,同一信息对不同的接收者的作用来说,就有大有小,对于这方面度量研究,就产生了香农的信息熵的概念。 熵实质上就是概率条件下的信息接受者所得到的信息量。 由于信息对不同的接收对象 D 作用不同,香农就想到用事件的概率作为信息量度的依据。假如一个信息接受对象 D 能够用随机变 量 x 表示其构成的样本点,并以概率 p( x ) 向 x 传送信息。由 于 0≤p( x )≤1 ,那么每一个 p( x )“ 这个数 ” 的二进制表示就需要 -log 2 p( x ) 位数码。 从不确定的可能性理解,这个二进制数的位数到传达 到 D 的实际信息量就应该应由 p( x ) 来确定,即为 -p( x )log 2 p( x ) 。作为表达该信息对象 D 的全部的信息量,应具有求和特征。于是用 H 表示 信息 接受对象 D 接受的全部信息量(即所谓的熵),则有二进制数表达的公式 H = - 易知同样可以得出其他进制这样的熵公式。 从香农信息量计算公式的得出,不难看出他首先使用了信息数值化方法。也就是用二进制数来表示概率,其次才找出一种熵的计算公式。虽经千变万化,最终还是以“数码的位数”来确定信息量的大小而已。 古典概型下的熵 在古典概型下,很容易证明所谓的信息熵 H ,就是有 x 个样本点的数 x 的位数 log 2 x 。因为古典概率 p ( x )=1/ x , 所以 H = - = = = log 2 x 二进制编码 人们之所以采用二进制来计算信息量,是因为通信使用二进制编码,计算机也使用二进制编码。信息采用何种度量方式,取决于人们对信息的工作方式,亦即信息处理方式。当然也取决于人们对信息的量化方式。从“可能”到“必然”是人们求知认知的过程。如今人们已经准确地掌握了数字编码和通信的方法,当人们处理一个编码数据的时候,已经基本上没有了那种“不确定性”。而且真的有了错误,还能够及时纠正,因而也就无需非要与“概率”硬拉关系,除非要搞纯粹的“数学理论推导”。 统一采用二进制编码来度量信息量,直观,简单,易于量度,没有二义性,因而被人们现在的信息社会普遍接受。特别是在通信问题中,不会有人提出用bit的数量来度量,有什么不合理的地方。 结言 数字化时代,信息量的计算十分简单,只要数一数以数码方式表达的信息有多少位,就知道这个信息的信息量有多大了,不必再麻烦香农前辈。 依据信息通信和计算机的实践,各种各样的信息都可以用二进制数表达出来,而且信息处理的过程都在用bit进行计量。这种既简单又实用的信息表达与计量方式,不正反映了信息的真谛吗?过多地重复人们对信息艰苦的认识过程,并无更大的意义。
个人分类: 教学笔记|6255 次阅读|2 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 10:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部