瑞典最近召开了国际信息科学和信息哲学会议。我本想参加, 但是由于种种原因没有参加。 我仔细看了网站,并加入了参会者群。谢谢陈志成,邹晓辉等人的分享。我有点感想,特发此贴。 会议网址: http://sciforum.net/conference/IS4SI-2017 三个分会场, 两个是中国专家主持: 钟义信教主持: http://sciforum.net/conference/IS4SI-2017/is4si-IFEIS (关于信息研究的生态) 邬焜教授主持: http://sciforum.net/conference/IS4SI-2017/is4si-ICPI%202017 (关于信息的哲学) Marcin J. Schroeder and Pedro C. Marijuán 主持: http://sciforum.net/conference/IS4SI-2017/is4si-FIS%202017 (关于信息科学基础) 其中有些我很感兴趣, 比如邬焜和 Pedro C. Marijuan 的对话: A Dialogue about the Nature and Unification ofInformation Science and Information Philosophy , by Kun Wu , Pedro C. Marijuan , Zhensong Wang * 邹晓坤等人关于双语信息定位的文章: Fundamental Law of Information: Proved by Both Numbersand Characters in Conjugate Matrices , Bacong Li 和 Nan Wang 关于欺骗通信的文章: http://sciforum.net/conference/IS4SI-2017/paper/3998 刘海涛和汪培庄教授关于知识生态树的文章: haitao liu 1 and Peizhuang wang , Knowledge ecological trees in factor space † http://sciforum.net/conference/IS4SI-2017/paper/4079 钟义信的 A Theory ofsemantic Information : http://sciforum.net/conference/IS4SI-2017/paper/4000 和信息生态(广义通信)的文章: The Proper methodology for Information Studies : http://sciforum.net/conference/IS4SI-2017/paper/4004 欧阳康关于社会信息研究的文章: On the Emergence of Social Information Sciencein Chinaand Our Research Outline by Kang Ouyang * Zhensong Wang *, Yuyu Jiao 的关于中国信息研究的文章: Discussion on the Necessity of Integrating InformationPhilosophy and Unified Information Science from the Perspective of ThomasKuhn’s Paradigm Theory 看过三个分会的摘要和部分文章, 我感觉, 哲学问题讨论多,科技问题讨论少。 有些文章分类很奇怪,比如明明是哲学讨论, 却分到信息科学基础了(可能讨论信息哲学的文章太多了)。 比如这几篇: Information as a Morpho-Ontological Process by Jordi Vallverdu * show abstract On the Informational Essence of Emergence and Evolution:An Analysis of the New Dualistic Approach by Ping Wang , Jian Wang * Information: Subjective or Objective? by Ron Cottam *, Willy Ranson , Roger Vounckx 也有少数技术性很强的,可能受到篇幅限制,没有技术细节。 比如 Mobile Video Communications based on CloudTranscoding, http://sciforum.net/conference/IS4SI-2017/paper/4075 by Song Rong 等人. Towards Information Ecosystem for Urban Planning—TheApplication of Video Data by Longmei Han , Linbo Qing *, Yonghong Peng , Xiaohai He Augmented reality and percepion of analogue and digitalimages and maps by Piotr Werner * 围绕邬焜的信息哲学观点的文章不少, 说明大家重视,也可能和上次会议有关。有代表性的一篇: Philosophy of Information Leading to the FundamentalTransformation of Philosophy by Kun Wu , Ping Wang * 大多数是肯定的, 也有质疑的: Does Kun’s Philosophy of Information define what isInformation? by Emanuel Diamant * 一个老外的讨论比较详细: PHILOSOPHY OF INFORMATION :: REVOLUTION IN PHILOSOPHY by Joseph E. Brenner * 探讨语义信息的文章有几篇, 都和香农没啥关系, 比如: Meaning generation for animals, humans and artificialagents. An evolutionary perspective on the philosophy of information by Christophe Menant * Homo loquens meets homo informaticus: exploring therelationship between language and information by John Douglas Holgate * 强调技术的人,有人建议用负熵度量信息: What we can discover from Dimensional Analysis of theinformation concept by John Donald Collier * 也有人建议离开 Shannon , 重视算法信息理论 Philosophy of Information: the urgent need to move awayfrom entropy towards algorithmic information by Hector Zenil * 总之, 很少有人谈到和继承香农理论! 我本人一直研究语义信息理论, 参看: http://survivor99.com/lcg/books/GIT/ 自以为继承了香农, 也继承了 Popper , 还继承了 Fisher —— Popper 和 Fisher 都强调假设检验。我崇拜和想继承的三个人中, 后两个没人谈及, 前一个也被绕过去了。 我感觉有点悲哀! 不过,香农理论也确实不能满足很多领域, 比如:自然语言通信;图像语音通信,预测, 检验,估计等涉及假设检验的领域。 但是, 我们真的可以绕过香农信息论研究信息吗?我不以为然!香农的信源, 信道,信道容量, 限误差信息率(信息论失真)等概念都是非常深刻优美的。没有香农信息地方,也不会有语义信息(可以证明, 香农信息是语义信息的上限)。 香农理论的缺陷主要是没有考虑信号的真假和事实检验, 这是可以改进的! 钟义信教授对此很清楚,他的一篇文章就是: Pushig Forward The Cooperation between InformationScience and Information Philosophy by Yixin Zhong * 他提出的语义信息公式至少表面上和香农信息公式有点像: A Theory of semantic Information : http://sciforum.net/conference/IS4SI-2017/paper/4000 (唯一有 Log 的文章)。很可惜, 钟教授好像一直单枪匹马。 我不赞成他的公式(利用 Deluca-Termini 的模糊熵定义信息), 但是赞成他倡导的方向 ——语义信息方向, 以及信息论和人工智能相结合的方向。 其实我在这个方向上已经走得很远了。 用我的语义信息公式, 度量 GPS 信息, 天气预报等信息,检验和估计的信息,都很简单;我已经用语义信息公式解决经典信息论和统计理论难题了(最大互信息和最大似然度难题: http://blog.sciencenet.cn/home.php?mod=spaceuid=2056do=blogid=1060321 )。钟教授可能从来没看过我的文章(我的文章也在《通信学报》等国内外期刊上发表过),也可能习惯于啥都要自己干。 我以为,不仅香农理论是信息研究绕不开的, Popper 理论也是信息研究绕不开的。据考察, 信息量和命题的概率成反比,这是 Popper 首先提出的, Bar-hillel和Carnap提出的语义信息公式只是学习了香农,把Popper的想法写出来而已。 Popper 提出三个世界理论——其中知识构成的第三世界就是间接存在,和邬焜的理论异曲同工。人工智能离不开假设检验,而假设检验是 Popper 哲学的核心。 我相信,信息研究面对香农理论,绕过去,迟早还会绕回来。不过我们需要新的桥梁,连接香农理论和 Popper 理论, 以及Fisher理论的桥梁,使得 香农信息和 Popper的语义 信息相互兼容。 也许我说的不对, 欢迎批评!
一个朋友敬酒,想说一句“大家聚在一起是一种缘分”,因为同桌的人多是老外,他让我给翻译一下。我一想,“缘分”这个词还真不好译成英文,“缘”就是原因,但是译成reason显然不妥;缘分的另一个近义词是命运fate,还说得过去,于是给他译成It’s the fate that brings us together。 咱们中国人讲缘分。两个人不期而遇,算是有缘了;报考同一个学校、又分到同一个班,自然也是一种缘分;相识相恋是前世有缘,结了婚叫喜结良缘——据说要几千年才能修得。可缘分到底是什么不容易说清楚。佛家是最讲缘分的,可是佛家的大师们似乎也没有说个明白。那些流传的故事里,大师们要么说一通亦可正可反、亦真亦幻的话,要么给你再讲一个故事,或者干脆指指别处、笑而不语,总之没有一个确定的说法。以一种简单的看法,缘分至少说了人和人之间的关联,用统计学里的话来说,叫存在相关性。“缘”还通“原”,也就是原因,那就成了更强的因果关系了,甚至超过了纯粹通过统计能够弄得清的范围。 没错,我是要从统计学的角度来说缘分,或者准确的说,接着缘分这个话题说说日常生活中的统计。说两个人有缘,至少在说他们的某些行为体现出了他们之间有相关性。而既然把这一点拿出来说,还因为这种相关性不是显而易见的。不显而易见,一个获得可信结论的办法就是做统计里的假设检验。日常生活中,通常不能严格地界定问题、也不能随机抽取大量的样本等,这种检验只能是简化的和大概的,但是基本思想和统计学中严格假设检验一样。以“不期而遇”中的缘分为例,具体做法是这样的。首先提出一个假设,这里我们假设这两个人没有缘分(即相关性等于零)——当然,你也可以把它当作原假设,再提一个与之对立的备择假设,这里简化起见,只考虑原假设——没有缘分的两个人,在“不期”的 情况,“相遇”是几乎不可能发生的。也就是说,“相遇”是一个不支持这个假设的事件。然后抽样,不期而遇这个事件就是一个试验,相当于一次抽样,一次不期而遇就是抽了一个样本,这个样本的观测结果是“相遇”,也就是“发生”。再来对比在总体中获得这个观测值的概率。人们大体会这样认为,在没有事先约定的情况,茫茫人海中两个人相遇的概率是极低的。在这个国家里我们有亿万同胞,遇到任何一个人的概率是相当的,也就是说遇到任何一个人的概率都只是亿万分之一(如果要讨论概率分布,可以认为相遇发生的概率服从一个均匀分布)。显然,在“不期”的情况下,“相遇”是个小概率事件。而在我们唯一的一次抽样中,这个不支持最初的假设的小概率事件居然发生了,于是有理由否定这个假设,也就是否定“这两个人没有缘分”,反过来说,我们接受这两个人之间有缘分这个事实。这就完成了一个假设检验,通过“不期而遇”这个试验,验证了“有缘”这个事实。所以说,当和一个人不期而遇时,认为和这个人有缘,这是有一定统计学支持的。 事实上,在日常生活中,人们常常做类似的统计分析。昨天和朋友聊及,他说“每个个体都在做统计”,我深以为是。人们的一次观察、一个经历都可以看成是一次试验或者一次抽样,随即能够获得一个观测结果,有了这样的结果我们就能推断事实。这是人们认识世界、发现规律的一个途径。 当然,严格的统计分析远比上面描述的复杂。这种简化版的统计往往难得出可靠的结论,因为存在很多不严谨的地方。起码的一条,日常问题中的统计总体往往是没有清晰界定的,甚至是难以确定的(这是有些问题得不到科学结论的一个原因)。这里谈另外两个不严谨的地方。一个是试验的次数太少,也就是样本量太小了。做过统计的人都知道,样本量越大越可能做出准确的统计推断。上面“不期而遇”的例子里,只有一个观察值,显然容易偏颇。一些人有多次观测的精神,例如认为“一次两次可能属于巧合,多次发生就说明问题了”。个性严谨的人会基于足够多观察才做出判断,而粗放一些的人可能看到一个现象就下结论。这个问题在严谨的学术研究里也存在,例如做案例分析,一般样本容量很小——当然这往往是受限于所研究的问题,很多问题是难以获得大容量样本的,案例分析是最适宜的方法——因故得到的结论难以一般化。 来自日常生活中的“大样本”统计中,一个印象比较深刻的例子是有人发现“博士爸爸(的配偶)一般生女儿”,证据是周围十数个朋友无一例外。相比“不期而遇”,这算是一个“大样本”的统计分析了。但是,这里面仍然可能存在另一个问题,叫同质性(对应于英文里的homophily,当然这个中文译法不尽妥帖),意思是说你抽的那些样本本身可能有内在的相似性,观测的结果可能是这些相似的特征所导致的,而跟要验证的假设中的那个原因没有关系。考虑这样一种不期而遇:你到某个城市去参加一个专业领域的学术会议,和某个同行不期而遇。你们都是在这里狭窄的领域里工作,不约而同在这个领域为数不多的几个会议相遇的概率就很高了。这是因为“研究领域”这个你们共有的特征本身已经大大地缩小了抽样的范围。“相遇”不再是一个只有亿万分之一可能性的小概率事件了。“博士爸爸生女儿”中的统计也可能面临这样的问题——对于影响婴儿性别的因素我不甚了解,举的例子可能不一定恰当——例如,这种观察可能主要集中在某一地区的留学博士身上,而这个博士群体的某个独有的饮食习惯可能会有助于生育女儿。避免“同质性”最直接的办法是进行随机抽样,随机情况下样本内在的相似性就被打破了。两点合在一起可以看到,做严格的统计的一个基本要求是:要进行样本量足够大的随机抽样。 当然,不排除简单粗糙的生活统计能够揭露真理或者发现规律。事实上,有很多规律就是从生活统计中开始被认识的,这些规律大量地体现在长期流传的俗话、谚语之中。一个例子是“物以类聚、人以群分”(西谚里对应于Birds of a feather flock together),这个话从古人说到今人,中国人在说、外国人也说,大家都这么说,说明这个假设不断地被在他们各自的经历所验证。每个个体的试验可能存在样本小和同质性的问题,但是如果把古今中外的试验都放在一起看,就有信心认为达到大样本随机抽样的要求了,于是得出的结论有较高的可信度。事实上,这个现象还真被几位社会学家的严格的分析所证实,2001年他们的文章发表在顶级的学术期刊上。此后,以这个谚语为标题的学术文献层出不穷。另一个例子是“近朱者赤,近墨者黑”。而尚未经严格统计验证的俗话和谚语还可以列出很多:富不过三代、吃亏是福、一山不容二虎、磨刀不误砍柴工、善有善报恶有恶报、一分耕耘一分收获等等。 尽管这种经不严格的生活统计得出的结论带有片面性,人们的另外一项本领却会强化对这些片面的结论的可信性。这项本领就是根据结论去“找”甚至“造”依据、原因。造成一个结果的实际原因往往是多方面的,因此只要你卖力地去找或者造,总是会有所收获的,因此人们这项本领现在非常强大,比较轻易地就能找到自己“心仪”的依据。这时回过头来看当初得出的结论,就显得更加站得住脚了:你看,连依据都找出来了,还有什么好说的呢。于是,易如拾芥地,一个片面的结论被奉为了真理。不能不说,这样事情从有认识世界的尝试开始持续至今。 揣着结果找原因的本事上一个水平,就成了从简单的观察中演绎出一套逻辑甚至理论体系。这项“伟大”的工作,古今中外都有不少富有热情的智者去做。在认识水平不高的条件下,这是知识的重要来源。最容易想到的例子就是古代圣人演绎出的阴阳五行和八卦理论,老祖宗们根据自己对自然和人文现象的长期观察,发展出一整套包罗万象且自洽的逻辑体系。这里有大话题可说,不过且收在这里。