科学网

 找回密码
  注册

tag 标签: 语义信息

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

发表了一篇英文长文:语义信息G理论和逻辑贝叶斯推理for统计学习
热度 1 lcguang 2019-8-21 01:04
这是我近五年研究的总结, 也基于我以前的研究结果。 发表的期刊是:Information: https://www.mdpi.com/journal/information 文章是: https://www.mdpi.com/2078-2489/10/8/261 英文open access 期刊, 不限长度。 我用的方法——语义信息方法——与众不同, Information正好适合我。同行评论要过两关,要老实按reviewers要求,逐条回应。以前不知道,吃过大亏。 西方研究语义信息论的名人Luciano Floridi和 Wolfgang Johannsen 也在上面发表过文章。 Flridi还是Information中 Information Theory and Methodology Section 的编委。 现在可以让大家比较了。 文章有30多页。我很开心, 等于发表了四篇。我以前发表的一篇英文也是很长的 http://www.survivor99.com/lcg/english/information/GIT/index.htm ,40多页。好像短的反而难发表——只发表过会议。可能新东西不全面就很难让人理解。 我的文章中,背景包含两个部分: 1.从Shannon信息论到语义信息G理论, 也谈及其他人的语义信息理论(包括Floridi和钟义信教授的); 2.从传统的贝叶斯预测到逻辑贝叶斯推理, 主要是对贝叶斯推理(Bayesian Inference)的挑战。 方法包含我独创的4个信道匹配算法: 1.语义信道匹配香农信道,求解多标签学习函数——隶属函数——的简单方法。但是最重要的应用是求解if-then叙述的确证度。 2. 两个信道相互匹配:求解多标签分类;比流行的方法简便很多。 3. 重复两个信道相互匹配,迭代算法, 求解最大互信息分类。根据特征求解最大互信息分类或估计,这可是Shannon信息论和经典信息论留下的难题。 4. 两个信道相互匹配,通过求解最大通信效率G/R, 求解混合模型. 顺便证明EM算法所依据的混合模型理论是错的。 文中提供了不少例子;补充存料还提供了这些算法的Python 3.6程序。都是我自己编的。方法应用迫使我学习Python编程。幸亏我是老程序员 。 对于机器学习,2,3用于分类是很实用的; 难度最大的是求解混合模型,特别是证明迭代收敛。 但是最有理论意义的是提供新的确证度b*. 归纳问题由来已久。由于绝对正确的全称假设的归纳被否定,归纳问题演变为求不完全正确假设的归纳问题——即确证度计算问题。证伪主义者Popper也曾试图解决这一问题。早期逻辑贝叶斯主义者凯恩斯和卡尔纳普企图用逻辑概率或条件逻辑概率(在0和1之间变化)表示确证度,但是现代归纳主义者大多用可信度或归纳支持度(在-1和1之间变化)表示确证度(见这里http://www.fitelson.org/probability/comp.pdf )。 我的确证度也在-1和1之间,但是和流行的确证度不同, 流行的确证度主要取决于正例是否多,而我的确证度b*主要取决于反例是否少——这就兼容Popper的证伪思想。要让大家信服, 还需要继续努力。 我相信我的确证度公式迟早会被大多数人接受, 不过其命运可能就像我的色觉模型( http://blog.sciencenet.cn/home.php?mod=spaceuid=2056do=blogid=1160412) 。 徐匡迪院士呼吁研究算法:http://www.sohu.com/a/312151330_680938 我的努力就是。但是这样的文章在还真不容易再 国内期刊 发表。我的最大互信息分类文章就再三被拒绝。不知道审稿人是否知道:Shannon及后来者至今无法解决这一问题!这应该是信息论王冠上的钻石啊! 一个中文初稿见:http://www.survivor99.com/lcg/CM/Homepage-NewFrame.pdf 关于语义信息论和统计学习的更多讨论见:http://www.survivor99.com/lcg/books/GIT/ 欢迎交流。
个人分类: 信息的数学和哲学|3014 次阅读|2 个评论
用第三种贝叶斯定理求多标签分类——有简单方法何必用复杂的?
lcguang 2018-6-12 12:01
作者以前研究语义信息论,最近研究了多标签分类基本方法,觉得,从语义通信的角度 看, 结合已有的方法,应该能得到更简单更合理的方法。下面是最近研究的一个总结。、 本文使用交叉熵方法,即用样本分布代替样本序列。 参考文献:  Wikipedia 的多标签学习介绍: https://en.wikipedia.org/wiki/Multi-label_classification  张敏灵和周志华的多标签学习文章:A Review on Multi-Label Learning Algorithms http://cse.seu.edu.cn/people/zhangml/files/TKDE%2713.pdf  张敏灵等人关于二元关联的文章: http://cse.seu.edu.cn/people/zhangml/files/FCS%2717.pdf  本文作者的有关研究: http://survivor99.com/lcg/CM/Recent.html 其中有《从贝叶斯 推理到逻辑贝叶斯推理》后面简称《逻辑贝叶斯推理》。 全文见: http://survivor99.com/lcg/CM/Multi-Label_talk.pdf
个人分类: 信息的数学和哲学|2936 次阅读|0 个评论
语义信息的几何模型(回顾2005年发表的观点)
geneculture 2018-3-13 08:42
暮然回首: 语义信息的几何模型 ,简称: 语义模型 ,即: 语义三棱锥 或者 语义金字塔 (Tri-Pyramid);或: 信息模型 ,即: 信息四面体 (Information Tetrahedron),它是《信息学基础研究》作者邹晓辉在 2005 ( 北京 )首届“信息科学交叉研究学术研讨会”正式提出的一个理论模型。 该文指出:《信息科学原理》 作者 钟义信把 信息 比作 多面体 凸显了一般信息学的 困难 。因此,《信息学基础研究》作者邹晓辉设想:部门信息学诸学科好比从不同角度直接 观察 与 分析 这个信息 四面体 或语义 三棱锥 (涉及智的 四要点 )。这就为借助协同智能计算系统来间接而高效地观察与分析信息多面体或语义多棱锥(涉及智的多要点)提供了以简驾繁的科学研究途径,从而开辟了一般信息学研究的新途径。 公知的 数学 定理 说: 四面体 是最简单最基本的 多面体 。任意复杂的多面体都可归结为或转化为若干个简单的四面体。因此,研究四面体是研究多面体的一条基本路径。正因为如此,所以,只要语义模型或信息模型与几何模型之间存在可比性,就可采用相同的策略。 也就是说,掌握信息四面体可为更有效地探知信息多面体提供理论上的基础性指导。这比盲人摸象式地直接研究信息多面体的常规做法更可取。理由是:研究信息四面体可以得出唯一而确定的结果及结论,而研究信息多面体则会得出多种多样不确定的结果及结论。与其直接为不可为之事,不如先为可为之事(即打好基础、创造条件)进而再把不可为之事转化为可为之事而为之。如先熟悉“三位一体”简单变换,然后借助计算机去探究“多位一体”的复杂变换,这自然容易得多。一旦众人掌握“语义、信息与智”的统一理论,对深入研究“信息、语义与智”的细节,理顺部门信息学各学科与一般信息学的关系,研究一般信息学的框架和细节,就有了高屋建瓴的行动指南。再借助互联网及计算机辅助知识信息数据处理方法及工具的支持(如间接形式化方法及其系列产品,乃至一体化管理方法及其系列服务),就可为整个信息学体系全方位全过程探讨创造更有利的条件。那样,标准化与个性化兼容的信息概念体系的总论及各论,也就可望早日建立建全,至少可加速一般信息学同仁达成共识(如明确研究对象、方法及任务)的进程。 参考文献 钟义信: 从“信息-知识-智能统一理论”看信息科学 《信息科学交叉研究》 浙江教育出版社 2007年 ISBN 9787533870911 邹晓辉: 信息学基础研究 《信息科学交叉研究》 浙江教育出版社 2007年 ISBN 9787533870911 chino ▼ »chino ▼ ↔ Tweet definición - 语义信息的几何模型 definición de 语义信息的几何模型 (Wikipedia) Publicidad ▼ Wikipedia 语义信息的几何模型 维基百科,自由的百科全书 語言學 理論語言學 語音學 音韻學 構詞學 語法學 語義學 辭彙語義學 結構語義學 原型語義學 語用學 應用語言學 心理語言學 社會語言學 生成語言學 認知語言學 電腦語言學 共時語言學 歷史語言學 比較語言學 文體學 規範語言學 語源學 語料庫語言學 其他 語言學史 語言學家列表 未解的問題 语义信息的几何模型 ,简称: 语义模型 ,即: 语义三棱锥 或者 语义金字塔 (Tri-Pyramid);或: 信息模型 ,即: 信息四面体 (Information Tetrahedron),它是《信息学基础研究》作者邹晓辉在 2005 ( 北京 )首届“信息科学交叉研究学术研讨会”正式提出的一个理论模型。 该文指出:《信息科学原理》 作者 钟义信把 信息 比作多面体凸显了一般信息学的困难。因此,《信息学基础研究》作者邹晓辉设想:部门信息学诸学科好比从不同角度直接 观察 与 分析 这个信息四面体或语义三棱锥(涉及智的四要点)。这就为借助协同智能计算系统来间接而高效地观察与分析信息多面体或语义多棱锥(涉及智的多要点)提供了以简驾繁的科学研究途径,从而开辟了一般信息学研究的新途径。 公知的 数学 定理 说: 四面体 是最简单最基本的 多面体 。任意复杂的多面体都可归结为或转化为若干个简单的四面体。因此,研究四面体是研究多面体的一条基本路径。正因为如此,所以,只要语义模型或信息模型与几何模型之间存在可比性,就可采用相同的策略。 也就是说,掌握信息四面体可为更有效地探知信息多面体提供理论上的基础性指导。这比盲人摸象式地直接研究信息多面体的常规做法更可取。理由是:研究信息四面体可以得出唯一而确定的结果及结论,而研究信息多面体则会得出多种多样不确定的结果及结论。与其直接为不可为之事,不如先为可为之事(即打好基础、创造条件)进而再把不可为之事转化为可为之事而为之。如先熟悉“三位一体”简单变换,然后借助计算机去探究“多位一体”的复杂变换,这自然容易得多。一旦众人掌握“语义、信息与智”的统一理论,对深入研究“信息、语义与智”的细节,理顺部门信息学各学科与一般信息学的关系,研究一般信息学的框架和细节,就有了高屋建瓴的行动指南。再借助互联网及计算机辅助知识信息数据处理方法及工具的支持(如间接形式化方法及其系列产品,乃至一体化管理方法及其系列服务),就可为整个信息学体系全方位全过程探讨创造更有利的条件。那样,标准化与个性化兼容的信息概念体系的总论及各论,也就可望早日建立建全,至少可加速一般信息学同仁达成共识(如明确研究对象、方法及任务)的进程。 参考文献 钟义信:从“信息-知识-智能统一理论”看信息科学 《信息科学交叉研究》 浙江教育出版社 2007年 ISBN 9787533870911 邹晓辉:信息学基础研究 《信息科学交叉研究》 浙江教育出版社 2007年 ISBN 9787533870911 外部链接 信息科学交叉研究(电子版) (首届中国)信息科学交叉研究学术研讨会2005(北京)论文摘要汇编
个人分类: 信息学基础研究|1958 次阅读|0 个评论
从语义信息论看正则化准则
lcguang 2018-3-2 11:05
我在一个群里说, 人工智能碎片化理论多,不构成一个整体, 主要是因为缺少像物理学中“能量”那样”一个贯穿很多公式的概念。我以为人工智能中要有这样的概念, 应该是信息。 信息和似然度(现在知道log似然度就是负的交叉熵)应该可以充当这个概念, 用做优化准则。 可是现在不同准则太多。影响信息准则被广泛接受的最大障碍是贝叶斯主义推理(用最大后验概率准则), 还有误差准则, 以及风头正健的正则化准则。 正则化准则就是在误差准则后面加上正则化项, 我的理解是:它反映模型标准差越小越好,就相当于 GPS 的精确度。这意思是你捕鱼的鱼罩子盖住鱼了,但是覆盖面积越小越好。盖住整个池塘,就等于没盖住。用 Popper 理论解释就是逻辑概率越小越好,因为检验更严厉, 如果经得起检验, 信息就更多。 永真句不提供信息。 我以为正则化准则和信息准则是兼容的。 看到这篇文章: 从贝叶斯角度深入理解正则化 http://blog.csdn.net/zhuxiaodong030/article/details/54408786 初看觉得很有新意。但是仔细思考, 不对啊, 要用样本优化的是似然函数中的参数啊, 怎么能优化先验参数呢?先验参数和样本无关啊! 我的一篇文章讲到这个问题, 摘录如下: 把真值函数或隶属函数带进贝叶斯公式: 图4 语义信息量图解. 偏差越大,信息越少;逻辑概率越小,信息量越大;错误预测提供负的信息. 这个公式就能反映 Popper 的思想 : ( 先验 ) 逻辑概率越小,并能经得起检验 ( 后验逻辑概率越大 ) ,信息量就越大 ; 永真句在逻辑上不能被证伪,因而不含有信息 . 假设yj=X 大约是xj的真值函数是 T ( θ j | X ) =exp (没有系数的高斯分布, 最大值是1)。 把它代入式 (3.8), 就得到 其中熵都是交叉熵。容易证明,在语义贝叶斯预测和样本分布一致时, 即 P(xi|θj)=P(xi|yj) ( 对于所有 i, j) 时,上述语义互信息达到其上限,等于 Shannon 互信息 . 从式 (3.9) 和 (3.11) 可见, 语义互信息准则和流行的误差加正则化准则是类似的 . H(θ|X) 就是误差项, H(θ) 就是正则化项 . I(X; θ) 就是负的损失函数 . 这个正则化项和流行的正则化项可能有些区别,但是这个在理论上更严格, 因为它是构成语义信息或似然度的部件之一。主要差别是, 影响先验熵 H(θ) 的是:1)模型覆盖范围大小,比如高斯分布的标准差小就好, 预测精度就高; 2)覆盖的地方P(X)大小, 小就表示出乎预料, 逻辑概率就小, 信息就多。所以从信息论角度看, 并不是任何一个参数小就好, 要有所选择。 更多讨论见: http://survivor99.com/lcg/books/GIT/
个人分类: 信息的数学和哲学|3705 次阅读|0 个评论
兼容Shannon, Popper, Fisher, Zadeh思想的语义信息论
热度 3 lcguang 2017-8-11 14:09
不久的一个报告,希望把我的语义信息方法讲得更清楚。 PPT见 http://survivor99.com/lcg/semantic.ppt 简单说来就是用反映语义的真值函数产生似然度, 把似然度带进Shannon信息公式, 这样Shannon信息测度就变为语义信息测度, 能够反映Popper和Fisher的假设验思想。 反过来, 用这样的信息测度可以优化真值函数或Zadeh的隶属函数。 这种方法的合理性和实用性可以通过求解经典信息论和统计理论的难题——最大互信息和最大似然度难题——的高效率得到验证。
个人分类: 信息的数学和哲学|4237 次阅读|8 个评论
公布求解最大互信息和最大似然度的信道匹配算法—用以取代EM算法
热度 3 lcguang 2017-6-12 12:25
搜索最大似然度, 可见有33万篇文章: http://www.sciencedirect.com/science?_ob=ArticleListURL_method=list_ArticleListID=-1217372240_sort=r_st=13view=cmd5=32025f8bcf94febd17e33e7009f377cdsearchtype=a 搜索EM算法有8万多篇文章: http://www.sciencedirect.com/science?_ob=ArticleListURL_method=list_ArticleListID=-1217372349_sort=r_st=13view=cmd5=1c0dbe77532804b292213415558828cbsearchtype=a 最大互信息难以求解的, 所以Shannon用失真准则, 而不是互信息准则。 最大似然度——指香农信道没有确定时的最大平均对数似然度——也是难求的。 这两个难题应该说是信息论和统计理论中最顽固的堡垒。 两者只能用迭代方法求解。通常用牛顿法, 梯度法和EM算法。其中EM算法最具神秘性。 本文不是要在么庞大数子上增加一个1, 而是要重新评估以前的做法, 特别是EM算法! 本文提出新的算法是信道匹配算法——多数情况下3-5次就收敛。文中和EM算法做了比较,大多数情况下迭代次数降到1/3。还证明了前人的EM算法收敛证明完全错了。 新的算法是否简洁, 高效,易于理解, 详见最新文章: http://survivor99.com/lcg/CM.html 本来是想先投稿, 争取发表的, 但是一想到那么多人在最大互信息和最大似然度上耗费那么多宝贵时间,想到审稿之漫长, 辩解之麻烦, 我还是先公布算法吧! 语义信息方法历来遭遇主流歧视,因为要权威理解非常困难。这篇文章也是要向主流显示: 语义信息论是怎样powerful, 它可以解决经典方法难以解决的难题! 我有没有做到, 请看完理解再说! 欢迎批评!
个人分类: 信息的数学和哲学|5600 次阅读|7 个评论
学术界同行审议的“无理棋”问题
热度 4 lcguang 2017-1-9 08:26
谷歌机器人战胜了几乎所有一流旗手,奇怪的是, 它下的很多棋是 “无理棋”。仔细研究发现,我们原先以为“无理”, 是因为境界不够高。这事使我联想到学术界同行评议。 投稿最头痛的是碰到不能理解你意思的审稿人, 如果他有偏见 那就更头疼。 我就碰到这样的问题。 我推广香农信息论,应用到语义信息,使用模糊数学概念, 肯定谎言是负的。 因为想法特别,所以一再被误解和拒绝。 拒绝的理由有: --香农说过,语义问题和工程无关; --信息不会是负的; --模糊数学方法有问题,应该使用。。。方法; --你说的天气预报信息用香农理论也能解决(其实如果预报经常出错,用香农信息就不合理)。 还有很多误解, 一言难尽。 我想, 这样的偏见和误解不知道扼杀了多少新思想! 当然, 也可能自己的文章真的无理。 我以为,作为编审,评价一篇文章,重在看创新思想和解决问题能力, 而不是看是否“无理“, 更不应以个人喜好为标准,或用无过便是德的标准。作为投稿人,特别是人微言轻,又不在好单位的投稿人,面对这些总说你“无理”的编审怎么办?我以为要学Alpha狗,就解决问题是否成功,战胜竞争对手,让对手无话可说。 以后我少和他们讲道理,反正他们大多听不懂。或者不愿花时间理解你。我打算选择经典信息论解决不了的难题——比如最大互信息检验和估计问题(这也是似然度方法要解决的问题),看我用我的语义信息论方法如何轻松解决!初步研究表明,用语义信道和香农的相互匹配, 可以得到比EM算法更加合理、更加高效的算法。请对信息论和统计理论感兴趣的朋友拭目以待! 我的语义信息论研究: http://survivor99.com/lcg/books/GIT/ 最大互信息检验迭代实验, Tests-2-2.xls : 参看上一篇:
个人分类: 信息的数学和哲学|5316 次阅读|7 个评论
看语义信息研究如何解决归纳问题
lcguang 2016-11-27 11:55
基于语义信息论的确证方法——以乌鸦悖论和医学检验为例 摘要:确证度计算是现代归纳逻辑的核心议题。语义信息研究表明, 对于不太可靠的预测或假设,适度信任可以提高平均语义信息。求一系列证据提供的平均信息时,改变不信度 b’(即反例的真值),使平均语义信息达最大的不信度就是否证度 b’*, b*=1- b’*就是确证度。对于全称假设,确证度 b*=1-反例变小率/正例增大率。这表明,要确证一个假设,反例少比正例多更重要。按数理逻辑,“所有乌鸦是黑的”和“所有不黑的就不是乌鸦”等价;支持后者的证据(比如白粉笔)也支持前者。这违背常识,所以存在悖论。考虑医学检验,上述等价关系和常识都是错的。医学界用阳性似然比(LR+=敏感性/(1-特异性))表示阳性有多可靠。幸好 b*=1-(1-特异性)/敏感性=1-1/LR+,因而和医学界共识兼容。 关键词:归纳逻辑;语义信息;确证;乌鸦悖论;医学检验 详见: http://survivor99.com/lcg/newcm.pdf 如此重要的文章,可是投稿科学哲学杂志,居然退稿了。估计有两个原因:1)我不是圈子里的人, 人家不喜欢;2)公式太多, 他们看不懂。好在有互联网。 我的结论是明确的,确证度公式是明确的。 有比较才能有鉴别,可以和流行的各种确证度比较: https://www.princeton.edu/~osherson/papers/conf33.pdf 我的语义信息公式还能改进最大似然估计而检验,我在整理,迟早会有更多人相信! 我的更多信息论研究见: http://survivor99.com/lcg/books/GIT/
个人分类: 信息的数学和哲学|4721 次阅读|1 个评论
我想告诉王雨田教授...
热度 2 lcguang 2016-6-24 01:56
王雨田的百度百科: http://baike.baidu.com/subview/317104/12150840.htm 王雨田教授的书《 控制论、信息论、系统科学与哲学》和《归纳逻辑导引》是我的启蒙教材。后来有幸在他长沙家中见到他。 他知道我的广义信息论 研究( http://survivor99.com/lcg/books/GIT/ )之后, 对我格外 关注。大概是2010年 ,他要我去他 北京家中, 劝说我继续语义信息研究, 还和在 高校哲学系 当领导的学生联系,劝说他们聘我兼职讲课做研究 。但是我只有本科学历,计算机副教授头衔(1993年破格评的, 但是后来下海了, 没有续升 ) 。 由于体制原因,劝说失败, 只有作罢。 最近我研究 归纳逻辑有重大突破, 发现 通过优化对推理或假设的不信度,可以提高 平均语义信息。由优化的不信度—— 使语义信息和似然度最大—— 可以求出可信度或确证度。 比如对于艾滋HIV检测, 阳性“+”的可信度=1-(1-特异性)/敏感性 阴性“-”的可信度=1-(1-敏感性)/特异性 (敏感性( sensitivity )=有HIV的人呈+的比例;特异性( specificity) =没有HIV的人呈-的比例) 根据公式, 特异性对“+”的可信度 影响更大 ,而敏感性对“-”的可信度影响更大。 比如, 即使敏感性只有0.1, 只要特异性是1, 阳性的可信度就是 1——绝对可信。 这是出乎预料的, 但是细究起来却是 合理的。 另外还可以推导出负的可信度, 使得 可信度在-1和1之间。负的可信度反映过分定,错误判断,或 谎言的可信度。 用新的确证度公式, 也可以很好解释乌鸦悖论(参看: http://blog.sciencenet.cn/home.php?mod=spaceuid=2056do=blogid=975982)。 想起王雨田先生是归纳逻辑的倡导者,所以我很想把我的新发现告诉他。 可惜他过去的电话号码我找不到了。网上搜索看能否找到, 结果却找到牛思耀的博文:《 纪念王雨田先生 》 http://n01234.blog.163.com/blog/static/21822412320132251364395/ 我不禁悲从中来。原来他在我们见面两年后就去世了。我本该和他保持联系的,可是我没有。现在只有用一篇迟到的短文,追忆和纪念王雨田先生。 王雨田先生对中国的系统哲学(包括逻辑学,信息论, 控制论研究)倾注了一辈子心血,死而后已,令人感动!愿先生九泉有知, 看到中国人的归纳逻辑和语义信息研究走在世界前列。
个人分类: 信息的数学和哲学|4123 次阅读|2 个评论
我解决了乌鸦悖论——立此存照
热度 2 lcguang 2016-5-9 10:16
最新全文这里: http://blog.sciencenet.cn/home.php?mod=spaceuid=2056do=blogid=1017037 ------------------------------------------ 乌鸦悖论: http://baike.baidu.com/link?url=uCZf5CCKR2YvhhYtqF2BuDUhJWkoEDYjsTolG5r2of4nX3ME7gbelYifFDSZOJmuML0l8Odxv7ZXfoJQlYE2ra 按经典逻辑,所有乌鸦是黑的(A-B)和不是黑的就不是乌鸦”(非B-非A)等价。 一只粉笔或一个苹果支持“不是黑的就不是乌鸦”,所以也支持所有乌鸦是黑的(A-B)。 但是按常识, 两者不相关。 解决悖论办法, 一是肯定不想关, 否定等价关系; 二是肯定有相关性(看来不相关是因为非白的太多), 肯定有微弱确证——如亨普尔自己解释。 这些解释都没有数字表达,不严格;也不太容易说服对方。 我的严格数字结论(来自语义信息论公式,和Shannon信息论兼容,推导过程晚点提供): “所有乌鸦是黑的”确证度: 该公式也可以计算“所有天鹅是白的”的确证度,则这时n11表示白天鹅数,n10是非白天鹅(反例)数,n00是非白非天鹅数;n10是白色非天鹅数。 根据这个公式,在模糊推理情况下,“A-B”和“非B-非A”的确证度(所有下标0和1互换)不等价。 但是,当反例n10是0 的时候,n00或其增量不影响确证度(为1). 两者等价。 把“所有乌鸦是黑的”换成“所有天鹅是白的”,反例数不是0了,这时就可以看出上面结论也适合模糊推理——比如“所有天鹅是白的”,“HIV检测显示+的人有艾滋病”,“甘油三酯高的人有脂肪肝”,这些假设确证度在0和1之间。 当反例n10大于0的时候, db*/dn00随n00和n10增大而减小。 这意味, 论域中白色物体多, 黑色越少,dn00对b*的影响就越小。 反之越大。 比如四类物体是 黑白天鹅和黑白乌鸦。四种鸟的数目是n00, n10, n01, n11。 当白鸟很少, 比如是n00=1, n10=1,n11=1, n01=10(黑天鹅很多),确证度增量db*就较大, db*/dn00=11/4 如果n00=10, n01=1, 则db*/dn00=2/121, 确证度增量很小。 为什么我们认为粉笔和“所有乌鸦是黑的”不相关? 因为 1)没见过不黑的乌鸦; 如果换成“所有天鹅是白的”--有反例, 情况就不同; 2)论域中白色太多, 即n00和n01较大时,增加一个白色物体对确证度的影响微不足道。 西方各种确证度公式问题太多。他们混淆了逻辑概率(不是归一化的,最大值是1)和统计概率(归一化 );混淆了命题真值(越大越好)和逻辑概率(越小越好);混淆了可信度(主观的)和确证度(相对的),混淆了确证度(用正反例条件概率分布或最大似然度证明)和确证度增量(单个例子可以提供)。 我将在以后的文章中详述。 详细讨论见: http://blog.sciencenet.cn/home.php?mod=spaceuid=2056do=blogid=1017037
个人分类: 信息的数学和哲学|7802 次阅读|4 个评论
广义Kulback-Leibler语义信息公式和最大似然法的一致性
热度 1 lcguang 2016-3-2 07:41
广义 Kulback-Leibler 语义信息公式和最大似然法的一致性 鲁晨光 (这是一篇长文的摘要,删除了部分哲学讨论,保留了和统计及信息论相关的内容,目的是让研究最大似然法的学者看看。我相信文中广义信息公式可以比Kullback-Leibler公式更方便表达和解决最大似然问题,并能解决最大似然学派和贝叶斯学派的矛盾。文中公式(15)是一个重要结论,应该能给最大似然估计供极大方便。笔者研究估计问题时间不长, 不妥之处欢迎指正。) 1. 引言 Shannon ( 1948 ) 发表文章:《通信的数学理论》 ,随后 Weaver 提出语义信息 研究方向, Bar-Hillel, Y. 和 Carnap ( 卡尔纳普 ) 提出用逻辑概率代替统计概率度量语义学信息 . 公式是 inf( i )=-log m p ( i ) 。其中 i 是命题, m p 是逻辑概率。不过最早提出概率和信息反相关的却是 Popper ( 波普尔 ) 。 Popper 早在 1935 年的著作《科学发现的逻辑》 ( , 96,269 ) 中就提出用可检验性,或可证伪性,或信息作为科学理论划界和评价的准则,并且明确提出,概率越小,信息量越大。后面谈到, Popper 提出的检验的严厉性公式 ( ,526) 稍加改善,就可以用作语义信息计算。 在 Barhillel , Carnap 和 Popper 之后, 西方语义信息测度的研究总结见 , 关于信息哲学的研究总结见 。西方最有代表性的研究者是 Floridi 。中国最著名的语义信息倡导者和研究者是钟义信 . 另外也有其他学者研究广义信息 或多或少联系到语义信息。但是根据上述研究,我们仍然不能计算一个简单预测比如 “ 明天有大雨 ” 或 “ 小偷大约 20 岁 ” 的信息;或 GPS 箭头、手表指针、温度表和秤的读数提供的信息。 另一方面,自从 Akaike 把 Fisher 的最大似然度方法和 Kullback-Leibler ( 后面简记为 KL ) 公式联系起来讨论估计的优化,越来越多的归纳问题研究者意识到,最大似然度方法信息方法相结合可以同时解释证伪和归纳 。他们的研究已经把我们带到迷宫入口附近。但是如何根据事实发生的样本序列确证一个预测,比如 “ 明天有大雨 ” , “ 所有天鹅是白的 ” ,并算出它们的确证度? 依然众说纷纭,没有一致结论 。 笔者以为,流行的语义信息和归纳问题研究的困难都是由于:统计概率,逻辑概率,命题真值,真值函数等没有很好区分,比如同时用 P 表示统计概率和逻辑概率,同时用 E 表示个体和变量,因而使得分析的框架不清晰。 笔者曾提出和 Shannon 及 Popper 理论兼容的广义信息论 ,它能很好解释证伪。笔者最近研究发现,可以通过降低对假设的信任度,减少预测失误带来的信息损失,提高平均信息。这样,平均语义信息公式就可以同时用于计算 Popper 的信息和优化现代归纳主义研究的确证度。和流行的做法不同,这个公式同时使用了逻辑概率 ( 用 T 表示 ) 和统计概率 ( 用 P 表示,反映证据和背景知识 ) 。重要的是,公式还使用了模糊真值函数 ( 即条件逻辑概率 ) 以及信任度 c ( 它在 -1 和 1 之间变化 ) 。本文继承或关系到 Popper , Shannon , Barhil and Carnap, Zadeh , Kulback and Leibler , Fisher , Akaike 等人的研究结果。 下面首先讨论谓词的真值函数和逻辑概率,以及它们和统计概率之间的关系。然后通过推广经典信息公式得到平均语义信息公式和广义 Kullback-Leibler 公式,说明它们如何用于预测的信息评价,如何符合 Popper 用于检验或证伪的信息准则。文中最后讨论,如何优化假设,包括优化信任度 c ,从而提高平均语义信息,使之达到其上限: KL 信息。 2. 真值函数和逻辑概率 2.1 命题的真值和谓词的真值函数 日常语言中,语句真假往往是模糊的。比如猜测 “ 小偷大约 20 岁 ” ,这话的真假是模糊的,该在 0 和 1 之间变化。如果小偷真的 20 岁,预测真值就是 1 ,如果有偏差, 比如是 25 岁, 真值就变小, 比如说是 0.5 ;如果是 30 岁,真值就更小。所以日常语言的真值函数取值于实数区间 而不是二值集合 {0,1}. 后面讲到的真值函数都是模糊真值函数。 我们用大写字母 E 表示一个变量, 代表一个个体 ( individual ) 或证据,它是个体 e 1 , e 2 ,… , e m 中的一个,这些个体构成集合 A , 于是有 E ∈ A ={ e 1 , e 2 , … , e m } 。 E = e i 表示 e i 发生。类似地, 预测或假设是 H ∈ B ={ h 1 , h 2 , …, h n }. 一个预测 h j 发生后, E = e i ,预测就变为命题 h j ( e i ). 用经典信息论的语言来说, P ( E ) 是信源或先验概率分布, P ( H ) 是信宿。条件概率矩阵 P ( H | E ) 是信道。对于语义通信来说,在 Shannon 信道之外还存在语义信道 T ( H | E ) 。 一个典型的语义通信例子是天气预报, E 表示降水量,比如 15mm. H 表示降水量预报。 比如 h 1 = “ . 无雨 ” ( 比如 “ 明天无雨 ” , 其他类推 ) , h 2 = “ . 有雨 ” , h 3 = “ . 小雨 ” , h 4 = “ . 中雨 ” , h 5 = “ . 小到中雨 ” … H = h j 表示 h j 被选择。类似的例子是关于年龄 ( E ) 的一组陈述 ( H ) : “ . 是小孩 “ , “ . 是年轻人 ” , “ . 是中年人 ” , “ . 是老年人 ” 。 另一个典型的语义通信方式是数值预测或估计 ( 后面简称估计,数学上通常记为 e^ j , e^ j = h j = h j ( E )= “ E ≈ e j ”= “ E 大约是 e j ” 。不光是语言表达的估计, GPS 的箭头, 手表的指针,甚至一种色觉, 都可以看做是一个估计 . 估计的例子参看表 1. 表 1 估计 h j = e^ j = “ E ≈ e j ” 举例 例子 预测或假设 h j = “ E ≈ e j ” 事实或证据 E e i h j ( e i ) 的真值 T ( A j | e i ) 大约是 日常语言 “ 小偷大约 20 岁 ” 小偷实际年龄 18 岁 0.9 经济预测 “ 今年股市可能涨 20% ” 实际涨幅 0 0.1 秤 秤的读数 “ 1KG ” 实际重量 0.9KG 0.3 GPS 地图上箭头 ↖ 实际位置 偏右 5 米位置 0.9 色觉 一种色觉比如黄色觉 实际色光,带有某种主波长 主波长是 660nm 的色光 0.7 用 Zadeh 开创的模糊数学的语言说,相对 h j = h j ( E ), A 中有一个使 h j 为真的模糊子集 A j , 一个元素 E 在 A j 上的隶属度函数 m Aj ( E ) 就是就是 h j 的真值函数, 记为 T ( h j ( E ))= T ( h j | E )= T ( A j | E )= m Aj ( E ) (1 ) 当 E = e i 时,真值函数就变为真值 T ( A j | e i ). 天气预报等自然语言的真值函数来自习惯用法,后面将证明它们来自过去的条件概率函数 P ( h j | E ) 。如果不知道过去的 P ( h j | E ) ,也可以采用随机集合的统计方法得到 。而估计 h j = “ E ≈ e j ” 的真值函数来自人工定义和实际误差概率分布 —— 也取决于过去的条件概率 P ( h j | E ) ,可以近似地用指数函数 ( 没有系数的正态分布 ) T ( A j | E )=exp ( 2 ) 表示,其最大值是 1 。其中 d 表示标准差, 反映估计的模糊程度, d 越大,估计就越模糊 , 函数波形覆盖面积越大。这里我们假设这些估计都是无偏估计,有些非无偏估计可以通过对 E 的转换得到, 比如用 E 0.5 代替 E ,使估计成为无偏估计。 假设相对每个 h j 或 A j , 存在一个 e j ( 相当于柏拉图的理念和我让通常说的典型 ) 使得 T ( A j | e j )=1, 那么, h j ( e i ) 的真值 T ( A j | e i ) 就可以理解为 e i 和 e j 的相似度或混淆概率。 2.2 逻辑概率 T ( A j ) 及其和真值函数 T ( A j | E ) 及信源 P ( E ) 的关系 后面内容见附件 语义信息最大似然度理论-short博文.pdf
个人分类: 信息的数学和哲学|4282 次阅读|1 个评论
中国信息科学(信息哲学和语义信息)研究的不幸
热度 8 lcguang 2016-2-19 05:37
中国信息科学(信息哲学和语义信息)研究的不幸 ——兼谈钟义信和Floridi的异同 这里说的信息科学主要指信息哲学和语义信息研究,不包括信号传输,计算机等具体应用科学。 我写这篇文章,是因为比较中外信息科学研究, 有切肤之痛。 我也希望后来年轻人接受我的教训。 中国最著名的信息哲学和广义信息论理论研究者当属钟义信,它当过信息论学会和人工智能学会会长。其《信息科学原理》出到第五版了。虽然我一直对他的研究不以为然。因为我以为他只有大旗,没有过硬武器装备——合理的语义信息公式。不过现在看法有改变。 科学院的刘钢研究信息哲学, 主要是介绍西方研究, 特别是Floridi的研究。参看其博文: http://blog.sciencenet.cn/home.php?mod=spaceuid=105489do=blogclassid=15002view=mefrom=space 西安交通大学的邬焜, 一直研究信息哲学,这里有篇报道: http://news.xjtu.edu.cn/info/1002/55627.htm 科大的 黎鸣著有《信息哲学论》, 苗东升研究信息哲学,马蔼乃研究地理信息, 徐光宪研究化学信息, 邹晓辉研究语言文字信息,都有一定影响。闫学杉,陈雨思,倪云鹏等人都经常发表信息哲学文章。还有其他人的广义信息研究——恕我没有搜集罗列。最近一次会议是在北大开的: http://qkx99.com/bbs/viewthread.php?tid=6518extra=page%3D1 。供参看。 我没啥头衔,所以刘钢说我是民科。但是我一直从事“武器装备”研究——参看: http://survivor99.com/lcg/books/GIT/ ,我也研究信息哲学,特别是用信息公式解释Popper理论。可惜,我和钟义信一开始话不投机。 这种现象普遍存在。中国的信息科学研究一盘散沙,谁也不服谁,相互话不投机,相互之间也没有多少联系。 现在有三件事情,改变了我对钟义信的看法。 促使我想写本文。 一件事是,最近我看了西方的信息哲学和语义信息研究, 特别是看了Floridi等人的研究,感觉钟义信就是中国的Floridi!Floridi在国际上很有名气———参看刘钢博客。 虽然Floridi也没有提出合适的公式。 (Floridi的研究结果见这里: http://plato.stanford.edu/entries/information-semantic/ 关于西方语义信息研究,见我这篇文章的参考文献: http://blog.sciencenet.cn/home.php?mod=spaceuid=2056do=blogid=941004 ), 钟义信吁信息科学研究特别是语义信息研究比Floridi还早,其《信息科学原理》不仅包含信息的哲学思考, 也包含信息科学发展方向思考。从哲学的角度看,Floridi更专业,但是从科学的角度看,钟义信更专业,而且其研究覆盖更广。Floridi呼吁哲学朝信息研究转向; 钟义信呼吁信息论朝语义信息语用信息转向,最近又呼吁信息论朝人工智能方向和大数据方向转向。钟义信也讨论信息哲学。他们的呼吁有共同的地方,也有互补的地方。我现在觉得,钟义信作为旗手, 不比Floridi差。 另外, 西方信息科学研究都是交互式的,讲究传承。很少有人只谈自己观点,不说别人观点。所以能够形成一个群体。主功有方向, 继续有新起点。 第二件事, 我看到钟义信最近两篇文章:《 知识论:核心问题——信息-知识-智能的统一理论 》,《 信息转换原理: 信息、知识、智能的一体化理论》。 我有两种感觉: 1)他就是帅才, 思想上的帅才, 有深远的战略眼光;2)好像他还是单枪匹马,一个人举着大旗冲锋陷阵。我怀疑后面是否有真正实施其方案的人。 我最近在研究语义信息公式和最大似然度理论的一致性,要解决的问题就是归纳问题,贝叶斯推理问题,人工智能问题。我虽然对他不服,但是我感到其实我就是在朝他呼吁的方向走。 第三件事,是我看了《粟裕回忆录》。粟裕和陈毅的关系, 使我感到惭愧。我觉得就算我有点本事, 还能比得上粟裕吗?你看人家粟裕是如何处理好将帅关系的!当然,人家不拿我当将才,那不是我的问题。 我和钟义信第一次见面是在青岛的第七届 信息论与通信理论学术会议,那时我才 30 多岁,钟义信也是年轻教授。这次会上,钟义信利用 Delucu-Termini 公式,用模糊集合隶属度, 也用概率定义语义信息;我也用模糊真值函数,其实也是模糊集合隶属度,也用概率,定义语义信息。和西方用逻辑概率(包括隶属度)就不用统计概率, 用统计概率就不用逻辑概率(或隶属度)比,我们钟义信的方向和方法是高度一致。 但是具体细节不同。我说模糊性应该减少信息, 而不是增加信息。 于是引发不快。第二次是宜昌第八届信息论与通信理论会议,我带来了新出版的《广义信息论》,做了大会报告。会议宣布大会报告论文在 电子学报上发表,由钟义信负责安排。 但是后来没有发表。编辑说是因为其中内容专著中大多有了。我不信,我以为是钟义信阻挠的原因。其实我应该信。此后约 20 年,我没有再参加信息论会议, 直到几年前。 我在想, 如果当年我虚心一点, 和钟义信合写一篇文章, 结果会如何呢? 不过现在 一切都晚了。 钟义信70多岁了, 我60出头了 …… 我们后面还有谁在我们的方向上继续研究呢? 要理解钟义信,还需要知道—— Shannon 曾经说过,他的信息论不考虑语义,不要指望他的信息理论能解决所有问题而乱推广。所以,美国主流研究者一直排斥语义信息和广义信息研究。 研究语义信息的学者大多是欧洲和澳洲的。IEEE IT – 国际权威信息论期刊, 就从来不发表语义信息论文章, 连相关的会议都不接受。钟义信有这样的学术地位,在中国呼吁研究语义信息和广义信息,这对中国的信息科学研究应该是巨大利好。可惜, 应者寥寥。钟义信也一定顶着巨大压力,在这个方向上坚持不懈是不容易的。我为我以前对钟义信的评价中非技术性的不妥言辞向钟义信道歉。 我现在非常相信,钟义信指出的方向是对的,谈信息离不开知识,信息论和人工智能合流,和大数据理论合流,和哲学合流 … ,将会带来很多领域空前发展。 要使中国的信息科学理论赶上和超过西方,大家需要 更多的宽容和相互理解, 还需要 充分 交流,共同讨论同样问题的学术 环境。 我看到西方讨论归纳和确信度,把7-8个公式放一起比较优劣。 在中国, 指出 别人不妥之处的文章是很难发表的。 最后大家都自说自话。 再就是,年轻人要接受我的教训,要向粟裕学习。 补充: 刚看到这篇报道: 首届国际信息哲学研讨会侧记 http://blog.sciencenet.cn/blog-447363-741013.html 或许开了好头。 不过我感觉他们重定义, 不看中操作——用信息标准评价和优化假设,预测, 估计。
个人分类: 信息的数学和哲学|5508 次阅读|23 个评论
语义信息研究重要进展
lcguang 2015-12-4 12:24
兼容 Shannon 和 Popper 理论的 语义信息公式 低频词,记不记随你啦! 鲁晨光 Email: : survival99@gmail.com.com 个人主页: http://survivor99.com/lcg QQ 228550917 摘要 :因为 Shannon 信息公式并不能度量语义信息,更不能反映 Popper 提出的科学进步的信息准则,为此,笔者曾提出改进的公式(语义信息公式),它继承了 Shannon 和 Popper 的思想,基于 Zadeh 教授的模糊集合概念和汪培庄教授的随机集落影理。 Zadeh 定义的模糊集合概率被解释为 Popper 想要的逻辑概率, 并且隶属度被解释为条件逻辑概率,用两者取代经典信息公式 I =log( p 2 / p 1 ) 中的概率和条件概率,所得公式就能反映语义信息, 其几何性质明了,正好反映 Popper 希望的信息准则,可用于科学命题的检验。该信息测度和 Shannon 互信息测度一样反映节省的编码长度。文中介绍了如何利用集合 Bayes 公式建立统计概率和逻辑概率之间的联系,讨论了语义信息公式在语义信息度量、数值预测或估计、语言预测、全球定位、翻译、模糊推理等领域的应用, 并通过这些例子说明公式的有效性和合理性。 特别是通过一个模糊推理例子,说明可以改进语义信道——隶属度矩阵, 使之匹配 Shannon 信道, 传递的信息量达到最大值—— Shannon 互信息。 关键词 : Shannon , Popper, 语义信息,逻辑概率,模糊推理,检验,语义信道 全文见附件: Semantic中文.pdf 寻求合作信: 致气象预报检验研究者: 我是语义信息研究者, 我最近找到了从联合概率转换成语义信道的方法——参看附件, 觉得检验和评价天气预报很合适。 我只要预报和降水量联合概率矩阵—— 预报集合比如{无雨, 小雨, 中雨, 小到中雨, 大雨, 大到暴雨,可能有大暴雨。。。} 降水量集合比如{0, 0.1-1, 1-2, 2-3,。。。。}—— 或者预报和实际降水量 两列数据清单, 就可以求出“小雨”, “中雨”。。。 。。的真值函数(在0和1之间变化)。 算出每种预报在无偏差和有偏差时的语义信息量, 以及平均信息量。 目的: 1)用信息准则评价预报;信息准则相对误差准则, 更加重视偶然和特殊事件(比如今天大晴天, 你报明天有“大暴雨”)。 用信息准则也就是用Popper评价科学命题的准则, 逻辑概率越小,潜在信息就越大。 总是选择模糊预报, 比如“可能有雨”,信息量就少。 2)画出语义曲线,算出逻辑概率,便于听众接收信息; (虽然气象台预报有定义, 但是实际降水量是曲线分布,可能超出定义之外。) 3) 比较日常语义, 看要不要改进预报规则,纠正系统偏差(比如总是夸大了降水量), 或改进模糊性(比如误差较大就应更多使用模糊语言)。 如果预报使用规则即条件概率和听众日常语言使用习惯一致, 听众就能获得更多信息——接近Shannon信息。 如果合作,步骤如下: 1)你们提供数据(联合概率矩阵, 或者两列数据清单); 2)我用语义信息方法做计算和分析, 画出语义曲线图和逻辑概率(水平线),提供信息评价方法。 3)你们把我的方法和流行方法做对比, 看看各自优劣。(我相信我的方法更简单, 更直观)。 4)一起写文章投稿。 这在学术上一定意义重大。不要错过啊! 如果不放心,可以啥也不做, 只给我数据, 看我分析结果, 你们再决定下一步合作。 我的科学博客: http://blog.sciencenet.cn/?2056 个人网站: http://survivor99.com/lcg/ 信息论研究: http://survivor99.com/lcg/books/GIT/ 如能一复, 不胜荣幸! 祝 好运! 鲁晨光
个人分类: 信息的数学和哲学|4824 次阅读|1 个评论
“意”“义”区分与学术讨论
热度 2 Babituo 2011-11-5 08:10
“意”“义”区分与学术讨论
邹晓辉提出了“意≠义”,并告知众生:这个区分意义十分重大。 我理解:这个“意义”,说的正是语言的语义信息。是将语言的语义信息区分为“意”和“义”两个不同的层次。 而通常,在我们的意识中,我们在使用语言的时候,是没有强意识地进行着这样的区分的。 我们自己在说话、写文章、听讲、阅读的时候,我们自己毫无意识:在我们使用的语言和获悉的语言中,其背后传达的含义信息,包含着2个不同的层次。就是“意”的层次和“义”的层次。 所谓“意”的层次:就是与语言文字的使用者的个性特征相关紧密的层次。不管是写作还是阅读,对同样的语言文字,对不同的人,会得到不同的含义,这部分的含义,就是“意”,晓辉说:这代表个体的意识和意向。 所谓“义”的层次:就是与语言文字的使用者的个性特征无关的层次。不管是写作还是阅读,对同样的语言文字,对不同的人,会得到相同的含义,这部分的含义,就是“义”,晓辉说:这代表客观的本征特征。 应该说,这个一般的理解是一个不容易第一次想到,而一旦有人想到,就很容易得到认同和理解的观点。 我有一句格言:求同存异,求异存同。 这句格言用在沟通,或者用在学术讨论中,就能体现出对“意”“义”区分的不同层次的认识。 我们通常说的“求同存异”,或即便经对称扩展得到“求异存同”的说法:多半只会在沟通的态度的层面来理解。 比如:抗日战争中国共合作,就倡导求同存异。表达一种沟通的态度或姿态:大家应追求共同的利益需求,各自保留不同的利益需求。不要因为有要得到共同的意见就自我或相互否定各自不同的意见,也不要因为各自有不同的意见,就舍弃达成共同意见的机会。总之,大家会把这句话当作是一种沟通的策略、态度或姿态来理解。 如果我们明确了意和义的区分,我们就会知道:上述对“求同存异,求异存同”的理解,只是在“意”的层次的认识。大家只是在各自或相互的利益和价值观的角度,在寻找共同点,并保留不同点的。利益和价值观,其实就代表某种意识形态和私有的需求。这也说明:并不是达成共识的就一定是义层次的信息,在意层次本身就可以有共同和不同的意识意向存在。所以,区分意和义,不能仅从是共识还是保留认识的角度来区分。 如果要从“义”的层次来理解“求同存异,求异存同”,我们会发现,这不仅仅可以是一种观念和态度,而且还可以是一种方法论。我突然想到可以用一个实验来说明为什么“义”层面来理解“求同存异,求异存同”会是一种方法论: 假设某人问我今晚做什么,我给出这个图片: 我给出这张图,相当于我给出文字提示“色子”。 你猜这个时候我说出“色子”这两个字会是什么含义,根据这个判断我可能会去做什么? 至少有三位朋友猜测过之后(没有标准答案,只要合理就行),我再继续。 我保证要继续的内容会让大伙略开眼界的,先吊下大伙的胃口。 晓辉已经第一个给出了他的猜测: 尝试回答嘉文的“色子”问题: 1.表面含义——表示今晚做的事情就是玩它(“色子”)了; 2.另一含义——表示今晚做的事情也就像它(“色子”)一样还不确定。 这两个猜测都是合理和有效的,是符合我的请求意愿的。 我另请理论思维和昆辉一起也给出你们的猜测,你们的猜测将成为我进一步解释的例子,谢谢配合。 看来我这个关子是没有卖成。理论思维和昆辉都没有能参与回答,是个遗憾。 晓辉再次对他早先的回答做出了细化: 玩它(“色子”) 也有两个意思: 1.1“色子” 1.2“麻将”(用“色子”指代的事情,即:玩“麻将”) 我也就不好意思再卖关子了。 从晓辉的三种猜测中我们已经看到了三种有代表性的回答: 1.与色子所代表的不确定性相关的回答;如:今晚做的事象色字一样不确定。 2.与色子自身物件相关的回答;如:今晚做的事就是玩色字; 3.与色子关联的物件相关的回答;如:打麻将,要用到色子。 引申开来,可以猜测的事应该还有一类,就是: 4.与不确定性关联的事物相关的回答:如学习概率论知识等。 这四类回答可以算是所有可能的回答的一个求同存异的分析结果,也就是,不管你做出的是什么不同的猜测,通过求同,我们可以把所有的回答分成这四类,每一类代表一个共同类型的猜测,不同类型之间的猜测又表现出差异。 如果我们对这四类猜测再次求同,我们还可以发现一个共同的基础,就是:不确定性。 也就是说,如果有人只是猜测我今晚要做的事和不确定性有关,那一定会得到所有人的同意,为什么? 是因为他猜测的是大家共同的理解吗?仅仅是因为他猜的是共识吗? 为什么大家会有这个共识,而不会是其他共识呢?到底是什么会容易让大家得到共识呢? 是因为色子本身具有一些与人的个体意识无关的特性,如一个色子,是一个正方体,有6个面,每个面标记了不同的点数,随意掷出一次色子,得到某一个面的概率只有1/6。对于一个色子具有这样的特征的描述,描述的是事实,更重要的是,是已知的事实。对于这样的已知事实的表达,是很难引起争议的。所以,对于一个色子,或者“色子”二字本身固有的含义,就是这个已知的事实。想让不同的人对这个事实进行否认和误解,是几乎不可能的。色子的这个特性,代表的就是概率事件,代表对某种行为结果的不确定性。我理解:一个语言所包含的对已知事实的表达的含义,就是晓辉所说的“义”。从严格的形式化规则来说,如果我们将语言的“义”定义为了语言所表达的已知事实的话,我们就不能把“义”再定义为语言的其他特征信息了。尤其,当事实是已知的或者是共知的时候,表达这样的事实的语言是很难发生歧义的理解的。 晓辉让大家区分“意”和“义”,就以为大家也能区分了,可是,大家并不那么听话,甚至晓辉自己有时也不会那么听话,当大家和晓辉说“语义”的时候,并不强制自己就只指是语言背后所表达的已知事实。大家仍然会把“意”也当作是“义”的一种来理解。比如语义陷阱的说法,就是没有把语义专指是语言所表达的已知事实。如果这样理解了,就很难有陷阱了。陷阱其实来自“语意”——大家说不清,道不明的,其实只是“语意”,而非“语义”。 以上,我通过运用“求同”的方法,得到了“语义”是指语言背后所要表达的已知或共知的事实,就象“色子”要表达的是“概率事件”的事实,所以概率事件的事实,就是“色子”二字的“语义”——是区分“语意”的“语义”。 那么“语意”又是怎么来的呢?怎么会那么难以琢磨呢?怎么会那么难以统一“意见”呢?怎么会有“陷阱”呢? 从之前区分语义时,我强调是“已知和共知”的事实来说,“语意”或许应该来自对“未知和独知”的事实的表达。 回到色子的例子讨论,我今晚到底会去做什么具体的事,是一个未知的事,对于一个未知的事实,如果非要每个人去猜,每个人就不得不调动自己的私有记忆和理解,结合公有事实的理解,做出“猜测”。这种猜测,就必然带入猜测者的个体意识意向的信息进来。猜测的结果,自然就容易不能统一。 为什么“语意”和“语义”会经常难以区分呢?主要的原因之一是,语言的运用者经常会认为:对自己是已知的事实,对别人也应该是已知的,对自己是未知的事实,对别人也应该是未知的。即便语言的运用者能保持清醒,可以区分哪些含义只代表自己的已知或未知事实,哪些则是从他自己的理解来说,“应该”是要成为大家的共知事实的,听者也很难作同样的区分。善于沟通的人经常会用“我个人认为...,我个人看法是...”这样的语言告诉听者,他说的这些语言只是代表他个人的已知事实,也就是他的“语意”,而避免听者误解他要强制自己也接受他个人的理解,强制认为是“语义”。如果听者明确知道说者说的只是他自己的语意,并没有强迫自己接受的“语义”企图的话,就不会引起误解。也就是说:语意的冲突,如果是在大家都区分了“语义”的时候,是可以被包容的。往往是由于大家不能严格区分语义和语意,把语意的冲突理解为是语义的冲突,以为出现了“歧义”,由此产生误解。 从完成了这样对语义和语意的区分之后,我们再来看自然语言理解的问题。大家所说的“语义逻辑”,多半指的是晓辉的“语意”的范畴。大家都认为这部分信息难以得到“形式化处理”实际上是共识。而大家,包括晓辉自己,由于没有建立严格的“已知事实”的区分“语义”,所以,在谈到“可形式化”理解的语义的时候,都没有把目标清晰地锁定到“已知和共知的事实”上。晓辉转移到了词条含义的形形互证的语义上去了,引起了别人对晓辉不关心“逻辑语义”的误解。 由此可见,在学术讨论中,区分“意”“义”的“求同存异,求异存同”不仅仅是世界观,更重要的,还是方法论。用我常说的话来说:不是态度问题,是能力问题。 全文完。
个人分类: 信息探索|6754 次阅读|130 个评论
我的语义信息公式和Floridi的语义信息公式比较
热度 1 lcguang 2010-10-6 09:37
我的语义信息公式和 Floridi 的语义信息公式比较 鲁晨光 摘要: Floridi的建立语义信息公式时考虑了对错问题和 永真命题 问题, 但是没有考虑Popper指出的命题逻辑概率大小对信息量的贡献, 也不和Shannon信息公式兼容。 本文将我的信息公式和Floridi的信息公式做了比较, 试图说明我的信息公式更加合理。 关键词: 语义信息,公式,Popper,Shannon 1. 引言 度量语义信息必须考虑事实检验。 就检验来说, Floridi 的思路(参看附录, 摘自 ) 和我的思路是一样的。我认为, 语义信息量公式要能保证: 1)对错问题;说对了信息就多, 说错了信息就少。比如你说明天下雨, 实际上第二天没有雨, 信息就少(我说是负的)。如果第二天有雨, 信息就是正的; 2)永真命题不含有信息, 永真命题比如:明天有雨也可能无雨,一加一等于二。 3)把偶然事件或特殊事件预测准了,信息量更大。比如你说明天有特大暴雨(偶然事件),明天股市上涨1.9%, 误差不超过0.1%(特殊事件)。如果说对了,信息量就更大。用Popper的话来说就是:预测经得起更严峻的检验 , 则信息内容更丰富。 4)和Shannon信息公式 兼容。 Floridi 建立信息公式的时候,充份考虑了前两个问题。没有考虑后两个问题。 下面我们通过分析比较,看Floridi的信息公式存在的问题。 ----- 未完, 详见: http://survivor99.com/lcg/books/GIT/bj.htm
个人分类: 信息的数学和哲学|4240 次阅读|15 个评论
语义信息的代数公式
geneculture 2009-1-2 11:51
语义信息定义式 : U = D K (ZouXiaoHui) 注释:Information U nknown, D igital Information, Information K nown 公式比较 I = H = N log S (Hartley)基于对数描述熵的两类信息计量公式 (1) I = H s (p 1 ,...,p n ) = -Kp i log p i (Shannon)基于概率描述熵的两类信息计量公式(2) I = D = n * n = U - K (ZouXiaoHui)借助间接形式化基于算术表述各种分布的三类信息计量公式(3) 显而易见 ,公式(1)和(2)均蕴含 指数 与 对数 的转换,而公式(3)由于仅采用 算术 或代数的 矩阵 而不存在指数(当然也就无须指数与对数的转换。由此可见,三者描述熵或各种分布和计量各类信息的策略、方法乃至具体操作途径都有所不同。不过三者在相同约束条件下的计算结果却是相同的。 参考文献 1 Nyquist, Harry. Certain factors affecting telegraph speed. Bell System Technical Journal, 3, 324 346, 1924 2 Hartley, R.V.L., Transmission of Information, Bell System Technical Journal, July 1928, pp.535 563. 3 Claude E. Shannon: A Mathematical Theory of Communication, Bell System Technical Journal, Vol. 27, pp. 379 423, 623 656, 1948. 4 钟义信:从信息 - 知识 - 智能统一理论看信息科学 《信息科学交叉研究》 浙江教育出版社 2007 年 ISBN 9787533870911 5 邹晓辉:信息学基础研究 《信息科学交叉研究》 浙江教育出版社 2007 年 ISBN 9787533870911 6 ZouXiaoHui( 邹晓辉 ) : Intelligence Means Information Processing (智意味着信息处理) VII International Ontology Congress: Real or Virtual: from Platos Cave to Internet ( http://www.ontologia.net/programa.pdf ) 2006 站外连接 Nyquist, Harry. http://www.ieee.org/web/aboutus/history_center/biography/hartley.html Hartley, R.V.L. http://www.ieee.org/web/aboutus/history_center/biography/nyquist.html Claude E. Shannon http://www.ieee.org/web/aboutus/history_center/biography/shannon.html 1 费歇尔 信息 http://en.wikipedia.org/wiki/Fisher_information In statistics and information theory , the Fisher information (denoted ) is the variance of the score . It is named in honor of its inventor, the statistician R.A. Fisher . Contents 1 Definition 1.1 Informal derivation 1.2 Single-parameter Bernoulli experiment 2 Matrix form 2.1 Orthogonal parameters 2.2 Multivariate normal distribution 3 Properties 4 See also 5 Notes 6 References 7 Further weblinks 2 克拉美-劳的 信息不等式 http://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93Rao_bound CramrRao inequality or the information inequality In estimation theory and statistics , the CramrRao bound (CRB) or CramrRao lower bound (CRLB) , named in honor of Harald Cramr and Calyampudi Radhakrishna Rao who were among the first to derive it, expresses a lower bound on the variance of estimators of a deterministic parameter. The bound is also known as the CramrRao inequality or the information inequality . In its simplest form, the bound states that the variance of any unbiased estimator is at least as high as the inverse of the Fisher information . An unbiased estimator which achieves this lower bound is said to be efficient . Such a solution achieves the lowest possible mean squared error among all unbiased methods, and is therefore the minimum variance unbiased (MVU) estimator. However, in some cases, no unbiased technique exists which achieves the bound. This may occur even when an MVU estimator exists. The CramrRao bound can also be used to bound the variance of biased estimators . In some cases, a biased approach can result in both a variance and a mean squared error that are below the unbiased CramrRao lower bound; see estimator bias . Contents 1 Statement 1.1 Scalar unbiased case 1.2 General scalar case 1.3 Multivariate case 1.4 Regularity conditions 1.5 Simplified form of the Fisher information 2 Single-parameter proof 3 Examples 3.1 Multivariate normal distribution 3.2 Normal variance with known mean 4 See also 5 References and notes 6 Further reading Statement Simplified form of the Fisher information Suppose, in addition, that the operations of integration and differentiation can be swapped for the second derivative of f ( x ;) as well, i.e., In this case, it can be shown that the Fisher information equals The CramrRao bound can then be written as In some cases, this formula gives a more convenient technique for evaluating the bound. 3 4 香农(仙农或申农) 信息 http://en.wikipedia.org/wiki/Claude_Shannon Claude Elwood Shannon (April 30, 1916 February 24, 2001), an American electronic engineer and mathematician , is the father of information theory . Shannon is famous for having founded information theory with one landmark paper published in 1948. But he is also credited with founding both digital computer and digital circuit design theory in 1937, when, as a 21-year-old master's student at MIT , he wrote a thesis demonstrating that electrical application of Boolean algebra could construct and resolve any logical, numerical relationship. It has been claimed that this was the most important master's thesis of all time. Contents 1 Biography 1.1 Boolean theory 1.2 Wartime research 1.3 Postwar contributions 1.4 Hobbies and inventions 1.5 Legacy and tributes 2 Other work 2.1 Shannon's mouse 2.2 Shannon's computer chess program 2.3 The Las Vegas connection: Information theory and its applications to game theory 2.4 Shannon's maxim 2.5 Other trivia 3 Awards and honors list 4 See also 5 References 6 Further reading 7 Shannon videos 8 External links
个人分类: 信息学基础研究|2526 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-21 05:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部