科学网

 找回密码
  注册

tag 标签: 语义

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

闲聊语义学
热度 1 saif 2016-3-5 14:40
什么是“语义学” (semantics),或者,“语义学”是什么?大部分词典都将其定义为语言学的一个分支,研究语言的意义(meaning)。那什么是意义呢?词典的定义是:“语言或其它符号所表示的内容”。那什么是内容呢?词典的定义是:“事物所包含的实质和意义”。这样我们又回到原点:意义就是内容,内容就是意义。 这样看来,所谓的“语义”还真的不好把握。不过在日常生活中我们很少为这个问题发愁。日常语言我们常用“意思”表达“意义”或“语义”。举几个例子: (1)你能告诉我这段话是什么意思吗? (2)“我最近很忙,手机也坏了,领导派我出差,最近这一段不在本地;所以,我们先不要联系了…”“你什么意思?是说我老缠着你吗?” (3)这个英文单词的意思是“访问”。 在这些场景中我们似乎对“意思”的把握很到位,无论是篇章,对话,单词各个层次上的“意义”我们都很熟练的掌握。 有一个和“意思”相近的词叫“解读”。例如上例(2)大概属于解读之类。解读和“意思”有一个区别是前者更接近主观的认知:我认为… 不过,语义也有让人困惑的一面:跟一个天生的盲人,你能说清楚“红”的意思吗?对于别人从未听过见过的、你家乡的一些独特小吃(比如糌粑、糕干、麻豆腐等),你能解释清楚它们是什么吗?恐怕你的解释啰里啰嗦一大堆,已经谈不上是什么“语义”了。这时其实最好的说明方法就是把实物放在你朋友面前让他体验一下(尝尝)就行了。 和汉语不同,英语中表示语义/意义/意思有两个词汇,一个是常见的“meaning”,另一个学术味比较浓,称作“semantics”,通常是指研究语义的学问。那这个semantics到底是什么的?研究什么?我们先简单做个科普。 首先,这个词原本不是用在语言学里,而是逻辑学用语。60年前提到semantics,一般指逻辑命题与真值之间的对应关系。在逻辑学中,任何一个命题都要确定其真值,作为研究论证的基础。这个确定命题真值的过程和理论就是semantics。上世纪1930年代,有人试图将这个术语移植到自然语言的研究,但是人类语言的semantics是什么东西,无人知晓,大部分逻辑学家认为绝对很荒唐:乱七八糟毫无规律可言的人类日常语言能有什么“真值”可以确定?! 随便举个例子: “法国国王是个秃子”可以确定“真值”吗? 当然可以。法国当时已经是第四共和国了,哪有什么“国王”?所以真值为“假”。 喂,先等等。既然法国没有国王,那你凭什么说“法国国王是个秃子”一定是假的呢?不存在的对象我可以随便说它是什么,它不是什么。 不对吧!逻辑学说命题与现实对象没有对应物时该命题应当为假。 你说的更不对。如果说没有对应物,那“法国有国王”这个命题才是假的。退一万步说,即使“法国国王是个秃子”是个假命题,但这句呢? “我舅舅认为法国国王是个秃子”。你就不能说是假的了吧?万一我舅舅真的认为法国国王是个秃子,这句话就为真。 所以,逻辑学家们打不起这个架,大部分人对自然语言都敬而远之,semantics自然也就落不到人类日常语言上来。 而当时的语言学,更多的是用meaning,也就是“意义”、“意思”表达词义、句义,从来没有奢望将语义作为语言学的独立分科。现在有许多人批评乔姆斯基当年在《句法结构》中拒绝将语义纳入语言学研究。我觉得对当时才30岁左右的乔氏来说,有点冤枉,因为当时确实很少人将semantics看做是语言学的一部分,因为一提到semantics,人们马上会联想到逻辑学,而且乔氏的结构主义语言学背景也不可能在那个时候让他能创建一个独立的语义学研究。 巴希勒尔(Bar-Hillel)是当时第一个提出将结构主义语言学与逻辑联姻试图将semantics引进语言学研究的人。不过乔氏拒绝了他,认为逻辑学最多只能为语言学提供一些描述工具,而对语言学研究本身用处不大。 到了1960年代,事情有了变化,搞语言哲学的Katz和Fodor等人加入到了转换语法阵营,专攻转换语法的语义部分。这样,在1965年乔氏发表《Aspects》宣布“标准理论”的基本框架时,语义,semantics第一次堂而皇之地进入了语言学的圣殿,成为当时转换语法的一个组成部分。不过,正像后来许多语义学家所讽刺的那样,在乔氏语法理论的T形图中,厚重的深层结构、转换和表层结构的旁边,漂浮着一个高深莫测的大概是空空如也的盒子,它叫做semantics。 (标准理论的框架是这样的: 深层结构——语义 | 转换 | 表层结构 ) 但是实际上,这个语义学盒子真不是空的,装了许多“语义规则”。这些“语义规则”看上去和短语结构相似,也是用树形图表示的,只不过节点上的不是单词词组,而是一些“语义属性”。这些“语义属性”用大写的英文单词表示。比如kill这个词,它的语义就是MAKE sb DIE。 这样,生成语法里的语义,实际上是用了词典的方法。例如朗曼学习词典,首先假定学习者已经认识了英语2000左右的基本词汇,然后用这些基本词汇定义剩下来的4万多词汇。从学习者角度,或者从语言教育的角度,这是一个创举。但是生成语法拿这个思路描述人类所有语言,就不太现实了。 这样,语义学在1960年代是个混沌的存在,谁都认为语言学应当研究语义,但什么是语义,人们似乎还没想好。 与此同时,在美国西部,有另外一个人,从巴希勒尔对乔氏的建议受到了启发,看来,真正能作为科学的semantics,只能从逻辑学着手了 ,这个人就是Richard Montague。他从乔氏研究句法的成绩受到强烈的震撼,认为这种形式化方法不但可以研究句法、音位,也应当能够研究语义。在美国东部MIT为语义问题吵翻天时,Montague开始试着从一阶谓词逻辑开始,加入自然语言的元素,一点点地扩展。一阶逻辑不够使,再加入二阶逻辑,也就是谓词也可以做变量的逻辑,然后再加入早期为解决数学基础问题的类型论、lambda演算等工具,描述的自然语言现象也一点点扩大,到了1960年代末,Montague终于有了可以拿出手的自然语言的语义学了。在研究方向上,他首先扩展了逻辑的概念,从一阶谓词逻辑扩展到内涵逻辑和类型论,于1973年,发表了《The Proper Treatment of Quantification in Ordinary English》(日常英语中量化现象的严格处理:简称PTQ),一炮而红,获得的名声完全不亚于十几年前乔氏《句法结构》,被盛赞为开创了语义学的新纪元。自此,语义学研究完全上了逻辑学的“贼船”一发而不可收。 现在回到上面的问题:什么是语义?什么是意义?什么是意思? 先把那些比较难的问题,如话里话、话外话、绵里藏针等剔除,把那些所谓“环境因素”、例如说“这房间真冷”的真实意思是让你打开暖气等也剔除,只剩下字面意思。 然后再把范围缩小,只看学外语。这样,我们研究所谓语义/意义/意思好像就有的放矢而且也容易了。那么我遇到一个不懂的外语单词,所谓语义/意义/意思无非就是一部外汉词典,找到外语生词,查一下相应的中文词就明白了。许多人学英语背单词不就是干这件事吗? 如果从外语学习的角度,所谓语义就是背单词:看见一个外语词马上知道中文意思;这种想法并不是完全没道理。 如果我们把视线转向单语,就像上面提到的,朗曼词典的专家们,从4万多单词提取出2000词汇作为基本元素来定义剩下词汇的词义使人在学完2000基本词汇后轻松利用英-英词典,真是功德无量啊。这在语义学上还真有个术语:叫做“义素”,这是比照音素、词素等造出来的,既然语音可以分解成音素、单词可以分解为词素,为什么“语义”不能分解为“义素”呢?有了“义素”概念,可以给单词按照“义素”分类,因某种性质归在一起的同类词,可以叫做“场”(field)。这是受物理学启发,既然有磁场、电场,为什么不能把一堆凑在一起的东西也叫作“场”呢?于是语义就有了“语义场”。明星露面叫“气场”,天安门前那一大块空地叫广场,学者明星走穴叫出场。反正这些够你“语义学”研究的。 现在有个问题,单语字典中那些定义、双语词典中的中外对照,算是语义吗?如果算,下一个问题是:只要我把字典中的定义、外汉词典的中文对译记下来就算掌握这个词的语义了吗?反过来,如果一个中国老农,知道“鲸鱼”这个词,但从未背过什么现代汉语词典的定义,他算不算懂这个词的语义?如果算,他其实真的不知道“鲸鱼”不是鱼(而且中文这个词本身就是误导)。如果不算,他可以在说话时自如运用这个词,“我在电视上看到鲸鱼了”。有人会说,这不是语义问题,这属于百科知识,跟语言无关。但问题是,如果承认百科知识和语义无关,但在判断词义时又要用到百科知识,那么这个“无关”是什么意思?如果有关,那问题更复杂了:人们在理解“语义”时,百科知识和“语义”知识是如何相互作用?是不是研究“语义”同时还要兼带研究百科知识? 最后一个问题是,那些作为定义词的基本词汇,它们的“语义”由什么来确定?如果仍然由这些基本词汇表中的其它词来定义则会陷入循环定义的尴尬中。就像我们刚一开始定义“意义”,意义就是内容;内容是什么?内容就是意义。 除了词义外,就是词组了,例如:全国人大常委会。如何知道它的“语义”。这时候大概真的得用所谓“百科知识”了:你首先要知道全国人大是“中华人民共和国全国人民代表大会”的简称(我还没问你“简称”的“语义”呢),还要知道全国人大的组织机构分大会、常务委员会和许多其它专门委员会,其闭幕时的执行机关是常务委员会,而常委会是常务委员会的简称… 行了、行了,如果我们的语义研究是做这个的,那这个研究是没法做了。 再往上,句子。在句子这个层次,仿佛逻辑学已经给闯出了一条道,那就是从研究肯定陈述主动句开始。因为这样的句子,如果不是太出格,都可以用“命题”的概念“框住”它。不过,逻辑学研究句子语义的结果看上去并不那么激动人心,它只说给定句子的“真值”是什么,尽管在研究自然语言时叫做“语义值”(semantic value),其实只是换了个马甲。 说了半天到底什么是“语义/意义/意思”呢?笔者也没有最终答案,只是将词典里对semantics的定义献给各位看官: The branch of linguistics and logic concerned with meaning. There are a number of branches and subbranches of semantics, including formal semantics, which studies the logical aspects of meaning, such as sense, reference, implication, and logical form, lexical semantics, which studies word meanings and word relations, and conceptual semantics, which studies the cognitive structure of meaning. (研究意义的语言学和逻辑学的分支。语义学又分为几个分支:形式语义学研究意义的逻辑学方面,包括感知义、指称、蕴含和逻辑形式;词汇语义学研究单词的意义和词和词之间的关系;概念语义学研究意义的认知结构。) 如果通过这个介绍你觉得“语义学”很无聊,就此打住。如果你觉得有些意思,那我们下回再聊。 这篇东西,严格说不是什么“笔记”,仅仅是漫谈,适合从未接触过语义学的人。如果你一直在做句法、音位方面的研究,那么在语义领域你会遇到前所未有的全方位挑战:第一个问题就是你如何界定你的研究目标。作为新兴领域,语义学只是一个襁褓中吃奶的婴儿,还谈不上什么成体系的理论架构。 下一篇谈谈语义学研究牵涉到的其它学科:哲学、逻辑学、数学。 【注】 对逻辑学研究语义感兴趣的请参见我在豆瓣【逻辑】小站的读书笔记 《逻辑和语义的关系:第一章 导言 1.2》 请参见我在生成语法小组的发言 《生成语义学派的历史地位》
个人分类: 语义论|4963 次阅读|1 个评论
《新智元笔记:与汉语离合词有关的结构关系》
liwei999 2016-2-13 15:45
我: 离合词和倒装反问句搅合在一起的句例: 今天下班路上还在琢磨,有时候汉语的小词就完全改变了句子的意义:看下面的 minimal pair:他什么书不读,倒装反问,是说的他无书不读,他读各种书,他博学;而他什么书“都”不读,同样的结构,只是加进一个小词“都”(或“也”)就全反了,说的是他一本书也不读,不读任何书,不学无术。你说汉语机巧不?不过,只要 parsing 靠谱周全,不拉下小词,求解这些语义就不难。 白: 读所有的书,“所有”指向“书”;打所有的仗,“所有”指向“打仗”。 “书卖了”兼述书的下落,“书买了”只是在“to do list”里勾销了“买书”一项而已。 我: 这个无所谓吧,只要提供的接口有一个约定就行了。当一个分离的离合词合并的时候,原宾语节点被抹去,融汇进合成词了。原有的宾语的定语,只能跟着过门了,算是陪嫁。为了区别这个动词的原状语和带过来的定语,一个是 Adv(状语),一个是 Mod(定语),不改变各自关系的原名称。Mod 本身意味着句法关系是指向合成词内部的名词性语素的,而不是指向这个合成词的。就是一个约定,一种表达法的约定的protocol,至于语义在用的时候怎么落地,那须在此约定的基础上做语用层面的重新解释和安置而已。至于“读书”与“打仗”的区别,没必要在句法层面表达。因为这是词驱动的语义细微差别,那就在词驱动的时候做不同的解释或解读好了。“打仗”被汉语句法生生分开了,其实语义上是一个概念。“读书”不同,“读书”语义上是一个组合的概念。 白: 不是的,“下的什么臭棋”的“臭”,形容的不是“棋(子)”而是“下棋(水平)”。这个定语指向“棋”还是“下棋”,应该做出区分。 我: 当然可以或应该做出区分,关键是这种区分是词驱动的。句法已经为这种区分做好了支持。不过是一个词驱动的 remapping 而已,爱怎么区分就可以怎么区分,譬如: 下棋:Mod -- Adv(下棋) 读书: Mod -- Mod (书) 这就区分了。对于下棋,其带过来的 Mod remap 到 Adv,去与整个动词连接。 所有这些表达,都是内部协调,语义语用的接口,大多是为了人好看。 对于机器,只要机制提供了,爱怎么转接怎么转接。总之,难点不在这里。难点还是在句法。句法是个纲,纲举目张。后去就是各种 remapping。很多时候不过是人的一种喜好。譬如在一种语用场合,IE 定义的时候把 hire 的“施事”叫做 “雇主”,“受事”叫做“雇员”。不过是换一个名字而已,可是,不换这个名字,知识图谱的使用者就觉得不舒服。好,那就给你 remapping,句法到IE语用,不就是 remapping 的游戏吗,就是一个玩儿: hire: S -- 雇主 hire: O -- 雇员 Bingo! IE(Information Extraction)在这条规则里面完成了。纯粹就是玩儿,哄人高兴。苦活累活脏话都在parser里面,到了语用,就聚焦了,简化了。以前说parser是IE和语义IR(Information Retrieval) 应用(下一代搜索引擎)的核武器,很多人将信将疑,以为立某自吹自擂,故意要张扬自己擅长的parser,可天地良心,parser做好了,IE就是薄薄的一层remapping,这是相当显然的事实。只不过IE出来的还是碎片,这些碎片需要融合(Information Fusion)才能真正支持大数据的应用。后一步属于 mining 的层面,的确还有工作。很多还是没怎么深入研究过的地带。前一步抽取基本上就是一层皮。 【相关】 【新智元笔记:汉语分离词的自动分析】 【新智元笔记:搭配面面观】 【新智元笔记:搭配二论】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5566 次阅读|0 个评论
【新智元笔记:搭配二论】
liwei999 2016-2-5 07:28
【立委按】微信群拉近了天涯海角的华裔专家的距离。这类富于智慧的专业讨论及其碰撞出的火花是教科书上看不到的,一般的大学或研究所的讲堂里也难遇到。大概类似于早年高级知识分子的沙龙,唇枪舌战,佐以幽默机锋。但不同的是,这些有意思的笔记几乎瞬时记录在案,以飨天下。如果你感觉受益了,请先感谢张小龙,再感谢群主白老师。都是神仙。 宋: 分布还是有意义的,比如“戴帽子”和“穿帽子”就是一种词对词的分布。 白: 这个可以被统计完败。 宋: 对,分布式可以统计的,但受到语料库内容的局限。比如拔火罐的情景对话,语料库中可能没有,结果“紫”就是区别词。 白: “这二十板子打得我手都肿了”。“这二十板子打得我手都酸了”。 我和打的关系,因为一个字而不同。 宋: 这种知识,怎样加到知识库中呢? 白: 肿,是伤病的一种;酸,是乏累的一种。施动导致乏累,受动导致伤病。这是知识图谱的思路。 宋: 句法语义分析,只能说打的结果我手肿或我手酸,至于我打还是我被打,不知道,这是常识范畴,是不是很难加紧知识库呢? 白: 也可以硬选一个概率大的,其他休眠。等常识有了相反线索再唤醒。 宋: “这穴位一捏,我的手立刻酸了”。 白: 嗯。这就需要唤醒了,捏穴位,被捏者有酸麻痛胀气感。但这不是词典级别的休眠唤醒,是语义角色指派(填坑)环节的休眠唤醒。 宋: “捏了一上午穴位,手都酸了”。 白: 时间又起作用了,再翻盘。 宋: “捏了半小时的穴位,我的手才感觉酸”。 白: 休眠唤醒本身的对象有个级别问题,休眠唤醒所依据的知识,也有个级别问题。 宋老师最后这个例子,歧义了。 宋: 是歧义。但是否有歧义,也是靠关于捏学位的知识来判定的。捏两秒钟酸是患者酸,捏两小时酸是医生酸,捏20分钟酸有歧义。 白: 以前面“板子”的例子为例,句法究竟要不要确定“我”是打的还是被打的?确定“这二十板子”是句法上的主语,最好交差。句法是不是到此为止? 宋: 我觉得是这样。从上面的例子看,我对于涉及常识的问题有点悲观,觉得碰不起。或者,要积累太多太多的知识才行。 但是,人是怎么获得和存储这些常识的呢?为什么人可以有这些常识从而能判断,机器就不行呢? 我:拿立氏parser分析一下看: 白: 伟哥更狠,上层无主语,下层俩主语(包括Topic)。 原因,居然是,他用了远距离相关。 “打板子”弄一起了。 我: 搭配啊。 这个分析形式上是合理的,隐含的坑没填。“我手疼”和“我手酸”是一样的,没有啥疑义,因为表达是显性的。问题出在,这个“我”怎样去填写上一层的坑。 白: 实际上,这两句微调一下,就是:“打这二十板子do得我手都肿/酸了。” 引入虚动词do表陈述,实动词和它的固定搭配一起表指称。 我在N多年前(N大于10起码)发表的文章《论语义重心偏移》就是这个路子。 我: 两个“打” unify,虽然汉语句法上必须重复(reduplication)。不过前面的合成词“打板子”与“打”,没能unify 虽然应该unify:问题出在,词典中合成词的搭配,默认是黑箱子。可这个黑箱子不够黑,其实是蛮透明的。 白: 这样交差,面子上最好看。 上层的坑,候选就在下层,可是咫尺天涯 我: 距离不远,如果有可靠的痕迹(常识不算),可以填坑。 白: 保持一种能交差的模糊还是确定一种能翻盘的推测,都可以,不同的技术路线。把去模糊或者翻盘的任务留给下道工序。 宋: 二十板子打得我手都酸/肿了。弄清楚二十板子是打的动量,我手酸肿是结果,就够了。为什么非要弄明白打的施事和受事呢?这个信息也许上下文中有明示,为什么非要从这一句话中凭常识去理解呢?我觉得这还是英语的影响,只要有及物动词,就非得有个施事有个受事,其实听的人可能不关心,至少在听这个句子的那一刻并不关心。英语是摆出了架子,论元结构,每个句子基本论元都要填全。汉语语法简单,语义也简单,关心的事情都不想说明白,不关心的事情绝对不说。汉语的语义分析句法分析,不能用英语的那一套。 我: 宋老师是在question为什么要补全,任它模糊不行么?补全了,究竟什么时候、哪些用场要用到?我有同样的疑惑。不过这不像宋老师的问题,因为宋老师就是做补全工作的。 宋:我现在没说补全。 如果说补全,用堆栈结构,也是有限地补全,不一定包括基本论元。 白: 坑是在建立词典的时候就挖好的。有些语义的坑甚至与语种无关。理解就是坑驱动的并且以填坑为目标的。想要弄明白没错,常识也不是弄明白所唯一依靠的手段。了解没有填满的坑和没完句的标点句一样是有“张力”的,就够了。应用与哪些张力接轨,是应用的事。 “二十板子”那个,甚至可以说形式上都全了。但是张力依旧在。你可以明确地不理睬张力,但是这和没感到张力是有区别的。 宋: 我觉得要在话语内和话语外之间划一条界限。计算语言学先把话语内的事情解决,人工智能可能关心话语外。先搞字面理解。字面外的东西另说。 白: 这个可以有。 宋: 这就要建立一个适合汉语的字面理解的语义体系。 白: 但是接口的表达能力强,还是不一样。比如,“乒乓球是谁也打不过”,“足球是谁也打不过”。没有常识,你不知道谁强。但是,知道某两个成分一定分别填某两个坑,也够了。 宋: 两个问题所用的策略和资源可能不一样。先弄清楚字面的语义有哪几个要素,是用什么语言形式表现的,有什么规律性的东西可以让计算机抓住的。 我:“爱是一种珍贵的感情”。谁爱?爱谁?坑从词典里就有了。填不填呢?这是一个极端的例子,答案是:不需要填,或者按照标配去填。其实甚至按照标配填都不合适,因为在讨论爱这个概念的时候,人甚至不想被标配束缚。标配是人,可是我们的信教朋友讨论爱的时候,默认却是上帝。 白: 一种,已经指称化了,与陈述可以无关。无关就不需要填。只有陈述的坑才有张力,指称的没有。标配都不需要。去南极太危险了。谁去南极,不需要关心。不产生张力。 我: 是不是在填坑前,先掉一个程序确定谁有张力,谁没有张力,然后再去填?这个张力的标准也不是想象的那么容易识别,或容易有共识。 白: 在分析过程中就能确定吧。 我: 在一个充分开发的系统,填上了的就是有张力的,填不上的就是缺乏张力的? 白: 有些是跨句的。比如:“我知道谁是凶手”。“凶手”抛出一个“案件”的坑。但是句法上,这句话自足。如果系统认为“凶手”不需要关联“案件”,那也没什么,大不了信息抽取的时候再通过其他渠道重新发明轮子呗。 宋: 说英语大人也没那么较真儿。不关心失是受事的时候就用一个有行为意义的名次。表达成汉语,形式一样。人家已经不关心了,我们还在挖掘。 白: 也不是不关心,坑还是坑。比如the removal of sth,sth就是个填坑的。 宋: 英语通过词性标志明白地表示我关不关心,汉语没有这种标志。那就是在话语中直接表现出这种关心了。 白: The retirement of somebody,动词降格为名词,但动词的坑,通过名词的领属格,继续存在下去。 宋: 字面上有的,是我的职责,没能解决是我的失职或能力不足。字面上发没说的,请人工智能大哥解决。 白: “谁也打不过”,两种填坑方案,一个最强一个最弱。谁强谁弱,人工智能大哥可以告诉你。但是告诉你了还填不对,就是NLP的能力问题了。 宋: 隐喻之类的,是二者之间。 白: 隐喻另说吧。 宋: 这是句式语义,字面问题。“这个人连班长都不认识”。 白: 这个也可以假装没有歧义,咬死了“这个人”是主语,“班长”是宾语,也可以交差。只不过把填坑的任务转嫁了而已。 parser是“能做多少做多少”,还是“能做多少做多少”?还是“面子上能做多少做多少,实质上能做多少做多少”? 确实有个取舍。 我: 这些个特别句式或特别的说法,它的歧义是容易识别的、它的标配语义是清晰的、它的排歧是困难的。 费了半天劲,还是很难排除歧义,不如止于识别,或者止于标配(以后可以翻盘)。 宋: “这个难民连奥巴马都不认识”。这种话的理解,确实需要知识。但在计算语言学中,可以先悬起来,问大哥:奥巴马不认识一个难民是常规还是一个难民不认识奥巴马是常规?大哥告诉他前者是常规,于是小弟得出答案:这个难民不认识奥巴马。如果大哥不告诉小弟,小弟只能把结果模式和需要的知识都摆出来,收不了口。 宋: 没错。“拿多少钱干多少活儿”。 “有多少能力干多少活儿”。 白: 止于识别并保留明确的翻盘接口。 止于标配。 我的选择。 没有外部信息,就按先来后到了。 宋: 字面上的东西,计算语言学责无旁贷。堆栈模型就是字面上的。 白: 要翻盘,从队列里按顺序翻就是了。 宋: 难民的例子说错了。奥巴马不认识难民是常规,于是小弟知道是难民不认识奥巴马。 白: 知名度低的不认识知名度高的信息量大。 实力最弱的打不过实力最强的是标配。 填的时候,不是“两可”而是填这种系统调用附带逻辑约束。这样外部知识应用就有方向了。 宋: 标配就是缺省值,对吗? 白: 是。 我: 这些算标配了。 标配的翻盘可以在识别了这种歧义的句式的时候,设置一个 tag,后去的模块可以考虑基于 tag 所指,看有没有其他的依据去翻盘。 白: 不仅值缺省,标签也缺省。我是这个意思,见图: 我: 看成了 臭巴马。哈。 白: 嗯,字臭么。 知名度的值或序,外部给。但是除了这个,NLP都可以确定。 我: honestly 这样做系统,容易限于烦琐哲学。另一个风险是,容易引起很难判断的“语言外知识 vs 语言内句式的标配语义”的较劲。Case by case 可以说得头头是道,但也极易捉襟见肘,或聪明反被聪明误。毛主席说:知识越多越反动。 白: 贫下中农说,背着抱着一边儿沉。 我: 一个系统负载太多的碎片化知识,会陷系统于不鲁棒不好维护的境地。Stay simple,stay foolish,stay knowledgeless,as much as possible。 白: 加起来总是繁琐的。 我: taxonomy 这样的本体知识 hierarchy 用起来副作用较少,因为可以用这些 taxonomy 做细化的规则,下面的粗线条的标配并不变。但是一旦开始用常识或世界知识,这些非元知识的系统,危险大大增加,很容易弄巧成拙。 白: 角度不同。一个既要做parser又要做应用的开发总负责人会做合理分工的。这不是世界知识,只是一个接口,甚至你可以不命名。只用内部编号。总之,填坑的方案取决于一个量的外部排序。 我: 知名度当然是世界知识,不是本体知识。奥巴马知名度高,是一个非常实在的世界知识。 白: 可以不叫知名度,这行吧。叫external-quantity123,到时候给映射上就OK。 我: 叫什么都不改变知识的性质,这些知识是与 entity 关联的图谱性的东西,而不是不随世界而变化的本体知识。 奥巴马与一介平民的比较还好,换成两个其他人名,几乎没有可操作性。 白: 不可比,就不代入人名,死不了啊。实际上,语义场理论里,序结构是个基本的结构,这个完全是可控的。拿不可比的序关系说“连....都...”句式,那是语病。那种情况下不可操作是天经地义的。如果是人机对话,机器遇到人说了不可比的情况,可以生成问句,进一步追问二者在相关外部量上的排序。比如“不认识”可以驱动对知名度排序的追问。“打不过”可以驱动对实力排序的追问。parser只要能表示“孰高”就OK。 我: exactly,如果是人机对话的语用场景,问题根本就不存在。上帝的归上帝,人的归人,机器的归机器。机器只需识别歧义,which is tractable and easy in most such cases,消灭歧义归人。用些小的技巧就可以实现,一点都不困难。我专门为此写过两篇笔记。很多看似极为艰深的语言歧义,到了人机交互现场,简直就不是事儿。 白: 还要让人的体验好啊……不是为了消灭歧义而消灭歧义。 要让人知道机器除了问人的那一点不知道,该知道的都知道了。 我: 《 立委科普:机器可以揭开双关语神秘的面纱 》and 《 贴身小蜜的面纱和人工智能的奥秘 》 QUOTE:“世界上怕就怕认真二字,昨晚对‘双关语’认真了一回,发现微妙的外表下面,是简单的实现可能,绝大多数双关不过是一词多义而已,识别它没有难处。 自动消歧自然是难,但是有消歧的必要么?双关之所以叫双关,就是否定消歧的必要性。” 白: 双关不在结果而在过程。 我: 要点是,一个词的多义,或者一个句式的多义,识别它非常容易。 白: 过程是休眠唤醒,最后都留下。中间一个休眠了。没这个过程,是索然无味的。“对付”人机对话太容易了,做好不容易,要有点追求么。 我: 不说人机对话,感觉上,需要核心引擎用细琐的知识排歧的语用产品,不为多数。 信息抽取是一个重要的语用场景,过去17年就做它了。虽然理论上说,所讨论的那些排歧和填坑,可以帮助抽取和抽取的信息融合(info fusion)。但实践中,在信息抽取(或知识图谱)的任务确定以后,信息融合所需要依仗的支持,在大数据的信息冗余的自然帮助下,很少要用到核心引擎的细颗粒度的排歧和填坑。这个体验是经验性的,可以信或不信,但这是真实的感受:独立于 domain 的细琐的语义求解对最终的知识图谱任务,没多大帮助。细颗粒度语义有科学意义,实用意义不大,况且很难实现。一个 light weight 的 deep parser 就够人忙的了,还要加载细琐语义,这是要压垮系统的节奏。 白: 排岐并不是唯一目的。设想尼克问你:你咋连冰冰都不认识?你回答:冰冰谁啊?这不是在排岐,但却使用了你自己的知名度排序,把冰冰知名度说的一钱不值…… 我: 多数语义最好与语用一起做,而不是超前,虽然理论上超前的语义可以对所有语用有益。 其实这个道理与为什么大多数知识图谱项目并没有采纳 FrameNet 作为中间件是一致的。 理论上,FrameNet 的存在就是为语义和语用架设一座桥梁。 但实际上,稍微尝试一下就会发现,与其先瞄准 FrameNet 然后再从 FrameNet map 到语用的domain 定义的目标, 不如直接从句法结构去做domain语用。 后者不仅省力省工,而且更加容易掌控和debug。总之根本就没有可比性。 白: 即便董老师做Hownet,傻子也看得出来他的语用是机器翻译。世界上没有超前的语义,只有超前的语用。语义和语用不匹配是自己没把握好 我: 同意。 可以总结一下我的经验和立场了: (1)WSD 这一层的词义 ambiguity,原则上 keep it untouched。很多词义的区别属于nuances,并不影响本体知识的 taxonomy的features,如果遇到两个词义相差大,那么就两条路径的 taxonomy 全给,系统用到哪条算哪条。以此来维护先句法后语义的大原则。 (2)对于句素之间的关系语义的歧义,PP-attachment 之类,两个策略都可以。deterministic 的策略就是先休眠其他可能,然后在需要的时候在后续的模块做reparsing去重建 non-determinitic parses 唤醒并重选。第二个策略,就是注重 identify 这种歧义,但不去排除它,而是都给连上(当然可以有个排序)。句素间连上多种parses,没有什么负担。一个Node 既连成了主语,又连成了宾语,虽然是违背了依存关系的原则,但却凸显了歧义。后去的模块只要在歧义中选优(排歧),或者语用中都尝试一下即可(不排歧,用语用知识弥补歧义路径的不足)。 (3)对于句素下的歧义,譬如短语内的歧义,最好是休眠,不能带着瓶瓶罐罐去做deep parsing。 这算是语重心长的经验之谈。值100文。 【相关】 【新智元笔记:搭配面面观】 【新智元笔记:汉语分离词的自动分析】 《 立委科普:机器可以揭开双关语神秘的面纱 》 《 贴身小蜜的面纱和人工智能的奥秘 》 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|3997 次阅读|0 个评论
《新智元:通用的机器人都是闹着玩的,有用的都是 domain 的》
热度 1 liwei999 2016-2-2 08:11
湖: 让机器抓狂: 1.“他看到两个人”,到底是张三和李四还是李四和王五? 2.“金星”、“晨星”、“启明星”、“长庚星”竟是同指 3.“植物是靠它的根从土壤中吸收水分”、“他说的话里有很大的水分”,同是水分,机器怎么分呢? 这些最基础的命名就具有不确定性 从这可以推测出语言靠经验主义,没有经验,难以判断 白: 对影还可以成三人呢。缺省排除自己,例外包含自己同指还有个在不在知识库里的问题,不在的话,可以默认不同指。两个水分,在词典里可以处理成两个义项……当然急智的比喻总该给留下空间。 湖: 白老师说的知识库就是经验了,词典也是。 我: 机器抓狂,是指在语义“落地 的时候抓狂。在此前有什么抓狂的?多数情况,语义和知识的介入都是有限的,对于结构的 parsing 这些 WSD 的问题绝大多数都是可以绕过去的,没啥抓狂的。( 【 NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈 】 )一旦到了落地的时候,那就是应用现场了。对于应用现场,很难说抓狂不抓狂,因为每个现场的要求是不同的,有的现场根本就不需要每个歧义都区分。当年批判 WSD 是 NLP 的基础的时候,就是秉持这个道理的。WSD 最好尽可能推后到语用层面做,此前 keep ambiguity untouched(也就是休眠多义)最佳。 湖: 当我们想让机器像人一样时,就不能休眠了。对某些工程应用,可以粗粒度处理。 我: 机器不会像人一样。“机器人”概念上是个骗人的东西。就如 AI 是 misnomer 一样。所谓机器人,其意义和价值都是在应用现场和domain,通用的机器人是不存在的。 湖: 同意您的观点,很多要留给语境,留给世界自身。 我: 很多通用的问题到了现场就不是挑战了:有的问题自动消弭,有的问题大大减弱,因为有了domain、有了局限的 world。很多时候 wsd 从人的理解看可以无比复杂,到底是张三还是李四啊?但是对于机器 就是一个 classification,胡乱猜的概率是 50%,如果是两个词义的话。然后到了现场,不管加上怎样的约束,包括频度的统计,一下子精度就改进了。总之是,能留到最后的就留到最后,能语用做的,不要语法去做。 湖: 两个人,怎么与张三李四关联,统计纯粹猜了。就如同在案发现场,证人说看见了两人,这两是谁,就连福尔摩斯也不一定能断出。语言天生就给了这种不确定性。 白: 所有的自然语言,都是“主述”。无定。就内部申请俩ID就得了。 我: 既然福尔摩斯都不知道,这个问题就不是问题了,还提它做甚。所谓语用现场的语义落地,指的是可以落地和应该落地的东西。本来就不能落地的或不必落地的,没有讨论的意义。 湖: 我观点是语言天生不确定,不确定变确定是世界给予的,不是语言符号系统自身。 白: 不确定,也是相对的。一只老虎......这只老虎 ...... 这只,就比一只,少了些不确定性。或者说,除了坐标原点有不确定性,其他还是确定的。星期二,也是一样。给定了周日,就可以通过偏移量算出来。 我: 举个例说明语用现场的语义落地:当 Siri 针对某个应用开发的时候,那就是。如果针对的是 Clock 这个 app,那就把世界缩小成询问时间的世界。 一切 input 都要落地到 Clock 这个 app 中可以执行的某个操作上,如果落地时候不能越过某个 thresholds 就认为越界了。 湖: 领域严格限定,自然好处理,就类同于编程语言了。 我: 说的就是这个。通用的机器人不存在。不要做无用功。通用的都是闹着玩的(如微软小冰,貌似通用,就是一个为了娱乐,娱乐也可看作广义的 domain),有用的都是 domain 的。 【相关】 【立委科普:歧义parsing的休眠唤醒机制再探】 《泥沙龙笔记:parsing 的休眠反悔机制》 【 NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈 】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4293 次阅读|1 个评论
《泥沙龙铿锵三人行:句法语义纠缠论》
liwei999 2015-10-27 08:19
白: @wei 微博上的讨论很有代表性。 我: 看到了,这个错误放大(error propagation)的问题,我以前也讨论过。很多人是杞人之忧,包括雷司令。 @雷 你上次说到,parsing 需要准确才好做知识图谱。还说差之毫厘失之千里,其实完全不是这样子的。估计你是深陷在你的 parser 里面,还没有真正放开手做知识图谱的工作。 说句实话,所有的抽取工作,对于 twitter 和微博这样的短消息的细线条的舆情抽取是最难的,知识图谱这样的工作比起前者简直就是 piece of cake. 我们跟舆情奋斗了这么几年,比较了一下里面的复杂度和tricky的地方,也比较了里面实现的规则,可以说,最难的果子已经吃过了,剩下的大量的知识图谱类的抽取挖掘关系,在 parsing 的基础上,就是一个单纯的工作量的问题,没有门槛,没有难度。 信息抽取中的两大类,一类是客观事实类抽取(关系和事件),针对的是客观语言(objective language),这就是知识图谱的主要内容。另一类是舆情抽取,针对的是主观语言 (subjective language),情绪和评价类。后者的难度高出前者太多。 客观事实类抽取包括:专名 NE, 这是做基础的工作。下面就是在这些NE之间找关系(relationships),找事件(events)。为了抽取出来的东西可以整合(fusion),为挖掘服务,里面还有一些 CO (coreference)的工作。 雷:  知道Watson是怎么抽取相当于100万书籍的知识吗? 我: 上次我就说,如果主语宾语弄错了,那么按照错误放大的说法,抽取是不是就一定做不了呢?答案是否定的。parsing 错了,也可以支持抽取。只要错误是可以预见的,错误不是全方位的。 推向极端就是 @白硕 老师的“意合”系统。你看,根据词和词的 semantic coherence 的某种模板,甚至没有 parsing 都可以做。 何况有了 parsing,不过是 parsing 偶然断链,或错置呢? 有很多弥补 parsing 错误的手段可以在接近产品的层面施展,包括 domain knowledge 和 ontology。 雷:  我做过英文文献的药物副作用的抽取。严格的svo,结果不错。但我的感觉是,如果parsing再准确一些,结果会更好,而且事后的处理要少很多。这个仅仅是我的感觉。 我: 再准确也不能完美,主要还是思路要转变。 提高准确性是一个 incremental 的过程,而且一定会遇到 diminishing return 的两难。关键是在做抽取的时候,要知道,利用 node 的信息,可以弥补 arc 信息的不足。node 就是词,arc 就是句法。句法不够,词来补,因为词本身就是语义的最基本的载体,里面可以玩出很多名堂来,包括 ontology。 雷: NLP像地基,如果结实,可以起高楼。后续的修补要少,后面的工作就是建立FACTS,问题是战线要拉多长。 白: 意合法从来不拒绝partial parse tree,句法有什么拿什么,没有也憋不死。 我: Parsing 当然是地基,地基好了一定省力,这都没错。这么多年鼓吹 deep parsing 就是基于同样的理念,因为业界的 parsing 太 shallow, 没有地基。中文NLP 玩了那么多年的业界,谈起 NLP,默认就是切词,或者在切词上做一点啥,譬如 base NP。 雷: 事后修补也是对的,这个在认知心理学中也有证明。但是,这种事后修补在认知中不是大量的。工程的探索和应用是一个方向,认知上探索也是一个方向。 我: 白老师,严格的说,不是句法与语义配合到怎样的比例才做好系统。我们实际上是说,显性形式和隐性形式怎样搭配,才能出一个高效的NLP系统来。可以简单地用句法手段来代表显性形式,语义手段来代表隐性形式,但是说句法语义容易歧义,不容易讨论清楚问题。所以上次,白老师提到 POS 有时候有害,不如语义分类好用。其实白老师说的不过是粗线条的隐性形式POS(一共就给词做10多个POS分类)和细线条的隐性形式(成百上千的语义分类),后者对于汉语分析的重要性。这个没有任何疑问,因为说的都是一家:隐性形式,都是语言里面看不见的形式,都是人必须在词典了给出的 tags,或者需要专门模块去给的 tags。所以我说,再纯粹的语义系统,只要是为工程用,就绝不可能放着显性形式不用,而去舍近求远地依靠隐性形式的语义。只有理论研究,可以放弃显性形式,因为放弃了显性形式,可以从理论上做出一个 universal parser,它可以 parse 人类任何的语言。显性形式(词序,小词,词尾和其他语缀)是 language dependent 的,只有剔除它,才可以做纯粹语义 的系统。 雷: 同意,不能放着有用的信息不要。我觉得模拟人的认知可能最是捷径。 白: 前提是,句法不能挡路,不能说你分析不出来了还不让语义按自己的逻辑往前走。 我: 还有,纯粹语义系统肯定不如显性形式可靠。在显性形式可以决定的时候,没有语义(隐性形式)出场的必要,它只会添乱。乔姆斯基的 Green ideas 的伟大实验就是要证明,显性形式能够做决策的地方,语义和常识都失效了。汉语中,“铅笔吃了我”,“铅笔把我吃了”,就是又一例证。绝对不会因为有了隐性的语义格框:动物-吃-食物,就可以用来解决 “铅笔吃了我” 这样句子的语义,这时候是(显性)形式的句法所决定。这样的句子就是显性形式词序或小词“把”在主导,没有语义(隐性形式)出场的空间。再举一个有力的例子,在有显性形式的格标记的语言,宾格基本对应的就是宾语。没有一个 parser 会不利用显性形式格标记,来做分析的。因为它明明告诉了“我已经标注好了,注定要做宾语”,你有什么道理要按照 这样的语义框格去找宾语呢? 白: 注定的话也不要说绝了。在幽默或修辞的场合,会来翻旧账的。 我: 意思你明白的。 雷: 语意是一个没有学过语言学的人可以说上一些东西的,但他很难说语法的东西 白: 你说的那不叫语义学,叫学语义。 小词本身也携带语义信息、结构信息,比如“的”。为什么我说从语义角色指派的逻辑上看“这本书的出版”和“这本书的封面”有很多共同之处甚至本质上相同,就是因为它的回环结构。 雷: “这本书的出版”和“这本书的封面”的相似度又有什么计算方法吗? 白: “出版”有两个坑,“封面”有一个坑。“的”是提取坑,不管一个两个,不管动词名词形容词。 雷: 出版与封面在wordnet上有什么近似度吗? 我: 你那个“的”是提取坑,我搞不明白 出版是逻辑动词,封面是逻辑名词,迥异。 雷: 封面是没有坑的,有属性,封面是一个class,坑是method提供的。 白: 有坑,part-of,是什么的封面 我: 这是一个 single-arg 的坑,partof 和 wholeof 互为坑。语义面上的,不是传统句法subcat上的坑。 白: 对,一价和二价的差别,如果规定从右边的变元提取,就没差别。右边饱和了,就往左挪。及物动词填掉一个宾语,就成了不及物动词。与此类似。 我: 具体谈一下这两例。结论是? “的”作为显性形式的小词,其提取作用,与英语小词 of 和 's 类似: translate A into B -- translation OF A into B A's translation into B a book's translation into B a book's title 白: “的”的定义,就是f(x1,x2,……,xn)的xn,你给我一个f,我就给你一个xn 雷: 以面向对象的模型类比,class,method,和attribute,书是class,封面也是class,但封面又是书的一个attribute。 我: 一般的关系分析并不深入到“partof”这个级别。一般遇到 “的” 或者英语的 's/of ,就是粗线条分析到 Possessive 这一个包罗万象的关系为止。这本书的封面,粗线条就是,“封面”属于“这本书”。而“这本书的出版”则不用,所有的分析都指向动词的 subcat。 白: 粗线条对于汉语不行。汉语有显式的句式与part-of有关。 我: “这本书的出版”,只是利用了小词“的”,把动词名词化,与动词直接加宾语,分析同: 出版加宾语,通常在右边,这是一条。 变式就是:可以名词化,用 “的” ,宾语前置。 白: 比如 “老李把脚冻肿了”,缺省是老李的脚,不是别人的脚。 我: 那是,不过这个分析真地太细。 雷: 老李的脚是一个NP 白: 老李的脚,老李的讲演,老李的意见 我: 缺省是老李的脚是常识,否则就会显性的把别人的脚表达出来。英语 “撞了我的头” 常常是: hit me on the head,这个 the 缺省的就是 me。翻译成汉语就用显示的 possessive。 雷: 老李的人的概念,提供属性与构成结构 白: the有anaphor的功能。 我: the 不过是显性地标注了 anaphor ,汉语没有 the,默认的还是 the,而不是 a。凡是一个名词表示非限定的含义的时候,其汉语的用法和条件相对来说,比较可以找得出来。而默认的 the 的含义,不太容易找出条件来,所以默认是个好东西,不需要去定义外延,外延靠别的东西去定义。 雷: 昨天不是有一个language universal的帖子吗?相近原理。 白: 看看汉语讲故事怎么讲:从前有座(a)山,(the)山里有个(a)庙,(the)庙里有个和尚讲故事。 我: 对,我们其实有 a,但常常没有 the,于是 the 是默认。量词是 a,某 也是 a, 我们甚至直接用“有”来表示 a (“有人”昨天来讲课了; “有部件”坏了--》一个部件坏了), 当然还有”一“,也可以用做 a,所以汉语表示 a 的形式手段还蛮丰富,因此就不需要 the。. the 是默认,实在还是不清晰,就用 ”这“、”那“ 等指示小词来强调一下限定的语义。 白: 都是不带形式标记的anaphor 雷: 细致的坑是ontologies的。parsing中动词和形容词有坑就可以了 我: 传统的 subcat 的坑是粗线条的,里面映射的可以是细线条的语义约束的坑。语义模板与 subcat 的关系。 白: anaphor 的 trigger 必须带坑。本身共指,或者 part-of 共指。记得 Winograd 讲过一个例子,一个小孩得到了一个礼物。当他打开(the)盒子,发现……。盒子就是装礼物的盒子,用the勾连起来。 我: 恩 白: 咱汉语里都是隐形的,于是“盒子”作为 “坑的 provider”,必须写到词典里。封面,也一样。 我: 恩,封面的优先主人是谁的信息在词典里,针对的是出版物。 白: 出版的受事坑,恰好也是。所以用的,一提取一个准儿。 县长派来的,比这复杂,因为派和来各自提供的坑,被一个“的”给提取了。或者说,派和来,经过了一次内部整合,统一一个坑对外,被“的”给提取了。 派是兼语动词(三个坑),来是不及物动词(一个坑)。 但是“派”最左的坑被“县长”填充,饱和了。“派”的另一个“事件”类型的坑,只能接受“来”。于是剩下的那个类型为human的坑,与“来”提供的类型为animate的坑,统一对外了。 我: 很有道理。填坑最好的是只有唯一的候选人,没其他可选。最麻烦的是要动用语义优先。 语义优先可以作为知识,预先学出来或标出来,或半自动,先学后标(postediting)。可是在使用现场需要层层松绑,想想就头大。 遇到结构歧义(不是伪歧义),还不是松绑的问题,而是对比的问题,要看三角恋的三方,哪一对最有 chemistry。 松绑只是对条件按照 taxonomy 去有步骤放宽,而对比不是,对比需要动态的看随机配对的力量对比。不是不可做,是 overhead 太大。 如果不考虑 overhead 和实用,力量对比的评判比层层松绑更容易,因为前者是二值的,总有一个吸引力更强,后者是趋于离散的。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4855 次阅读|0 个评论
《李白对话录:关于纯语义系统》
liwei999 2015-10-23 06:35
李: 白老师的格框语义算法,算是怎样的一个项目啊?探索研究,还是软件工程?似乎是后者。我觉得好难啊。这个感觉与当年(20多年前)董振东老师开始酝酿 HowNet 跟我谈他的构思的时候,感觉很类似。一个是觉得太难,另外觉得特崇拜。因为自己是门都进不去的。董老师居然几十年来持之以恒,发展至今。真是令人心服。 1988左右在高立公司做MT开发的时候,与董老师有半年多时间在一起,有很多交流。 白: 我很不情愿被拿来跟董老师比。董老师是在做事业,我是在玩游戏。 李: 感觉是类似的,语义是个坑,敢跳进去的都值得佩服,无论是玩票还是专业 。 绕开句法的纯语义方法比句法为主语义为辅的方法,大体说来,复杂度高出一个量级,不是不可能,而是很困难。 白: 我不会去学术界抢他们饭碗的,工程、互联网打法和资本市场,我相对更熟悉。 李: 学术界的语义,不提也罢。严格说,董老师的语义路线其实也不在主流圈内,他就是凭着信念和自信去构筑一个知识框架,附加一些工具。工程上第三方用起来并不容易。 Fillmore 的 FrameNet 算是学界的一个标杆,可那是一条得不偿失的路线,地位在语用和语义之间,不如语义格框简明,又不能直接达到语用,两边不靠,地位很尴尬,我以前专门评过,虽然理论上他是一个了不起的反乔姆斯基的语言学大家,一面旗帜。语义路线的评论在《 语义三巨人 》。 quote:“坚持语义和知识为基础的语言处理路线,是一条繁难艰辛的道路。我感觉,语义是个大泥坑,我等凡夫俗子一旦陷进去大多出不来,而能够驾驭它的人均非等闲人物。” 也因此更看好非学界的语义,如果语义可以突破的话。 白: 不落地的知识只是玩具 李: 对,这些语义大师都不大接地气:做了很多细致的工作,但是忽视了工程可行性和简易性。他们的个头都太大。cyc 为最。 白: 知识落地,与商业模式极其相关。 李: 还有一条,最好不要强调语义的推理功能,因为强调了推理,就过分偏向形式逻辑,其结果是追求系统的理论完备, 最终是更加脱离实际和现场。 白: 董老师没有明说出来的应用场景是机器翻译,但机器学习正是大踏步甩开语义方法的节奏。没踩上点儿。 李: 董老师本来是接受前人的教训,但后来我觉得他也还是吃了完备性的亏。 语义自底而上建筑,从数据来,不追求完备,也许更可行,更接地气。 白: 推理不一定是演绎推理,演绎推理也不一定非要达到证明四色定理的程度不可。 根据应用场景来剪裁知识和推理,可以和语言松耦合。 找到合适的毛毛虫,洞穿由不可计算性和NP完全性组成的传统壁垒。 李: 句法(包括词法)是一个便宜直接的手段,有意绕开是舍近求远,工程上不合算。即便像汉语这种几乎没有词法,句法显性形式也使用有限的裸奔式语言,这些形式还是可以在语言理解过程中,省去很多语义匹配的麻烦,更不用说其他的语言了。句法的形式手段如果用features来表达的话,从量上看是在百位数上,不到千,常用的 features (包括POS和一些词法范畴)不过几十个,用起来非常 tractable。而语义的 feature set 却大了至少一个数量级,里面的 hierarchy (taxonomy 以及其他关系)也复杂得多(看看 HowNet 和 WordNet 即知),玩起来自然繁难很多。 即便只选择使用里面的一个高频子集,也在千位数的数量级上,非高手不好玩。还有一条,语义限制条件更多地具有模糊特性,这就是为什么语义系统特别强调“优先”语义的概念,任何语义都不是绝对的,都可以一层层松绑,这就给绕开句法做语义的系统更增加了难度。因此我一直认为,“纯”语义系统只具有理论意义,没有太多工程价值。 一般人都是句法为主,语义为辅,语义只是为弥补句法的缺陷。遇到高手,也许可以考虑语义为主,不排除使用显性句法(包括词法)形式。虽然这一路还是有点主次颠倒、舍近求远的意味,但是在大数据支持下,自底而上做语义为主,庶几可以闯出一条路来,也未可知。 白: 对裸奔保持一种鲁棒性,对句法上合理的结合寄予足够现实的优先考虑,二者是统一的。比如“我是县长派来的”分析到“县长”,不向左寻求结合而向右,就体现了句法的作用。向右结合意味着“等待”,意味着“记忆”,如果不用栈,至少也要有类似的机制。当然不是中递归。“把”就基本上铁定右结合的。除非不是介词把而是名词动词把。 李: “纯”语义系统的学术价值在于,理论上语义系统可以是独立于语言的,一套系统可以对付所有的语言。句法词法之类离不开具体的语言,所以,绕开了句法词法,仅仅从词汇概念出发来构筑语义理解系统,就可以从语言的依赖性上解放出来。另一个意义也是理论上的,如果像汉语这样的常常“裸奔”的意合语言该用小词形式的时候常常不用,那么就需要不借助小词的纯语义系统来对付,而这个纯语义系统应该可以两边通吃,无论句子用了小词没有。这个意义没有实际价值,因为两边通吃的前提是假设纯语义系统能够搞定不用小词的裸奔语句,就像句法系统对付小词丰富的语句一样。这个假设在可预见的将来不会成立,因为少了形式的这条腿,纯语义系统很难达到句法加语义系统的分析质量。 但是,无论多么纯的语义,绕不开的是词汇。如果词汇对概念是一一对应的,理论上可以做出一个 100% 纯粹的语义系统。否则,只要使用词汇手段,语义系统就开始不那么纯粹了。 白: 概念也有人为性。比如格的同一性和命名。“把这把刀切肉了”,不知道算宾格还是工具格。 李: “切肉”作为动宾类合成动词,不再有宾语的槽了。因此这个 把子结构(介词短语) 只能做一般的状语用。在一般的状语中,工具是一种可能的语义关系。 白: 把这把刀切刚买的骨头了. 李: 您的例子已经开始有些怪异了,我听上去觉得不大像 “人话”,也许是我不懂语境。 白: 从人话到不是人话,是个连续统。 “刀刃怎么崩了?” “哦,我把这把刀切刚买的骨头了。” 李: 当然,不过总得切一刀,或者做成层层后退的 backoff 系统,否则一个模型怎么去逼近一个真实语言的外延。 【相关】 【李白对话录系列】 泥沙龙笔记:语言处理没有文法就不好玩了 《科研笔记:自然语言处理领域中的语义路线及其代表人物》 Notes on Building and Using Lexical Semantic Knowledge Bases 【立委科普:自然语言理解当然是文法为主,常识为辅】 【科普笔记:没有语言结构可以解析语义么?(之二)】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5026 次阅读|0 个评论
人口政务全息数据语义界定
EchoMQX 2015-3-13 17:36
人口政务全息数据语义界定 1 人口政务全息数据语义界定 1.1 人口政务全息数据的全息语义界定 全息 ( Holography ) ,又称全息投影,最早是由匈牙利物理学家 DeniseGabor 发现的一种利用干涉和衍射原理记录并再现物体全部信息的技术。本研究中的“全息”即借鉴“全部信息”这一涵义。 详细地讲,人口政务全息数据主要是指单个人口在其从出生、教育、工作、退休直至死亡的整个生命周期历程中享受政府各部门所提供的 包括婚育生养、户籍身份、教育成长、文化旅游、医疗卫生、土地房产、证照资格、社会保障、交通出行、劳动就业、知识产权、出境入境、司法公证、纳税申报、消费维权、离休退休、死亡殡葬和综合其他共十八项人口业务全部在内的整个人口业务分类体系(人口业务分类体系详见博文《人口业务分类体系初步构想》 http://blog.sciencenet.cn/blog-1079002-873347.html )框架下所产生和生成的全部人口业务数据。 图1政务人口全息数据框架 1.2 人口政务全息数据的时空语义界定 1.2.1 时间语义 自然界是离不开时间的,从哲学意义上说,任何事物都要经历由产生至消亡的过程,因而具有明显的时间特征。同样地,人口也经历从出生至死亡的生命周期过程,时间特征明显。到目前为止, GIS 领域对时间语义的研究主要集中在时间特征模型、时间粒度和时间维度等方面。 (1) 根据事物发展的特征,时间可表现为绝对时间观的单向线性结构特征模型和相对时 间观的周期循环结构特征模型、分支结构特征模型和多维结构特征模型总共四种特征模型 ,具体见图 1 。 图 1 时间特征模型 在 人口的生命周期历程中,每一公民都会在同一时期内同时持有不同业务领域的多重身份,同时,同一领域内的每个身份均 是随着时间经历从过去、现在到将来的单向线性结构特征,所以,本研究组合使用单向线性时间特征模型和分支结构的特征模型进行表述,所以,可将时间的全集( T )模拟为一个多分支时间数轴,每一分支时间数轴又是一个线性时间数轴。 (2) 结合福建省政府现有业务系统所采集到的人口业务数据,时间粒度大多确定到具体 的某一天,以公元纪元法的“年月日”表示,形如 1949/10/01 ; 图 2 单向线性时间及其时间粒度 (3) 单个人口在贯穿其整个生命周期过程中,在政府部门办理的每项人口业务所产 生的每条人口业务数据中的时间要素主要包括瞬时时间点(时刻)和连续的时间区间(时间段)两种类型。例如:某人出生的时间即为时间点;某人教育期即为时间区间。 1.2.2 空间语义 GIS 中的空间指的是地理空间。 每个单个人口在贯穿其整个生命周期过程中,在政府部门办理的每项人口业务所产生的每条人口业务数据 中部分属性信息属于 空间信息,具有描述的空间位置特征。 人口业务数据中的空间数据 主要是点状矢量数据。例如:居住地址、学习或工作单位变迁等信息。人口业务信息中的有关空间位置信息 可以选用多种坐标系进行定义; 2服务导向的人口全息数据模型设计 在研究福建省政府各部门现有各业务系统涉及人口业务内容的人口数据库时,发现人口整个业务系统的开展离不开人、地、物、组织和人口业务五类要素。 图 3 人、地、物、组织和人口业务之间的构成 人:指各种自然人; 物:指自然人所拥有的物品信息,例如机动车辆、房屋产权、营业执照等; 地:指地理位置信息,例如省、市、区 / 县 / 县级市、乡 / 镇、村等行政区划信息; 组织:指由人、地、物要素所组成的相对稳定的社会实体,包括党政机关、企事业单位和公共 场所等; 人口业务:是导致人、地、物和组织等要素关系发生变化的主要要素,主要包括婚育生养、。。。、出境入境、司法公证、离休退休、死亡殡葬等。 本文构造的人口全息数据模型 由这五类组成要素个体以及要素间的联系组成,在这里,业务逻辑中假定以“人”要素作为整个模型的起点,通过 GIS 完成的时空分析,使得“地”要素成为整个模型的必要点。具体见图 4 。 图 4 政务人口全息数据模型
8 次阅读|0 个评论
[转载]邱嘉文:在一个云表应用实践中看到"表格语言"的影子
readnet 2014-8-15 12:25
邱嘉文 在一个云表应用实践中看到表格语言的影子 已有 568 次阅读 2014-1-18 18:48 | 个人分类: 信息探索 | 系统分类: 科研笔记 | 关键词:试验数据管理,表格语言 最近在学习使用以前的同事开发的一个自主管理软件开发平台-云表系统。 在试图解决一个以前也常见的“系列报表数据管理问题”时,突然发现云表系统对解决这类问题,似乎有独到的优势。仔细琢磨,这种优势,似乎来源于开发者都还没意识到的“表格编程语言”的优势。 所谓“系列报表数据管理问题”的问题,比如就是: 有一个试验管理系统,需要对1000种试品中的某种试品做多种可能的试验,并生成试验报告,试验报告中会引用这种试品的基本信息和每个试验得到的数据。 如何管理产品的基本信息(类型信息)和试验数据,以便最终能支持自动生成试验报告呢? 先看这1000种试品的基本信息吧,比如说,这1000种试品可能来自10种类型产品,每种10个系列,每个系列10种型号。一般来说同系列的产品的基本信息的格式是相同的,也就是说,描述这些产品的基本属性的个数和含义都是相同的,只是属性的取值不同,比如,产品名称、型号属性的取值。而不同系列的产品,基本信息的格式就不尽相同了。从数据库设计的角度来说,规范的设计就至少需要设计100个系列产品的基本信息库表,来管理不同系列下的不同型号的产品的基本信息。而不规范的设计则设计一个最大可能的属性个数的一个库表,统一管理所有型号的基本信息。 两种设计都会带来数据维护和系统可扩展性方面的问题。 比如说,需要做产品基本信息录入的界面,是为100个系列的产品,每个系列设计各自的录入界面呢?还是统一设计一个带字段冗余的录入界面呢?各有各的纠结。 如果各自设计,用户体验是好,要录入什么内容,就只显示这些内容的格式,但开发起来,就要为每种系列编写各自的录入界面代码,以及今后的查询代码,代码量大是小事,维护量大,扩展性差却很烦人,当然烦的是程序员。 如果统一设计,只要开发一个录入界面,把全部型号产品所有可能的属性都列出来,当然,有的属性是每个型号的产品都有的,如:名称,型号等。由用户在使用的时候,根据实际录入的型号具有的属性,选择相应的输入点进行录入,这样,今后的查询处理,也只需要对一个库表进行操作。就可以覆盖所有的产品,系统维护起来方便很多,可扩展性也好很多,增加产品系列的话,可能不需要修改程序。但这样设计对用户却不够友好,因为录入数据时,需要用户去找录入位置,很容易出张冠李戴的错误,也很烦人,当然烦的是用户。 相信做过数据库应用的人,尤其是类似ERP,试验管理系统的人都应该对这类问题不会感到陌生。10年前,大家可能倾向让用户烦人,而今天,大部分的项目会选择,让程序员烦。 同样的问题,还会出现在对不同类型的试验项目的试验数据进行管理时,每种试验项目所需记录的试验数据的格式各不相同,假若有100种可能的试验项目,当然,可能对某一型号的产品来说,只需做其中的几种。现在为了不让用户输入试验数据时感到烦,就会要设计100个试验数据录入界面。这都不要紧,如果考虑今后的数据获取的逻辑,就要在100种产品系列和100种试验项目的交叉矩阵上的相关点处编写不同的代码来处理。 这样的话,感到烦的,就不仅只是使用程序的用户和编写程序的程序员了。而且还是他们的老板们了,他们一定会开始为项目的规模,开发成本,进度进行令人纠结的讨论和讨价还价了......., 这样的故事一定不少。 而通过使用云表系统,却让我找到了一种,没有人会感到烦的解决办法,这个办法背后,还蕴含着有点意思的“表格语言”的思考。 云表系统的设计思想非常简单,就是以兼容Excel格式的资源片段,来在云端编织一个可共享的数据管理系统。资源片段的基本单元就是“一个”“主-从表”。编织的方法有两层:一层是在资源片段间定义各种数据关系,另一层是在业务层面,以资源片段为工件单位来定义工作流程。 从符号学的角度来说,云表系统是以“主从表”为基本文字符号,在数据层定义其语义学的“形式语义”,而在业务层定义其语用学的“指称语义”。云表系统所实现的“云表引擎”用来处理两层语义的执行过程,其实现的资源操作协议,就是“操作语义”的体现。 这种设计思想,与我早年提出的面向资源的应用软件开发方法不谋而合。所以,也引起了我对它的应用研究的兴趣。与我早年用开放图形符号作为资源单位形式不同,云表系统实际使用的是一种特定的图形符号:主从表来构造可执行的资源逻辑——程序。因此,编程语言从语言符号的形式种类来分,可分为字符语言,表格语言和图形语言。云表系统,实际是一种基于云的表格编程语言的软件开发工具系统。 回到“系列报表数据管理问题”的解决应用实践,我一开始也是按“让程序员烦”的思路,设计解决方案,让云表的开发者实施了产品基本数据的管理的程序框架,当然,在云表工具环境下和开发者娴熟的操作下,实施过程只不过几分钟而已,这并不会引起我作为一个老程序员的惊叹,因为我同时也是面向资源开发方法的发现者之一。直到具体实施试验数据管理的设计的时候,我才意识到之前所提到的“让老板烦”的问题,即便有了云表工具,也还是会让我这个设计者都感到烦。 于是,我决定走回“让用户烦”的路,但想办法解决用户的烦。 一个统一的数据表和统一的录入界面的设计,对于我来说,也只是几分钟的事。但,现在如何让用户打开这个统一的录入界面,就只看到要录入的型号的格式内容呢?云表系统已经构建好了主从表的录入界面的固定模式,如果就这种模式来设计,就不需要为新的设计再来编写新的开发工具的功能了,这是我最初的念头。 而云表系统所实现的主从表的录入界面上,主表的数据逻辑格式和数据界面展现格式都是固定的,而从表的数据逻辑格式是固定的,但数据界面展现的格式是动态可变的。也就是说,云表所实现的主从表数据录入界面,天然地实现了,一条主表记录对动态可变的对应的多条从表记录的录入和展现。 要想实现不同的试验项目的差异部分的格式数据的展现和录入,就需要利用云表的这种从表记录动态可变的特性。一个新的解决办法,恍然大悟。 如果把所有试验项目共同格式的部分定义为主表,而把对不同格式的部分用一个从表来统一管理的话,那从表,不就是以单个数据项为一条记录的一个“从表”了吗?当然,这个从表,包含的信息,就不仅仅是试验数据的信息了,还包含这个试验数据的描述信息。也就是包含了:数据名称,数据单位,数据规范,合格判定条件,加上试验数值,正好是一个具有语用指称语义的不折不扣的“从表”! 做过数据库编程的人立刻会反映到:这和关系型数据库本身的管理表的定义似乎如出一辙。关系型数据库不就是把所有库表的结构,用一个字段定义表来管理的吗,然后再来按字段定义表来“动态”地构造出不同的应用的“库表”的吗?知道语义学的人,也立刻会反映出:这是元语的应用! 想到这点,似乎已经没有什么可神秘的了。但是......。 让我们仔细再思考一下,在我们在云表中轻车熟路地实现这个巧妙的格式信息从表化的背后,不是已经应用过了数据库元语了吗?也就是说,云表的这个解决方案,是在应用层的一个“涌现”,和关系型数据库从系统层到应用层的控制,以及通常的元语应用从模型定义到模型自动构建的应用,似乎有些区别哦,不是吗?这些区别是什么呢?有什么意义呢....? 这些区别就是:在应用的层次上,也存在“用表格控制表格”的应用模式,可专门用来解决系列报表数据管理问题,而不给用户友好性和系统可扩展性带来负担。 想起加来道雄所说过的类似评议:问题解决方案的简化,来源于思考问题的维度的增长。超越他人的能力,来源于可以在更高的维度上进行操作。 显然,不管是字符语言编程,还是表格语言,图形语言编程,以往的编程观念,在应用层,始终是停留在“平面”思维的思维方法的基础上的。立体的思维,只在系统和应用之间“隔空”形成,云表的这个应用实践表明,一旦我们在应用层也建立并可实行立体的思维,我们的应用开发能力将迎来一次井喷!而云表系统,似乎遇到了打开这个潘多拉魔盒的瓶盖的历史机遇。 2014-1-19 于珠海乐图。
个人分类: 科网群英烩|0 个评论
《语义三巨人》
热度 3 liwei999 2014-8-10 13:33
《科研笔记:自然语言处理领域中的语义路线及其代表人物》 如所周知,统计型自然语言处理(Statistical NLP)作为主流盛行了20多年,此前盛行的是以语法分析为基础的规则系统。即便如此,为了模拟人的语言理解过程以及力求语言处理的更高质量,追求以知识系统为支持的语义路线的尝试,从来没有停止过。本篇笔记拟对此做一个简要回顾和比较,并记录自己的心得和不同意见。 就NLP的机器翻译应用而言,在相当长的时期内,统计型机器翻译由于其数据多开发快,善于在浅层模拟人工翻译(特别是成语和习惯用法的翻译)会一直是主流。即便是机器翻译的规则系统,也还是语法为主的路子比语义和知识为主的路子更加切实可行。这不排除在未来,当统计机器翻译和语法为基础的规则机器翻译的改进余地越来越小的时候,人们会重新探索知识路线以求突破。 坚持语义和知识为基础的语言处理路线,是一条繁难艰辛的道路。我感觉,语义是个大泥坑,我等凡夫俗子一旦陷进去大多出不来,而能够驾驭它的人均非等闲人物。 Dr. Douglas Lenat Prof. Charles J. Fillmore Prof. Dong Zhen Dong 语义三巨人 在计算语义界,有三位长期坚持超领域语义的顶天立地的大学者(如果要算第四位,也许应该包括英国的人工智能大师Wilks教授,他早年做过基于语义模板的纯语义机器翻译实验。再往前追溯,人工智能领域早期也有不少先驱者,不过都是在极为狭窄的领域尝试一些玩具知识系统)。这 三位学者前辈 是,坚持常识推理的 cyc 的 Lenat 教授,格语法( Case Grammar )和框网( FrameNet )的开创者 Fillmore 教授和《 知网(HowNet) 》的发明人中国机器翻译前辈董振东教授。他们对自己思想和信念的坚持、执着、反潮流和勇于实践,令人景仰。 这些智者的成果都有某种超时代的特征,其意义需要时间去消化或重新认识。可以预见,将来某个时候,当机器翻译和自然语言理解的应用项目穷尽了浅层可用的低枝果实之后,知识系统将会被进一步发掘、利用和欣赏。但目前多数项目还没有到山穷水尽的时候,急功近利是绝大多数项目和产品的固有特征,而且多数主事者也往往缺乏远见。绝大多数语言处理业者遇到语义和知识都是绕着走。 三位语义巨人中探索知识最深入和纯粹的是 Lenat 教授,他带领团队手工开发的 cyc 知识系统,试图从常识的形式化入手,利用常识推理帮助解决语言理解等人工智能 核心 问题。可惜这套庞大的系统太过复杂和逻辑,在实际应用上有点像大炮打蚊子,使不上劲。 Fillmore 教授是享誉世界的语义学家,他的格语法理论影响了一代自然语言学者,包括中国和日本自然语言处理领域的领军人物董振东教授和长尾真教授。事实上,董教授语义思想的核心概念“逻辑语义”就来源于 Fillmore 的深层格 (Deep Case)。然而,Fillmore 本人的语义发展与董教授的创新发展走上了语义颗粒度不同的两条道路,前者的成果为 FrameNet,后者的结晶是《知网(HowNet)》。 可以从构建NLP应用系统的角度来看 FrameNet 和 HowNet 的不同语义层次,即,从分析器(parser)和应用(applications,包括机器翻译,信息抽取等)的分工合作的关系来看。 语言的分析无论多深入,都不是应用,只是(理论上)缩短了到达应用的距离。就以机器翻译的应用为例,翻译转换可以发生在浅层(极端的例子是所谓词对词翻译系统)、在关键成分不到四个(主谓宾补)和附加成分不到一打(主要的定状语子类)的句法层、在《知网》的90个逻辑语义的层面或者在 FrameNet 的成百上千的 frames 的层面。多数统计型机器翻译都是在浅层进行,通过海量双语训练集,记忆住千千万万大大小小的翻译单位(个体转换规则)。这条路子可行是因为机器擅长记忆。手工编制的翻译系统就很难在浅层进行,因为浅层转换的千变万化超出了人工编制和调控的可能。但是,翻译系统应该深入分析到哪一步实施转换比较合适,是大可讨论的。 我个人觉得,FrameNet 过细(成千上万的 Frames 组成一个 hierarchy,即便只取上层的常用的 Frames, 也有几百个),不仅很难达到,而且实用上没有太多的好处。FrameNet 的提出,是格语法框架的自然延伸、扩展和细化,语义理论上有其位置和意义。但是在实用上,FrameNet 的地位很尴尬,他既不像句法层 argument structure 那样简洁和好把握,也不可能达到语用层的信息抽取模板(IE Template)那样可以直接支持应用(因为信息抽取是依赖领域的,而 FrameNet 原则上是不依赖领域的,或者最多是在语言学与领域之间起某种中介桥梁的作用)。这样一来,从实用角度,与其分析到 FrameNet (这个太繁难了) 再行翻译转换或信息抽取,不如直接从 argument structure 进行(这个靠谱多了,very tractable),虽然理论上前者的转换或抽取应该更加简单直接一些,但是由于 FrameNet 分析工作难度太大,终归得不偿失。换句话说,FrameNet 从使用角度看,语义做得过了(over-done),用起来不方便,没有多少实际利益。 退一步回到句法为基础的 argument structure 如何呢? Argument structure 立足于句法结构,主要论元最多不超过三个(up to 3 arguments):逻辑主语,逻辑宾语,逻辑补语,加上谓词 governor,构成一个四元组,非常简洁,与各语言的词典句型信息 subcat 相呼应,易于掌握和实现。再加上10来个带有逻辑语义分类的状语(时间、地点、条件、让步、结果等)和定语(颜色,材料,来源等)。这样的中间表达作为语言分析(parsing)的目标,作为应用的基础,已经可以应对绝大多数应用场合。Argument structure 中的逻辑宾语和逻辑主语有其独特的概括能力,对于利用句法关系的语义限制排歧多义词和做知识挖掘具有特别的价值。 HowNet 不满足于此,它的体系是对句法为主的 argument structure 进一步细化,譬如逻辑宾语细化到 “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”和“possession” 等子类。最终达到具有90多个逻辑语义角色的相对纯粹的语义表达。HowNet 就是这样一个概念知识体系,逻辑语义是连接这些概念的主要工具。 从主谓宾定状补这样简练的句法关系,深入到逻辑语义的角色,再进一步把逻辑语义细化,常常的表现就是信息表达的浓缩和冗余。HowNet 这样精细的逻辑语义,不仅反映了一个依存概念到主导概念的逻辑结构关系,而且反映了主导概念的子类信息(hence 冗余了)。例如,对于宾语的细化 “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”,“possession” 等,显然是蕴涵了主导概念(谓词)的子类信息,而这些子类信息本来是已经附着在谓词上的。譬如作为 possession 的宾语,其谓词只能是 have、possess、own 这个小子类。信息表达的冗余意味着即便没有深入到细化的逻辑语义,系统并没有本质上的损伤,因为如果需要的话,细化信息依然可以通过句法关系节点的限制条件即时得到查询。 对于逻辑主语逻辑宾语等进一步细化的必要和利弊,我个人觉得是可以讨论的。首先是任何细化都是有开发和处理的代价的。更重要的是,其必要性究竟如何?从追求纯粹语义和逻辑、追求纯净的独立于具体自然语言的元语言表达的角度,我们总可以找到证据,证明细化是必要的。但是,在应用现场,我们也可能发现,对于绝大多数应用,细化并无必要。就拿机器翻译来说,同一语系之间的结构转换在逻辑主语宾语的 argument structure 的对应上有明显的一致性。即便是不同语系,这种对应也是主流,而不对应的可以作为例外,由词驱动(word-driven)的个性转换来应对。以上讨论,有很多例证,写得匆忙,暂时不例举了。 【相关】 【立委科普:机器翻译】 Notes on Bulding and Using Lexical Semantic Knowledge Bases 围脖:一个人对抗一个世界,理性主义大师Lenat 教授 .. 《泥沙龙笔记:再谈 cyc》 2015-12-22 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|13535 次阅读|3 个评论
大数据研究----基于本体的数据访问(OBDA)
huangfuqiang 2013-5-18 18:39
来自牛津大学的大数据研究项目,注:国外的研究项目一般都有一个很好的站点反映研究状态及进展信息。 Optique: Scalable End-user Access to Big Data Scalable enduser access to Big Data is essential for the effective support of critical decision making in large companies. The Optique project aims to develop new techniques and infrastructure that will bring about a paradigm shift for data access by: using Ontology Based Data Access (OBDA) to provide a semantic end-to-end connection between users and data sources; enabling users to rapidly formulate intuitive queries using familiar vocabularies and conceptualisations; seamlessly integrating data spread across multiple distributed data sources, including streaming sources; exploiting massive parallelism for scalability far beyond traditional RDBMSs; and thus reducing the turnaround time for information requests to minutes rather than days. These objectives will be achieved by bringing together leading researchers and developers from diverse communities — including Knowledge Representation, Databases, and the Semantic Web — to devise new techniques and to implement them in an extensible platform that will provide a complete and generic solution to the data access challenges posed by Big Data. The platform will: (i) Use an ontology and declarative mappings to capture user conceptualisations and to transform user queries into complete, correct and highly optimised queries over the data sources; (ii) Integrate distributed heterogeneous sources, including streams; (iii) Exploit massively parallel technologies and holistic optimisations to maximise performance; (iv) Include tools to support query formulation and ontology and mapping management; and (v) Use semi-automatic bootstrapping of ontologies and mappings and query driven ontology construction to minimise installation overhead. Development of the platform will be informed by and continuously evaluated against the requirements of complex real-world challenges, with two large European companies providing the project with comprehensive use cases, and access to user groups and TB scale data sets. Links Project website Selected Publications View all Capturing Model−Based Ontology Evolution at the Instance Level: The Case of DL−Lite Evgeny Kharlamov‚ Dmitriy Zheleznyakov and Diego Calvanese In Journal of Computer and System Sciences (JCSS) . Vol. 79. No. 6. Pages 835 − 872. 2013. Details | BibTeX | Download (pdf) Towards Query Formulation and Query−Driven Ontology Extensions in OBDA Bernardo Cuenca Grau‚ Martin Giese‚ Ian Horrocks‚ Thomas Hubauer‚ Ernesto Jiménez−Ruiz‚ Evgeny Kharlamov‚ Michael Schmidt‚ Ahmet Soylu and Dmitriy Zheleznyakov In OWL Experiences and Directions Workshop (OWLED) . 2013. Details | BibTeX | Download (pdf) The Optique Project: Towards OBDA Systems for Industry (Short Paper) D. Calvanese‚ M. Giese‚ P. Haase‚ I. Horrocks‚ T. Hubauer‚ Y. Ioannidis‚ E. Jiménez−Ruiz‚ E. Kharlamov‚ H. Kllapi‚ J. Klüwer‚ M. Koubarakis‚ S. Lamparter‚ R. Mller‚ C. Neuenstadt‚ T. Nordtveit‚ . zcep‚ M. driguez−Muro‚Ro M. Roshchin‚ Marco Ruzzi‚ F. Savo‚ M. Schmidt‚ A. Soylu‚ A. Waaler and D. Zheleznyakov In OWL Experiences and Directions Workshop (OWLED) . 2013. Details | BibTeX | Download (pdf) Sponsors EC FP7 info Duration 1st November 2012 to 31st October 2016 People Bernardo Cuenca Grau Ian Horrocks Ernesto Jimenez-Ruiz Evgeny Kharlamov Boris Motik Dmitriy Zheleznyakov
个人分类: 数据库与知识库|5896 次阅读|0 个评论
【科普笔记:没有语言结构可以解析语义么?(之二)】
热度 1 liwei999 2013-5-8 00:54
就这个问题,以前写过 【研发笔记:没有语言结构可以解析语义么?浅论 LSA】 ,介绍的是很流行的 LSA 统计算法,它利用自然语言篇章中的一袋子关键词(bag of words)之间的 lexical coherence,绕过语法结构分析,模拟语义,也显得很智能的样子 。 无独有偶,绕过语言结构解析语义在传统的知识系统中早有先例,也算是统计派的殊途同归吧,但却早了好几十年。话说当年有一位学者,名字还记得,叫 Small (写科普随笔博文不算正式发表,就懒得查出处了,后学有兴趣者可以自己查去),他发明了一套叫做专家词典的系统(Expert Lexicon system:后来刘倬老师带我们做新一代机器翻译,继承发展了这个思想,在不排除抽象语法分析的同时也引入了专家词典的机制,成果在第二届机器翻译最高级会议上有发表)。Small 的系统基本是一个典型的传统 AI (Artificial Intelligence)的 toy system,运用在一个非常狭窄词汇量有限的领域内。这个系统基本上就是一部词典,缺乏抽象度,也没有语法结构分析。词与词之间的语义搭配关系被编制在专家词典里。这样的语义解析是注定不能 scale up的,但是在一个狭窄的领域,还是可以成事的。 顺着这个思路,AI 和 MT (Machine Translation)界当年有一位超级大牛(记得是大英百科全书特聘的这个领域顾问),曾经在美国客座 New Mexico 大学的英国教授 Wilks 研究了一个所谓第三代纯语义机器翻译系统。为了追求纯粹美,Wilks 有意排除任何语法形式信息(譬如词类信息)和被证明高效有用的语法抽象规则(譬如形容词在名词前做其修饰语),而是通过词与词之间的具体搭配关系来解析语义。他的理论叫做优选语义学(Preference Semantics),里面设计了很多语义模板,来表达词与词之间潜在的语义搭配关系,当时对我们是很有影响很有启发的学说(我的一位同门黄学长就曾在Wilks身边做过博士)。Wilks 证明了没有结构分析(严格的说,是没有形式结构分析),也是可以解析语义关系的,并且把它成功运用到机器翻译的模型上去,探索了一条崭新的道路。当然,实用主义者很快发现,这种舍近求远的解析语义方法是低效的,也是难以 scale up 的。经验告诉我们,对于自然语言理解,八分结构,两分语义,才是规则系统的正道。 【相关篇什】 【研发笔记:没有语言结构可以解析语义么?浅论 LSA】 【 立委科普:机器翻译 】 泥沙龙笔记:儿童语言没有文法的问题 2015-07-01 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|6151 次阅读|2 个评论
【研发笔记:没有语言结构可以解析语义么?浅论 LSA】
liwei999 2013-3-24 15:10
what are your views on Latent Semantic Analysis (LSA)? LSA is a cool machine learning technique based on lexical evidence of co-occurrence in order to decode the underlying semantic categories (clustering or classification) of the given text (Deerwester et al. 1990). Typically, the first step of LSA is to construct word-vs.-document co-occurrence matrix. Then singular value decomposition (SVD) is performed on this co-occurring matrix. The key idea of LSA is to reduce noise or insignificant association patterns by filtering the insignificant components uncovered by SVD. Given that there is no parsing, no structures, hence no understanding involved in LSA, it is amazingly successful in some areas which are supposed to require Natural Language Understanding (NLU) or Artificial Intelligence (AI). For example, it is a dominant approach in the area of automatic grading of high school reading comprehension tests, at least it was dominant 8 years ago when I was collaborating with education researchers in proposing a new parsing based approach to this task to compete with the popular LSA approach. The reason for its (partial) success in uncovering some natural language semantics lies in the fact that sentences have two sides: structures (trees) and words (nodes). Putting structures aside, the words used in a natural language document (discourse) are not random collection, they have inherent lexical coherence holding them together to make sense. In addition. the lexical coherence evidence and the structural evidence are often overlapping in terms of reflecting underlying semantics to certain extent. Therefore, for some coarse-grained semantic tasks, there is a possibility of maximizing the use of the lexical side of evidence to do the job, ignoring the structure part of language. But there is a fundamental defect in LSA that limits how far it can go in decoding semantics, due to the lack of structures. In my past research, we have used LSA in our Word Sense Disambiguation (WSD) research project, as an auxiliary method to help perform synonym expansion in order to generalize our parsing evidence from literal node to cluster node. It seems to be effective to certain extent, but cannot be claimed better than using synonym lexicon encoded by linguists if we had human resources. It does have the benefit of automatically clustering synonyms based on the data, hence automatically adapting to the domain we are interested in. The weakness of LSA is the same as most other so-called bag of words (BOW) learning approaches based on keyword density or co-occurrence. Since LSA does not involve structures or understanding, it is at best an approximation to the effect of parsing-based (or understanding-based) approaches for almost all the tasks involving natural language text. In other words, the quality in theory (and in practice as well, as long as the parser is not built by inexperienced linguists) can hardly beat a parsing-based rule system. Another weakness of LSA is that it is much more difficult to debug a learned system for a given error or error type in results. Either you tolerate it all or you re-train LSA with new or expanded data, in which case there is no guarantee that the bulk results will get that error corrected. In a rule based system of multiple levels, it is much easier to localize the error source and fix it. My own experience with using LSA for synonyms clustering is that when I examine the results, I sort of feel that it seems to make sense, but there are numerous cases which are beyond comprehension: it was difficult to determine whether that incomprehensible part of the results is due to the noise of imperfect data and/or bugs in the algorithm, hence difficult in coming up with effective corrective methods. When we talk about rule-based semantic approach, we do not mean that the approach only relies on parsing structure in decoding semantics. When we do semantics, whether extracting sentiments, or factual events, we always bring lexical evidence and structural evidence together in accomplishing the task. For example, in order to extract the emotional sentiment of an agent expressed towards an object or brand, our sentiment rule will involve trigger words like love/like/favor/prefer and then check its logical/grammatical subject and object of certain lexical type (e.g. human type versus non-human type) to ensure we decode the semantics of the underlying text precisely. As you see, the rule approach thus used has the advantage of having two types of evidence support than LSA that has only one type of evidence. This is a fundamental difference when we compare rules with BOW class of techniques, no matter what new approaches or techniques are hot in the community. Admittedly, BOW learning in general and LSA in particular do have the benefit of being robust in handling noisy data and it can also be quickly built up once data are available. The automatic adaptation to a domain based on the training data is also a strength as it narrows down the semantic space to start with. The approximation in treating language as a black box rather than analyzing language as a de-composable hierarchy of structures is sometimes good enough in certain use cases of semantics. LSA is often cited as an alternative to grammar approach partially because it got a good, eye-catching name, I guess. It suddenly shortens the distance between sentence meaning and the building blocks words, without the trouble of having to use structures as a bridge. (But language is structured! As true as the earth is revolving.) 【相关篇什】 【科普笔记:没有语言结构可以解析语义么?(之二)】 泥沙龙笔记:儿童语言没有文法的问题 2015-07-01 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5699 次阅读|0 个评论
【立委随笔:流浪的概念网络】
热度 1 liwei999 2013-3-21 23:56
虽然说概念和逻辑是人类共同的,每个人的概念世界都会有所不同:大同里面的小异最能反映一个人的生活烙印。我们都有一部自己的语义词典,里面积淀着生活的起伏和磨难。 流浪流浪,既流且浪。在我的语义词典里, 流浪 是一个很大的节点,它的上位概念是 流 ( 走四方 )和 浪 (多起伏)。它的下位概念包括: 插队,洋插队,跳龙门,再跳龙门,北漂,下海,西行,闯关东,南下,再南下 。这也正是我的生活写照。在这些语词概念的背后蕴含几多激动几多辛苦,只有自己知道。 不安定多起伏的生活伴随着我一生。1976年高中毕业即赶上了文革最后一届上山下乡, 插队 皖南山区接受贫下中农的再教育,这是我一生流浪生活的起点。这个起点回想起来并不坏,16岁的孩子当时能感到的是自豪多于悲凉。1977 年底赶上了文革10年后第一届大学生招考,居然 跳了龙门 ,成为史上著名的77级生(其实是78年2月入学)。大学毕业后任教一年,紧接著 再跳龙门 考研成功,北上京城。这是一次欣快的 北漂 ,当年的兴奋喜悦堪比范进中举,而且居然不疯未傻。研究生毕业后安定了四五年,期间尝试中关村 下海 。虽然可算头几拨下海人士,但因为是兼职,并无其他下海人的风险。其时 洋插队 之风正甚,终于没有顶住潮流,赶了末班车来到大英帝国。90年代初正值大英没落,乱态丛生,路多野狗,抢劫之风甚行。危邦不居,于是辗转从欧洲漂来北美,可比先辈们的“ 闯关东 ”,攻学位,换身份,不亦忙乎。可惜加国虽美,工作市场却不佳。有奶便是娘,于是 南下 讨生活,竟一头撞上了美国网络大跃进。美利坚果然是流浪者的天堂,机会多多。广阔天地,大有作为,轰轰烈烈的创业宏图随着泡沫的破灭渐趋平淡(没有夭折已属万幸)。遂 再南下 ,终于陷入IT民工的圣地不能自拔,人称硅谷(or 矽谷)。 这就是一个硅谷IT民工的流浪图。 在我流浪的词典里,除了尚未收入 海龟 外,几乎全乎了。冥冥中似有所缺。陶渊明的归去来辞不时在耳边萦绕,田园将芜胡不归。海龟创业,叶落归根,还是蹉跎岁月,混不思蜀,这是哈默雷特的天问。 【相关篇什】 《朝华午拾:乡愁是一张无形的网》 - 李维的博文
个人分类: 立委随笔|3644 次阅读|1 个评论
关于语义信息, 看我怎样反击一个自已为是的老外
热度 1 lcguang 2012-2-18 05:39
http://natureorgod.lefora.com/2012/01/28/a-information-measure-bridging-shannon-and-popper/ 翻译几句: Richw9090: 你说的都是自相矛盾的。 计算机中编码, 每个字符都是一样长, 8bits, 说信息反应编码长度, 那么我们数字符, 再*8就行了。不需要那些信息公式。 Lcguang(我):信息论中讲的编码长度是平均最优编码长度, 比如E 经常发生, 用较短码, X较少发生, 用较长码, 这样平均码长就较短。电报Morse码就是这样。语义信息和Shannon信息也是大小不同的。 如果说Shannon信息是成本,语义信息就是效用, 前者是后者的上限。(附推广R(D)函数得到的R(G)函数, 用以说明两种信息之间的关系) Richw9090: 你说的那些都是垃圾,你都不懂一个语句的信息内容,他们在不同的地方是不同的,和编码长度不是一回事。 Lcguang: 我从没有没有说我用数学公式度量不同语句中不同信息内容。我只是度量所有语句共有的东西--信息量,它是减少的不确定性, 或者是被反映的特殊性。 试图度量不同信息内容是愚蠢的, 就像用重量或热量度量所有食物的营养一样。 不同营养只能具体叙说。不要判断太早, 你不懂的东西太多了。
个人分类: 色觉问题和分析哲学|4446 次阅读|10 个评论
[转载]关于语义信息的几封信
热度 1 lcguang 2011-7-3 16:40
黄老师: 你好。我也有过很多数学应用。我以为我的语义信息公式 http://survivor99.com/lcg/books/GIT/qt.htm 简单巧妙。 不知你能否抽空看看, 看看它能否用在经济学上, 比如用于经济指标预测: 我的更多信息论文章见这里: http://survivor99.com/lcg/books/GIT/ 敬请指教! 晨光 晨光, 我以前没有读过信息公式。把你的文章大概读了一遍,不是很理解。有几个问题: 1。不理解式2:为什么N越大,信息越大?应该是说,能够在可能出现的N个可能中准确预测出那个真正出现的,提供的信息量等于ln N。 2。 式3 ( I=P2/P1)与其下第3行的 I=log(P2/P1)不一致。 3。 我不认为图1 符合常理,因为不应该有角。这显示式4太简单。 4。图2-3看来比较合理。 5。不但要看一次,须要看多次;只看一次(例如降水量),偶然符合预测的可能性比较大。 (未得允许署名隐去) 黄老师: 谢谢一阅。你这么快就搞明白了, 而且指出问题--你都是对的, 你的理解力非同寻常,看来你适合研究这类问题。我的答复附后。 比较有代表性的前人的研究: 卡尔纳普(CARNAP)和西拉尔(Hillel) 的语义信息论文章考察 http://survivor99.com/lcg/english/information/GIT/index.htm 我的语义信息公式和 Floridi 的语义信息公式比较 http://blog.sciencenet.cn/home.php?mod=spaceuid=2056do=blogid=370132 但愿语义信息论(或广义信息论)能成为你新的疆土, 让我们一起来开拓。 最好祝愿! 晨光 具体回答: 晨光, 我以前没有读过信息公式。把你的文章大概读了一遍,不是很理解。 有几个问题: 1。不理解式2:为什么N越大,信息越大?应该是说, 能够在可能出现的N个可能中准确预测出那个真正出现的, 提供的信息量等于ln N。 ----你说的没错,是这样,N越大, 潜在的信息量就越大, N选一预测对了, 信息量就越大。预测错了, 信息就是负的。 2。 式3 ( I=P2/P1)与其下第3行的 I=log(P2/P1) 不一致。 抱歉, 前面写错了, 应该有log。 3。 我不认为图1 符合常理,因为不应该有角。这显示式4太简单。 --用那个公式只是因为它好理解。 是的, 有尖角导数就不连续。这个公式肯定不理想。 信息论和模式识别中一的失真量类似,就是用误差的平方。导数连续了, 但是也有其他问题--是一个无过便是德的准则。 4。图2-3看来比较合理。 --太好了, 谢谢你的肯定。 5。不但要看一次,须要看多次;只看一次(例如降水量), 偶然符合预测的可能性比较大。 ---说的没错,为了综合评价, 所以要用平均信息量公式--就是广义Kullback公式和广义互信息公式。 这篇详细点: http://survivor99.com/lcg/books/GIT/fromHartley8000.htm 发表过的一篇英文的更详细,在这里: http://survivor99.com/lcg/english/information/GIT/index.htm 全书在这里: http://survivor99.com/lcg/english/information/GIT/index.htm
个人分类: 信息的数学和哲学|2258 次阅读|1 个评论
[转载]Facebook 欲开发语义搜索引擎
NatureXin 2010-4-22 10:19
2010-04-22 09:33 | 次阅读 | 来源:新浪科技 【已有 0 条评论】 发表评论 关键词: facebook | 感谢 ydj9931 的提供 | 收藏这篇资讯 北京时间4月22日早间消息,据科技博客All Facebook报道,Facebook将在最新推出的Open Graph技术的基础上打造一款语义搜索引擎。 该博客认为,如果说HTML语言是开发者通过谷歌搜索引擎获取信息的方式,那么元数据(meta data)将是开发者通过Facebook搜索引擎获取信息的方式。通过易于使用的插件,Facebook可以快速收集所有用户的结构化数据。 Facebook还升级了应用程序接口(API),使基于Open Graph的开发更加容易。很明显的是,Facebook试图进军搜索引擎市场。 语义搜索的概念已经出现多年,但目前还很少有公司开发语义搜索引擎。Adaptive Blue等公司曾试图打造这样的产品,但这些公司都不具备Facebook的规模。 对Facebook来说,开发语义搜索引擎是一个宏大的项目,Facebook在这一方面有两点优势。Facebook已经拥有超过4亿的用户群,并拥有一套易于使用的社交网络服务。这将帮助Facebook收集互联网上的结构化数据。 语义搜索引擎领域此前已经有一些标准,微格式(microformat)是一个被广泛接受的版本。业内在语义网络方面的竞争已经开始,目前值得关注的是,谷歌将在这一方面做出什么样的回应。
个人分类: 未分类|2732 次阅读|0 个评论
小议"来自于"和"涉及到"
fairyslave 2010-3-8 12:44
来自于和涉及到在人们的语言生活中大量存在,检索中国期刊全文数据库1999-2007年数据可以发现:文章内容中有来自于和涉及到的分别是358739和661417篇。其中,标题中有来自于的196篇,有涉及到的29篇。如果从百度网站查一下,相关记录更是高达几千万。这两种语言组合是否规范呢?我们从语义和句法的角度分析一下。动词来和介词自组成一个动词结构来自,自在这里作从、由讲,来自表示从来。经常有作者在来自后面加个于,例如:新发传染病:来自于美国NIAID的一项为期10年的前瞻性研究,收获来自于对事业的坚守记北京大学基础医学院童坦君院士,来自于天然产物的癌症抑制剂研究进展等。这里,于也是一个介词,而且和自同义,作自、从讲。《现代汉语》 在谈及介词于的用法时列举了一种误用现象:麦吉尔大学素有象牙塔之称,在全国大学评比中曾连续两年名列第一,吸引了来自于100多个国家的外国留学生。来自于100多个国家应该改为来自100多个国家,自和于两个介词不应该连用,于字多余。上面几个使用来自于的标题去掉于后意思不变,可见,同义介词连用,存在重复累赘。在《现代汉语词典》 中,动词涉及的释义为牵涉到,关联到,本身就包含有到的意思,但是,很多人在使用涉及时,喜欢在后面加到,例如:网络环境下图书馆业务涉及到的著作权问题,在硬化萎缩苔癣的发病机制中涉及到氧化应激,谈建筑给排水设计中涉及到的若干问题等。在这些人的语感里,对及的成分意义不敏感,认为及是词法层面的一个构成成分,不再参与句法层面的运作。其实,汉语复合词形成的一个重要途径是由句法结构(短语)凝固产生,一个短语可以在频繁的使用中获得词的功能,例如,涉及就被《现代汉语词典》收录,由短语降级为复合词,但它又没有抛弃短语的特性,在结构和意义上都清晰地表达为牵涉到,关联到。从韵律句法学的角度,认为来自组合年深日久,在人们的语感中已逐渐融合为一个词,介词自的介引功能较之独立介词于已经弱化很多。于是,出于补足来自后基本不能跟单音节名词的缺点和增强介词的介引功能的需要以及语言运用中求新的特点,有着与介词自相似功能的于就出现在了来自之后。还有一个说法,就是介词的双音组合,例如:自从、及至,它们都是同义复用的并列结构,从上古出现沿用至今,表示引进时间或处所。那么,以此类推,来自于和涉及到中的自于、及到也可视为介词的双音组合。不难发现,人们在强调语感韵律时,存在一些想当然:来自不是词,被当作词来使用;涉及是一个有短语特性的词汇化程度不高的词,被当作一个词汇化程度很高的词来使用。这就是误用的根源。参考文献: 1黄伯荣,廖序东.现代汉语(增订三版).北京:高等教育出版社,2002. 2中国社会科学院语言研究所词典编辑室编.现代汉语词典(第5版).北京:商务印书馆,2007.
个人分类: 编辑心得|3468 次阅读|0 个评论
总书记,这句话有严重歧义啊!
tangwzh 2010-1-8 19:48
今天无意之中看到纪念改革开放30周年大会上的报告里说:我们一定要坚持改革开放的正确方向,着力构建充满活力、富有效率、更加开放、有利于科学发展的体制机制。很明显,其中有利于科学发展的说法有严重歧义,因为按照汉语通常的构词法和句法结构,有利于科学发展只有一个意思,就是有利于科学学科或科学事业的发展;可是,这里要表达的本意显然又不是这个意思,而是有利于执政党的科学发展观中所称的科学发展,即科学化(也就是合乎科学原则)的经济和社会发展。 政治上的术语固然有其特定含义,然而,为了政治宣传的明白晓畅、通俗易懂,政治术语的创造和运用,更应该尊重汉语的构词法和语法规则,确保语义的鲜明准确。科学发展这个词组在汉语中本来就有很明确的含义,这是任何政治力量也无法人为改变的,几百年之后都改变不了。现在要把这个词组变成一个有着完全不同含义的政治术语,这既不利于宣传党赋予其中的政治理念,又造成了语义的歧异和混淆,以致生活在境外的华人还以为科学发展观是关于科学事业发展的观点,甚至想到的是小平同志关于科学技术是第一生产力的论断,竟至认为有利于科学发展的体制机制说的是科学事业方面的体制机制,还感念党难得如此关心科学事业的发展,天天谈论科学发展,一切以科学事业的发展为依归。 这种语义上的混淆,正是毛主席批评过的不讲文法造成的。科学发展这个政治术语的使用,不符合汉语构词法和句法原则,违背了汉语的使用习惯,从语言上说是不科学的、有歧义的;从政治上说,则是不严谨的,不仅会使党的理论宣传词不达意,而且如同皇帝的新衣一样有损于党的形象。如此明显的语言歧义,党的有关文件和报告的起草人竟然视而不见,以为不断的宣传可以改变人们通常的语义理解和使用习惯,这种怠慢和不负责任的态度,使总书记提出的新的发展观在宣传过程中遭遇了不应有的认知错误和理解混乱,尤其是不利于港澳台和海外华人的理解和认同。这些起草人在语言上的粗制滥造、指鹿为马,可以推行于一时,而绝无法流传于永远。这在学风和文风上损害了毛主席培育的共产党人最讲认真的政治形象,从某种意义上说,这些人就如同给皇帝制造新衣的骗子一样;与骗子不同的是,他们是跑不掉的,所以起草人的责任应该无可逃避。 为新的发展观流芳百世计,作为政治术语的科学发展观当避免语言上的歧义。本来,按照其政治含义,在语言上使用科学化发展观的说法较为适宜,这也恰好与执政党在政治上致力于实现决策科学化、民主化的目标相对应。但是,鉴于科学发展观已经提出若干年了,冒然修改可能有损于党的政治威信,目前可以考虑用新发展观这个说法,因为今天国内政治中说的科学发展观,就是一种针对唯GDP论的国内生产总值发展观而提出的新的经济和社会发展观念。这个新发展观所提倡的新的发展方式,就是科学化的发展方式,因而前述报告内文里有利于科学发展中的科学发展这个说法,应当改为科学化发展。今后在解释新发展观的时候,则应戒除使用科学发展指代科学化发展,以免造成不必要的严重歧义。
个人分类: 语言|4241 次阅读|2 个评论
语义网与本体技术纵横谈之二:对中国语义网论坛第一专题讨论的点评
ZSHuang 2009-3-11 22:25
应Admin的邀请,让我为SemanticWeb的第一个专题讨论究竟什么是SemanticWeb,它有什么标志特征?它能给我们带来什么?作点评。这四个月以来,大家在这个中国语义网论坛上对语义网的最基本问题展开热烈的讨论。到目前为止,共发帖55份,总点击数逼近8千。这对于一个纯学术的帖子来说,实属不易。我看到的是,大家在这个专题讨论中都能本着学术探讨的精神,畅所欲言,其乐融融,展现出良好的学术风气。 值得说明的是,我的下面的点评,不管是支持你的观点的还是反对你的观点的,都不是对大家的看法的一个结论性的判断。我希望以一个讨论参与者的身份平等地与大家进行讨论。首先我要感谢所有讨论的参与者,你们的所有看法或观点都是值得鼓励的,所以都是有价值的。 究竟什么是SemanticWeb,它有什么标志特征?这是所有语义网研究者必然要思考的核心问题。 正如Admin所指出的那样,SW的核心思想可以分为两个方面:一个是semantics,一个是web。语义(semantics)指的是提供能被计算机理解的数据,即它的逻辑分析与语义表示的维度。网(web)指的是那些语义数据不是孤立存在的,而是彼此互连,形成一个网状结构,即它的数据连接的维度。 所以,对于何为语义网,存在着下面四种不同的理解: (1)semantic+web:即语义网应是在现有的网络数据上加一点语义分析的内容,或者是在现有的语义数据上加一些网络描述的能力。 (2)semantic+Web:这里的Web的第一个字母是大写的,即语义网应是更多的网络成分,相对少的语义表示和处理的部分。 (3)Semantic+web:即语义网应是更多的语义处理成分,相对少的网络处理部分。 (4)Semantic+Web:即语义网应是很多的语义处理成分,再加上很多的网络处理部分。 详情请见:http://bbs.xml.org.cn/dispbbs.asp?boardID=2&ID=69324
个人分类: 科海拾贝|5525 次阅读|1 个评论
语义网与本体技术纵横谈: 语义与网络
ZSHuang 2009-2-13 22:23
语义网的核心问题就是要表达网络信息的语义(semantics),也就是我们通常所说的意义(meaning)。从逻辑学和语言学的角度来讲,所谓的语义指的是一个描述或一个词汇(或不严格地说,一个概念)与它所要表达的在客观或主观世界上所对应的一个实体所建立的一种联系。比如说,老虎这一词的语义,指的是它所对应的在客观世界中存在的一类动物的总称;孙悟空这一概念的语义,指的是它所对应的在人们文化精神世界中所描述的某个具体的人物。只要能建立这种概念与它所要指称的实体之间的联系,我们通常就可以认为它就已经表达了该概念的意义,即语义,这就是语义的指称性。 准确地讲,语义具有下列几个主要特征: 指称性(denotation):即上面所述的,语义应能体现概念或术语它所对应的在外部世界上的某个实体的联系; 唯一性(uniqueness):如果不同的术语用来表达同一个意义的话,则应指向唯一的一个外部实体,而不是多个外部实体; 关联性(relatedness):语义应能表达一个概念与其他概念之间的关联关系,而不是简单地对应到一个外部实体。 当然,人们通常所理解的意义远比上述这些特征更丰富。著名的数理逻辑的创始人之一的Frege就区分了Reference和Sense。前者指的是我们上面所说的语义的指称性特征,如我们用张老师来指称世界上某个具体的人物;后者指的是描述所附带有涉及语用环境的含义,如张老师还可能在特定的环境下包含着尊重的含义。在语义网上,我们关注的是描述的指称性及其相关的特征,而在目前情况下不去关注含义所涉及的一系列特征。 语义网是通过把概念指向某个网络资源来实现语义指称性的,具体地说,它通过在有关描述上附加一个URI(唯一资源标识UniformResourceIdentifier)的前缀来实现的。如要表达老虎这个动物概念,则使用类似于下列描述来表达: http://cohse.semanticweb.org/ontologies/animal#tiger 这里tiger是该概念的直接描述,而其前http://cohse.semanticweb.org/ontologies/animal#是该概念所对应的唯一网络资源标识符。显然这里所体现出来的指称性并不直接对应到我们通常所理解的在客观世界上的对应物(实际上也是不可能直接做到的)。在逻辑学和数理语言学上,也是通过语言陈述与它所对应的语义模型建立对应联系来实现的,这里的语义模型只是一个形式化的数学描述,而形式语义定义的最重要的特征是实现它的唯一性和关联性。唯一资源标识URI给语义网提供了一个非常有效的实现语义唯一性的手段,因为URI总是给出网络资源的唯一标识。这可以用一个不太准确但形象化的描述来概括:无二义就是有意义,即只要能够由计算机或人类把一个概念对应到一个无二义性的指称实体上去,就可以认为把握了该概念的语义了。语义的关联性是通过本体描述来实现的。正如本章前面所介绍的,本体描述了概念之间的包含关系,个别与一般的关系,部分与整体的关系,这就充分表述了概念之间的关联性。 所以说,网络技术在一定程度上是能够用于体现描述的语义性的。它也为机器自动处理提供了最重要的基础。这里最重要的技术关键就是基于网络的本体语言的开发与使用。 摘自马张华,黄智生(著)《网络信息资源组织》(第八章本体技术与语义网),北京大学出版社,2007.
个人分类: 科海拾贝|8490 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-4 10:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部