科学网

 找回密码
  注册

tag 标签: 依存关系

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

【李白之48:依存关系不交叉原则再探】
热度 2 liwei999 2017-5-20 23:58
李: 画了前面的图 回头仔细一看才发现,这个例句是擦边的“交叉”: 如果DG(Dependency Grammar)揉进了浅层的短语结构及其边界,先做了合成词“学习 成绩”,那么把“他”与合成词内部的“学习”连接成主谓关系,是交叉。但是如果不引入短语结构,一切节点都是终极节点,实行彻底的原汁原味的依存关系(DG)表达,那么“他”作为主语连接给“学习”以及“学习”作为修饰语连接给“成绩”,并没有真正交叉,只是层次(configuration)显得乱了。但是DG的最大特点(或缺点)就是打破层次,只论二元。多年来我们在DG中部分引入 PHG (Phrase Structure Grammar) 短语结构表达,也是为了弥补这个缺陷。 我要说的是,这不是DG最典型的交叉关系图。不知道有没有更好的交叉而且语言逻辑仍然合理的案例。以前一直以为从逻辑上看,真正的交叉是站不住的,会引起语义的混乱。 白: 这又和“学习成绩”是在词法层面的论断矛盾了。二元关系这竿子杵到底,似乎就不管你什么层面了。“这牛吹得有点儿大”算不算交叉? 李: 盘点一下关涉到的二元关系: 吹-牛 吹-得 得-大 有点儿-大 这-牛 白: 牛-大 牛有俩爹。 李: 从 “牛” 到 “大”,从 “牛” 到 “吹”,起点同,终点不同,所以不算交叉。 n年前,刘倬老师画过图,说只有交叉站不住,不允许。其余的情形(见下图)全部是可能的,说的就是依存。 现在清楚的是,逻辑语义依存可以一个儿子多个老子,甚至互为父子。可以跨越层次,因此是图不是树。但是真正的交叉好像还是不被允许的。逻辑上,依存交叉是思维混乱。 白: “辫子是谁给你梳歪了?” 试试看。 李: 梳-辫子 梳-歪 谁-梳 给你-梳 给-你 ?是-谁(这个强调词可能进不了逻辑语义图,如果硬要进入,就挂在被强调的“谁”上) 还有哪些二元关系? 白: 辫子-歪 你-辫子 交叉了吗? 我觉得首先思维不混乱,再看看交叉了没有。 李: 没有交叉,貌似并不违反刘老师当年定下的天条。 白: 我提到的两个不算?如果讲的是“逻辑语义”,我认为要算。除非承认过继和挪移。 辫子-歪,你-辫子 李: 【辫子-歪】 与 【梳-了】 是交叉了。【辫子-歪】与【你-辫子】并不交叉。不算。因为其中一个端点重合。端点重合的,与内嵌套类似,不是严格意义的交叉。这么多的二元关系,勉强找到一对貌似违背了不交叉原则,而且这一对涉及小词“了”。涉及小词的,原则上在逻辑语义图里面没有地位,不应该进入关系。这样看来,实词概念逻辑语义不允许交叉,是可以自圆其说的。 白: 在我这里小词都有地位。 李: 小词只在句法层面有意义,进入(逻辑)语义,小词不过是给自己的主子添加了“色彩” features,并没有语义关系可言。 白: 你-辫子 与 谁-梳 交叉了,都不是小词 李: 你-辫子 和 谁-梳,的确交叉得太彰显了,掩盖不了 :] 可能辫子根本就不该找主儿, =) 白: “腿是谁给你打断的”,腿 也不该找主儿? 李: 这个交叉不交叉原则,可以反过来看。也许可以找到一些案例,的确产生交叉了。但是我们不能允许语句中的概念漫无边际地乱谈恋爱,导致群交的杂乱场面,显然不好。所以,必然会有某个原则在那里起规约作用。也许有某个“不允许交叉”的弱版本需要挖掘和表述。 白: 残坑挪移,可复用萝卜归栈。 技术上当然有办法。  李: 两个人要私奔,天王老子也挡不住。 白: 比如刚才说的“你-辫子”。“你”就属于可复用的萝卜。 李: 二元关系不理别人就是了,不就是一个链接吗。技术上不是问题。管它叫树还是叫图。探讨的是,有没有一个有效的原则在,它合理有效地压缩了乱交。 白: “辫子-歪”,歪就留下了残坑,被挪移到“梳”的位置。 我认为,残坑的处理和萝卜的复用是天经地义的,是NLP的应有之义。 李: 人心不古啊。现代化摧毁了周礼。是否要克己复礼?现如今,同性都可以结婚,禁区早被突破。 白: 乱交不可能,有辖域的约束,还有subcat的约束。辖域的约束,是指必须挪移到主子的位置。subcat的约束是指必须相谐。在主子的位置看如果没有交叉,就是OK的。 李: 对。 【谁1 给谁2 梳辫子】 【你-辫子】 和 【谁2-梳】 的交叉,是因为“谁2”与“梳”勾搭上以后,把给自己找主人的要求带给了“梳(辫子)”。 白: 所以,我们昨天讲的挪移,是在很严肃、很有效地处理交叉问题,很审慎地剥离表面上貌似交叉、学理上情有可原、技术上完全可控的现象,把它们纳入正轨。绝不是鼓励任意交叉绝不是鼓励任意交叉。 李: 服。 白: 而小词纳入实质性二元关系,一点都不影响上述对交叉的控制手段,但“词负载结构”原则则被推至极致。 李: 不管小词纳入还是不纳入,小词的确没有真正的语义地位。首先,小词各个语言都不同,而语义原则上是人类共同的。在深度分析的结果图上,不同语言的色彩应该已经褪掉。一切图谱理应是实体概念之间的关系。小词负载结构最多只能算是句法层面通向语义的桥梁。过河拆桥不拆桥,桥都不登大雅之堂。大堂里面都是args或mods,围着众神(谓词)跳舞。 白: 这个难以苟同。首先,格、时态、命题连接词、逻辑量词、摹状词都是语义里面必须有的组成部分,各个语言只不过用不同的手段来达到这些组成部分而已,如果碰巧某个语言里小词做了这件事,在这个语言里小词就负载了相应的结构,不描述是不对的。过河拆桥,是一种逻辑等价的技术处理,桥是客观存在的。 李: 总结一下不交叉原则:不交叉原则适用范围要从动态交往中看,而不是去除时间维度,把不同时期的交往压缩到一个平面去看。在没有时间维度的静态平面上看上去的违反不交叉原则的二元组关系,放在时间动态的交往上看,就没有违反原则。 白: 挪移就是位置随时间变化,随分析进程变化。而有些时候,桥是拆不了的。比如“卖盐的”。这个human就负载在“的”上,升格为实词。 李: -- ,不太好操作。当然,除了 以外,貌似其他实体很少出现在这里。 白: N+--N,方便得紧,而且和形容词名词化一脉相承:“行个方便”。的字结构,饱和了以后,具有形容词性,形容词能升格为名词,的字结构就能。二者是同一机制。 李: 好像,的字结构可以是主语实体,也可以是宾语实体,后者就超出了 : 卖电脑的最新生产的是智能手机。 ==卖电脑的 最新生产的 是智能手机。 白: 那是因为“生产”的两个坑,一个human,被“买电脑的”先占据了,剩下一个“product”坑,被第二个的字结构提取出来,再升格为萝卜。 李: 然后萝卜带上了标配本体? 白: 这整套操作,都在我们提供的机制内完成。 李: 这个标配的设置,不太好处理,虽然硬做总是可以做的。 白: 的字结构是我整个理论体系最早的切入点,不说烂熟于胸,也是胸有成竹的,至少是最不怕挑战的一块。 李: 呵 的字是中文的万恶之首。不说恨不得千刀万剐它,至少也是恨得咬牙切齿。 白: 既然做NLP,就得拿万恶之首开刀 李: 它还有变种:的|地|得|滴|哒|d|de|ㄉ|之 对了,粤语里面还有,那字怎么拼都忘了,但见到认识,口旁加既。 白: 底 李: 对,上世纪30年代流行 白硕: の 日语借来的 李: 相比之下,茴香豆的茴五种写法算个球,李白比孔乙己可学问多了。宝林大师说过,满肚子下水全是学问,不能碰,一碰就往外冒。 白: 妈妈威胁孩子“等你爸爸回来的”那个“的”,在有些方言里似有与普通助词“的”分化的情况,语音形式都不同。 李: 听不懂这个。 白: 潍坊话发音类似“着”。 大家可以内省一下自己的方言是分是合。 @wei 就是,其他语境下的“的”是一种语音形式,这个语境下的“的”是另一种语音形式,简直可以认为是两个词,在普通话里合并了。 【相关】 【李白之47:深度分析是图不是树,逻辑语义不怕句法交叉】 《泥沙龙笔记:漫谈自动句法分析和树形图表达》 乔氏 X 杠杠理论 以及各式树形图表达法 【语义计算群:句法语义的萝卜与坑】 《 语义计算沙龙 :基本短语是浅层和深层parsing的重要接口》 【李白之29:依存关系图引入短语结构的百利一弊】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|6920 次阅读|2 个评论
【李白之29:依存关系图引入短语结构的百利一弊】
热度 1 liwei999 2017-2-10 04:55
我: 至于基本短语的 Phrase Structure (PS) 边界迷雾(【长大的战友】),除非发现碍事(譬如不加修整地在产品 display这样的xp结果),不管他了。说到底,pure dependency grammar tree representation 本来是没有显性边界的,没有短语结构(PS) 的牵扯,一切都发生在词与词(terminal nodes)之间,只不过我们在实践中,把乔老爷的短语结构的概念,有限度地在 shallow parsing 阶段带入,成了一个 hybrid tree, 这才有了这个所谓的边界的问题。换句话说,这是一个系统内部在模型化过程中“人造”出来的问题。 白: 这是“坑”和“坑的坑”不加区别地混同的结果。 我: 这种 hybrid 的表达法的好处太多了,以前论过 (e.g. 《 语义计算沙龙 :基本短语是浅层和深层parsing的重要接口》 ),带来这么点副作用我觉得可以忍受。但我们应该记住,dependency 的本质原本就是独立于短语结构的(属另一个 very competitive 的 syntactic representation),所有的边界都可以通过父子关系,间接而完整地事后确定。譬如上图中“已经”和“儿女”都是【长大的战友】的children,“长大”也是 ,边界事后确定校正就包括了这些儿女,if needed。不影响核心逻辑语义及其理解是关键。 白: 如果站在填坑的角度,区别二者是理所当然的,并不需要刻意多做什么 我: 白老师是,站着说话啊。 白: 这只是说明“树”这种结构不如“坑-填坑”这种结构更接近语言的本质 我: 白老师上面这句话很妙啊:我个人的翻译就是,乔老爷的短语结构那一套(PSG及其表达法),不如词(概念)与词之间的依从关系更接近自然语言的(逻辑)本质。I honestly cannot agree more. 所谓坑与填坑的结构,就是依从关系建立的条件匹配与满足。“不需要刻意多做什么”是你心中的 approach。我现在的patching就不是这样了,在我这儿,为了人看着舒服的事儿,可以做,但不是必做。必做的事儿是在应用的时候碰到了不想要的后果,那就回过来再把屁股擦干净。 白: 他那些杀红了眼,刺刀上沾满血的战友们可管不了那些了。 “儿女”有坑,把“战友”捎带上还可以解释。“刺刀”的坑是“枪”,“枪”的主人是human,这弯儿拐的。句法非标配的坑,靠语义中间件凌空凿开一个坑,才能把定语从句的钩子钩上。 第一个“那些”如果去掉,好像不通了,或者说链条断开了: ?他杀红了眼,刺刀上沾满血的战友们可管不了那些了。 所以,凌空开凿的坑无法填装远距离的“友元”。 我: 白: “刺刀上沾满血”是自足的,弄个S出来,似乎不能自圆其说。 我: 有那么自足吗? 战友们刺刀上沾满血 战友们沾满血 刺刀沾满血 刺刀上沾满血 这个后置词“上”字把本来可能的一个主语降格了,变成更像状语了。这就为 “战友们” 出场做主语创造了条件或坑。 白: S,一定有填坑的关系。“战友们”究竟填了什么坑,不深究是看不出来的。 好像“刺刀”和“战友们”通过这种结构浑然成为了一个整体,“刺刀”成为了“战友们”的一个部件(body part)。 我: 虽然董老师那一层的逻辑语义,可以不管这些表层的 trigger 而保持 【human】 和 【physical object】二者的逻辑地位的稳定,但是 parsing 过程中,这些句法痕迹及其引致的句法“坑”的动态变化还是有迹可循的:PP 把潜在主语降格,让位给其他 NP: 他沾满血了?哪里沾满血? 他在(他的)刺刀上沾满血,身上滴血不沾 “战友” 是大物体,“刺刀” 是小物体。“刺刀” 在这个场景,就是大物体中的一个小物体,与 body part 功能很接近。“他刺刀上沾满血,可手上却没有”,这与前一阵子讨论过的英语表达 hit sb on+bodypart 类似,到了汉语就成为所有关系的表达了: 他击中了我的头 击中 的是 “我” 还是 “头”? 沾血的是“人”还是“刺刀”?当然,“上”也是一个讨厌的小词,在接近成语的表达法中不一定降格,譬如 用“组织上”代替“组织”做主语的情形。 组织上批准了你的建议。 对于战士,刺刀就是手脚的延伸,成为一个战士的不可或缺的部件。 白: 地方上,县上,州上 甚至“今上” 我: 这现象是词典化的了吗 还是相当地开放? 白: 他衣服上残留着油渍。他工位上挂着两条领带。他单位里流传着很多绯闻。 他桌子上永远整整齐齐。 可以肯定,1、这是一个系统性的现象,不是偶然或者活用。2、到底是主语还是应加但未加“的”的定语,似乎有个连续的谱系。3、一个具体用法在这个谱系中的定位,与形式状语和形式主语整合为一个整体、或者说形式主语延伸到足以包括形式状语的可接受性有关。整合越不可接受,形式主语越像定语;整合越可接受,形式主语越像逻辑主语。 我: 语言学理论中 主语与定语 地位很接近,虽然前者属于 arg 后者属于 adjunct。它们都是 external 的成分 有很多相通之处。乔姆斯基xbar 理论的起因之一就是要统一主语和(部分)定语,在句法结构的理论上给一个统一的说法(参见 乔氏 X 杠杠理论 以及各式树形图表达法 )。 【相关】 【李白对话录系列】 《泥沙龙笔记:漫谈自动句法分析和树形图表达》 乔氏 X 杠杠理论 以及各式树形图表达法 【语义计算群:句法语义的萝卜与坑】 《 语义计算沙龙 :基本短语是浅层和深层parsing的重要接口》 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3728 次阅读|2 个评论
【李白之19:三探白老师的秘密武器】
liwei999 2017-1-20 04:07
【立委按】专业探讨的时候,第一要义是互相搞懂各自的术语。老司机的毛病是经年积淀,自成体系,自创术语,不拘一格。白老师有一套自己的术语,立委也有一套术语。好在过去一年来,在白老师的语义计算群唠嗑唠久了,互相开始明白了各自术语的所指。但对于后学,很可能就麻烦了。为深入虎穴,三探奥秘,我把相关术语编辑在篇末,供各位查阅,不准确处可请白老师指正。 白: 我们先解决“谁和谁发生关系”而不必具体明确“是何种关系”,只笼统地分成:“a是b的直接成分”、“a是b的修饰成分”以及“a是b的合并成分”三种情况。 洪: @wei 八九十年代 Steven Small 有套Word Expert distribute parsing理论 ,当时ucsd的Garrison Cottrell和 umass的 wendy lehnert也有类似研究。 白: word expert理论当年也跟踪过,因为跟汉语实际相差太远,后来不了了之了。 我: Small 的工作以前常引用,因为我导师刘老师给自己的 MT 机制也取名叫专家词典。术语撞车了,不得不引。句法词典化作为大的方向,在parsing的人以及整个的NLP共同体,长期以来是有相当大共识的,虽然各有做法不同(GPSG以后盛行的词典主义的LFG和HPSG就是这种共识的一个反映)。白老师的分步走,想来是一条结合大数据和词典化的大道。第一步只做 dependency,而且允许以后反悔。只依赖词典,先塔个句法的架子,靠中间件的语义化操作来减除伪歧义的困扰。Parsing 的语义化不外两个层面,一路是 nodes 的语义,即wsd;另一路是 arcs 的语义,就是 matcher 的结构消歧工作,为了求解靠谱的 parses(白老师所谓二元关系)。其后的细线条逻辑语义解析,包括部分二元关系的休眠唤醒以及揭示隐藏的逻辑语义关系,算是深度语义计算。这两路靠的都是大数据与初始结构的“恋爱”结果来克服知识瓶颈,而不是靠带标的treebank。其中最有意思的工作应该是这个无监督大数据与初结构的恋爱学习过程,貌似水性杨花 漫天撒网 愿者上钩,最后根据统计性落实各自秉性与最佳搭配。等着听白老师这个无监督的核爆炸吧,大数据引爆这种针对 deep parsing 的语义知识习得,据说可借力深度学习的 RNN 机制。 白: 不务虚了,讨论点昨天出的具体的例子吧。总会有突如其来的不带介词的NP,让没有坑的VP措手不及。躲得过初一躲不过十五。大数据会告诉我们什么呢?比如,“那堆砖让我垒了鸡窝了”,垒,没有预备坑给“那堆砖”,怎么办? 我: 不务虚 那请教白老师几个问题:第一层词典化二元parsing 是 nondeterministic 吗 还是绝对 deterministic?那么粗糙的 parsing - 如果是后者的话,对后去的学习和反悔 感觉会不够给力。 白: 大数据变了,结果会不同。这算nondeterministic? 我: 不算。那是两套系统,依据的是不同的数据和训练,在不同的时间框架。 不是说不需要大数据吗?连二元关系的性质都模糊,就是先勾搭上而已。 白: 不需要带标大数据。性质可以模糊,但约束必须明确。比如萝卜什么时候占名额什么时候不占名额。Matcher不是语义中间件,他要用到语义中间件。wsd也要用到。一个确定节点标签,一个确定留下的二元关系。 我: 约束不就是词典里面的挖坑,实际中的填坑 挖坑么?用的是 cat,因为一个词可以有多个 cats(or subcats),所以调用了 WSD 模块来决定。根据这个决定来填坑构成二元结构。好像就是这么个过程。 白: “这碗猪”还记得吧。 我: 不搭没关系吧 - 开始的时候。 白: 【碗,猪】这个二元关系有还是没有,问中间件。没有,就不建立arc。虽然cat相配,也不建。 我: 那是大数据训练以后的事儿了,训练之前呢?语义中间件就是一个大数据训练出来的类似 hownet 的资源。在训练之前 大数据怎么结构化的? 白: 训练是独立的,跟matcher无关,跟ontology有关,ontology是结构化的 我: 无监督训练,总要有个啥吧。训练是独立的 offline 进行,利用大数据得出的语义相谐的统计性历史总结,作为 parsing 的资源。Matcher 是 online runner,来对新的 input 做 parsing 的。这跟我们专家去写 patterns 道理一样。训练的结果包含 ontology, 训练的支持难道不是结构化的大数据?这个结构怎么来的?谁给的第一推动? 白: 这是一个冷启动窗口长短的问题。matcher可以只看3个,大数据看13个。大数据的13个中包含被matcher拉近到3个的概率不低。 我: 拉近不是结构化的作为吗? 白: 大数据中非结构化的词串,十三个词里面“碗”和“猪”的共现,以及背后subcat的共现,同“碗”和“汤”的共现相比,这数据有统计意义不?我说的是“包含”。 我: 有意思。非结构化词串就是 ngram,13 词区间大体就是一个子句的长度,再长也没啥统计价值的关联了。 白: 碗,背后的subcat是“容器”“餐具”;汤,背后的subcat是“液体”“食物”。统计subcat共现,可以脱离具体的词例,获得大样本。在大窗口里进行,跑都跑不掉。所以,有无结构的说法是含混的。从parse角度讲,冷启动时无结构;从ontology角度讲,冷启动时结构很丰富。 我: 嗯,为了统计性,脱离具体词,先用 hownet 或 wordnet 支持一下。 白: 冷和热的唯一区别,就是有了冷的基础,热应该更好做。因为大窗口的关联都挖出来了,小窗口更不在话下。 只有一种情况,就是热的情况下,小窗口里面的关联,是把大窗口都覆盖不到的远距离关联拉近了的结果,这种会失手。 我: 好,在 onyology 支持下,在13词窗口内,系统学到了“碗”与“汤”的搭配,so what? 白: 在遇到这碗猪的时候,会选择不match,把“这碗”留着,让“猪”去找自己的坑 我: 这口气得憋多久啊 白: 就是所谓的“过程性因素”,用中间件的查询结果来控制,而不是用手编的语言学知识或规则来控制。 我: 停下的意思类似于入栈。稍有闪失就沉底出不来了。 白: 对啊,RNN+栈。入栈,等着填坑 我: 不知道栈有多深 白: 出不来的情况,参见刚才的例子 “那堆砖让我垒了鸡窝了”。在“垒”只有两个坑的情况,“那堆砖”就是进去了出不来的,如果不想其他办法的话。 荀: 如果这种二元决策是确定性的过程,如果出错,填入的坑的萝卜就得靠唤醒了。 白: 不妨仔细推演下这个例子。 我: 赶巧这个【工具】的坑,处于可有可无的边缘。“垒” 其实也可以带三个坑的。 白: 如果大数据中,存在着大量“砖”带着明确的介词和“垒”共处一个窗口的情况呢?或者投射到subcat上,“建筑材料”带着介词和“建筑行为”共现? 荀: 如何辨认“工具”和“施事”就很重要了 我: 【工具主语】 与 【人主语】 几乎有类似的统计性。 荀: 需要用启发式信息,引导RNN训练,这个引导过程是至关重要的。 白: 这里有“我”,已经明确会填坑。我说的是,没有坑可填不可怕,翻翻大数据,历史上别人用它带什么介词,就把那个介词补上好了。然后就堂而皇之地做状语了。这些东东,有了ontology和大数据的结合,就不要人来操心了。 荀: 把subcat嵌入到RNN中,用启发式信息结合LM训练方式引导RNN编织权重。 我: 如果加上显性形式“用”,工具作为萝卜有很多数据。 白: 我昨天出了那么多例子,伟哥居然没觉出用心良苦: “这些纸能写很多字” “这些铁可以打很多钉子” 荀: 这些铁可以打很多钉子 这些纸能写很多字 白: 从形式上,为严谨起见,我们不会去给这个句子凭空添加任何一个莫须有的介词,但总可以用一个不占位置的虚介词吧…… 【phi】这些铁可以打很多钉子。 荀: 利用大数据可以做“小词“还原,这对缺少标记的汉语很重要了。 白 : 哈 至少有了这个phi,栈里的不会出不来了。 荀: 借助大数据,RNN做“还原”这类事情很在行。把小词“虚化”,也是一种subcat处理。抓住了小词就抓住了汉语结构命门,白老师在这上花足了心思。对句子做“结构归一化”处理。 白: 推而广之,就是利用大资源+大数据把看起来不那么规范的句子有理有据地整理成更规范的,这样parser负担就轻了,无需独自面对复杂情况。“这场火多亏消防队来得及时”,这里的“这场火”同样面临“没给留坑”的尴尬。但是,把句子中的“火”“消防队”两个实词送入中间件,可以发现与他们共现频次相当高的“救”。有“救”垫底,就可以引入及物的虚动词phi,这样萝卜和坑就相安无事了。 荀: 白老师提到的parser需要确定的三种关系,权重信息编织在网中了,在应用时,词典发出请求,RNN做认定。Parsing就是做W1,W2,Relation认定的过程, W1或者W2 可以是小词。 功夫在于Relation定义,在承载结构的小词处理以及W1,W2,Relation训练过程,白老师对这些都有一套不同以往的做法。 我: 如果没有坑可跳,就自己挖个坑去跳,这也是 mods 的常规了。在形态语言中,mods 有显性小词或词尾帮助确定该怎么挖坑自裁。在裸奔的汉语,形式没了,只好靠搭配。 白: 救火这个例子,已经不是subcat嵌入了,根本就是词嵌入。 我: wait: “这场火多亏消防队来得及时”,这里的“这场火”同样面临“没给留坑”的尴尬。 咱们走一走这场火。哪里出来的“救火”,“消防队”本体里面的吗?Hownet 里面肯定有。 常规的做法是,遇到句首 np 没法填坑,就给个 topic 标签。有点像英语的 as for,with regards to,topic 很像pp做的状语。往后找一个谓语挂靠:“这场火” 挂靠到 “来”。 白: 人家只有一个坑,还是给human预留的。 我: 不需要啊。状语是随机的。状语可以看成是不填坑,而是挖坑,挖个坑让谓语填进去 或者让自己跳进去 再去找主儿。 白: 比如“为了”? 我: 想不出来为什么要绕那么大弯,让“救火”出来救驾。Topic 式状语,无需那么清晰的标签,就是把np 降级为 pp。至于什么 p 什么格,另说着。 世界语有个万能介词 je,柴门霍夫这样解说:介词就是格,都是确定性语义的。 几十个介词 就是几十个格。但是如果有一个状语,你不知道哪个介词合适 或者你懒得费劲琢磨什么格合适,你就用 je。与前面提的phi,异曲同工啊。 白: 那样活儿太糙。补介词合适还是补动词合适,大数据说了算。 我: 用了 je 就确定了其地位。不是没有道理。人如果要清晰,他可以有清晰的形式,譬如介词或词尾。如果他不用,那就模糊。虽然模糊,句法地位和关系还是大体确定了。这类模糊要确定语义关系,可以在后面的语义模块(我以前也叫它语义中间件)决定,而不是白老师的中间件在parsing 过程中调用。我选择把二者分开,因为这类情形句法没有到走投无路,就算耍个流氓 亦无不可。先躲过初一,到15再说。其实 15 到了,要求很可能与初一不一样了。人走茶凉不了了之也是有的。 白: 数据支持的话,可以冒进一点。中间件就是在过程中调用啊,否则有啥用。 我: deep parsing 的过程可以分两个阶段,两个模块:句法和语义。我叫语义中间件是指它在句法模块之后,产品语义落地之前,夹在中间。怎么没用?几乎所有的 hidden 逻辑语义,都可以留到这里做,而不必在句法模块做。 不仅句法模块内部可以多层去做,句法到逻辑语义,也可以分开,成为两个层面的 parsing,Syntactic parsing to semantic parsing。非谓语动词的主宾等都可以后延, 句法只要确定其状语还是定语或补足语身份即可。对于谓语的主宾等,也可以先在句法做一个糙活,到语义中间件再细化或修正。糙活是不到不得已不调用 ontology,如 np 主语,管他 【human】 还是 【instrument】: 张三砍了李四 斧头砍了李四 开始都是同一个parse。 张三吃了大餐 乌云吃了月亮 也是如此。 白: 现在还都没说定性,只说定位,谁跟谁有关系。结论是,就这么糙的事儿,也得动用ontology。 我: 句法不必要太细。语义可以细,但那个活儿可以悠着点,做多少算多少。 回到白老师前面给的句子,试试我目前语义模块还没丰富完善的 parsing: “那堆砖让我给搭鸡窝了” “这辆车能坐六个人” “这个方向不被看好” “这些铁可以打很多钉子” “这些纸能写很多字” see,句法架子是出来了,但未尽如意的语义还有一步之遥。这一步补不补,不紧急,因为语义落地的时候,如果是 integrated 一体化的直通车 ,而不是提供给第三方做 offshelf support 的,就可以在落地模块内部协调。譬如,“坐车” 带了“六个人” 为 O,ideally,语义模块应该把 “六个人” 从句法的 O 转为 逻辑语义的 S。但是,如果是内部协调,转不转也无所谓。O 不过是一个符号而已。词驱动落地的时候,“坐车”的 arg 是 O 或 S,完全不必计较。当然,如果要补足这一步,虽然琐细,但真要做也不难。在没弄清楚多少利益之前,懒得做这细活。同理:“那堆砖”最好是加一条线,连上“搭”,标签是 【Instrument】。“这个方向不被看好”已经把表层的小词 “被” 带入考量,直接给了 O,一切到位,没有可做了。“打铁” 和 “钉子”,最好是加上标签【Result】。最后一句,最好给 S 进一步加上逻辑语义标签【Instrument】or 【Material】,但其实落地也未必需要这个,就是加上了显得很酷,很智能,让人看着爽,倒未必是对落地产品真地就有多大利益。 【术语 Index】 Matcher:the syntactic parsing program,有时候我们叫 runner,在白老师的系统里面,就是接受输入文句,对其二元依存关系解析的模块。 WSD:与 community 的依据义项划分的定义有别,白老师的 WSD 模块指的是:在词负载结构的体系里,一个具体的词负载了好几种可能的结构,结合上下文选择其中一种的模块,称之为wsd模块。事实上,这里的WSD 是利用大数据得来的词与词或其上位概念之间的语义相谐,来决定采纳某种区分一个词不同用法的扩展的 POS tags or 白老师所谓 subcats,来帮助结构消歧。粗线条义项的区分成为二元关系结构消歧的副产品。当(细线条)义项区别不影响结构的时候,义项区分就不是这个WSD模块的任务。 二元关系:两个词之间的句法依存关系(bianry dependency)。白老师的系统分为三类:修饰关系(如 定语、状语),算元(args)关系(如主语、宾语)和合并关系。 POS(cat):part-of-speech (or category,相对于 subcat 子类而言)词类,不必是 PennTree 定义的集合。作为模块,指的是根据系统给定的词类标准,自动做词性标注。一个词可能跨类,POS 模块可以根据上下文决定最合适的类别(词性)。在白老师的系统中,是所谓 WSD 模块做这个 POS 的事儿,来供给 Matcher 充当合法填坑的 candidates。在白老师的系统,我们可以把 POS 的词性标注理解为粗线条的 WSD。不影响结构的词义区分不是白老师所说的 WSD 模块的任务,虽然 community 的 WSD 不是这样定义的。 subcat:subcat 的原义指的是谓词的子类,这个子类对应了这个词的特定句型(譬如,双宾句型,宾+宾补句型,等)。白老师说的 subcat 扩展到不一定具有对应句型的子类。譬如,碗,背后的subcat是“容器”“餐具”;汤,背后的subcat是“液体”“食物”。这实际上是本体语义(ontology)的层级结构,如 ISA taxonomy chain:碗 ISA 餐具,餐具 ISA 工具,工具 ISA 商品;商品 ISA 人造物品;人造物品 ISA 物品;物品 ISA 实体(逻辑名词,这是这个 chain 的顶端节点 TOP 了)。 “耍流氓”:指的是对于二元依存关系不能定性,但是可以认定具有某种关系。汉语句法中,句首的名词短语在没有确定其性质是主语、宾语或定语、状语之前,往往先给它一个 Topic 标签,挂靠到后面的谓语身上,白老师认为这就是耍流氓。同理,当两个实词之间的关系基本可以确认,但是不能定性的时候,我们往往根据其出现的先后次序,让 parser 给一个 Next 的标签把二者连上,作为一个增强句法分析器鲁棒性(robustness)和查全率(recall)的打补丁的手段。这也算是先耍一下流氓,因为理论上后去还是需要语义模块去确认是何种关系才算深度分析到位。如果是两个中文动词一先一后系统给了 Next,其默认关系是【接续】,就是汉语文法书上所谓的“连动”结构。 Topic:汉语分析中,句首名词短语如果不直接做主语、宾语等,很多分析就给 一个Topic(主题)的标签。汉语文法的一个突出语言句型现象就是所谓双主语句(常常分析成一个Topic or 大主语,加一个小主语:譬如,他身体特别好。这家公司业绩直线上升。)由于这种关系逻辑语义的性质不明,聊胜于无,所以也称这种二元关系的建立为“耍流氓”。 Next:两个词一先一后,但不能确认他们发生了什么句法语义关系,系统常常给一个特殊的关系标签,叫 Next,其默认关系是【接续】。 这是一个增强句法分析器鲁棒性(robustness)和查全率(recall)的打补丁的手段。由于这种关系逻辑语义的性质不明,聊胜于无,所以也称建立这种二元关系为“耍流氓”。 mod:修饰成分或关系。包括定语、状语、补语。 arg:算元成分或关系。包括主语、宾语、(宾语)补足语或间接宾语。 Hownet:董振东前辈发明的面向MT和NLP服务的跨语言本体知识(ontology)网络《知网》的英文名称。 小词:教科书上叫做功能词。包括介词、连词、代词、副词、感叹词、联系动词等。 伪歧义:也叫伪路径,指的是 parsers 产生出来的貌似成功但没有价值的结构分析路径。伪歧义,是相对于真(结构)歧义而言。真的结构歧义的典型案例是某些 PP-attachment 的现象,同一个 PP 可以理解为两种可能:做宾语的后置定语;或做谓语动词的后置状语,这两个 parses 都是有效的语义解析。但是,很多传统的 parsers,会产生很多貌似成功解析输入文句的分析路径(numerous parses),给人以文句结构歧义严重的假象,但其实这些不同路径大多没有区别意义,是为伪歧义。这是一个困扰了传统 parsing 很多年的难题。白老师和立委的系统都利用不同的策略(包括休眠唤醒机制)很好地解决了这个问题。 中间件:白老师的所谓语义中间件,指的是在 ontology(本体知识库,如 HowNet,WordNet)的支持下,通过大数据训练得出来的语言词汇之间的语义相谐(各种关系之间的语义搭配)的知识库。这个中间件被 WSD 和 Matcher 模块调用作为对于输入文句的 parsing 的资源。立委以前的NLP博文种的所谓语义中间件虽然有与白老师的中间件相同的一面,但却是不同的所指。在立委的 deep parsing 的系统种,语义中间件不是一个知识库资源,而是指的句法模块后面的语义模块。这个模块利用句法框架,负责深度分析的逻辑语义细化、隐含的逻辑语义关系的解析、休眠唤醒新的语义结构关系(包括改正此前的错误路径),如果需要的话,也可以在这个模块做一些词义消歧工作(WSD的本义)。总之,这个语义模块是独立于领域,夹在句法分析之前和领域的语义落地之前,为了更好地服务于语义落地。为了不再混淆术语,立委考虑今后不再称此模块为中间件,而是把术语让出,就叫语义模块。 萝卜:指的是那些参与谓词结构(所谓 argument structure)所要求的实体角色的词,譬如充当主语、宾语、补足语的成分。谓词结构通常被认为是一个语句的核心语义。谓词以动词为主(但也有形容词和名词做谓词的),在词典主义(lexicalist)的系统中(白老师和立委的系统均属于词典主义),一个谓词的潜在的结构都标注在这个词的词典信息 subcat 里面。换句话说,谓词的 subcat 规定了它期望什么样的成分(所谓挖坑),需要什么样的词(萝卜)来填。譬如,“走路”挖了一个坑,需要一个优选语义位【human】的名词萝卜来充当其施事主语。再如,“喜欢” 挖了两个坑:谁喜欢什么。充当主语的是【human】名词,充当宾语的是几乎任何词。 坑:就是依存关系(dependency)的被预期的节点。对于谓词,其坑就是它预期的算元(args)成分,主语、宾语、补足语。对于修饰关系(mods),譬如定语、状语和(汉语)的补语,一般认为是附加的边缘语义,不占坑。也可以看成是修饰语预期了谓词,或看成是谓词不占坑地吃掉了修饰语。 填坑:一个词(包括代表短语的头词)根据谓词对坑的句法(甚至语义)要求,充当了其谓词结构的成分,建立了与谓词的二元关系(binary dependency),这个建构过程叫做填坑。谓词结构的成分填满了,核心语义就完整了,这个状态叫 saturated。 萝卜指标:指的就是坑。所谓不占萝卜指标,是说的一个词可以合法填两个坑的情形,其中一个坑不影响其填另一个坑的能力。听上去似乎与坑与填坑的概念出发点相违背,但在依存关系图的构建过程中,是必须考虑一个萝卜填多个坑(一个儿子多个老子)的情形才可以把依存关系进行到底(有些一个萝卜多个坑的情形在短语结构表达中,可以借助非终结节点避免)。 优选语义:最早由著名人工智能和机器翻译前辈 Wilks 提出的概念,指的是在本体网络(ontology)中,概念之间的语义相谐表现在自然语言的表达的时候,呈现的是一个区间,而不是一个固定的语义约束。譬如,【eat】这个概念对于【受事】的优选语义是【food】,但是这只是其优选,并不是一定要是【food】。语言表达的时候,优选语义可以根据句法的约束条件不断放松,以至于达到完全不相谐的程度(nonsense)。乔姆斯基认为,句法可以独立于这些语义相谐的约束,举的就是句法约束决定结构关系,偏离优选语义到极端的例子:Colorless green ideas sleep furiously。对于形态语言,句法独立性的原则有较多的证据。对于汉语,这个原则需要打折扣,合理利用优选语义的约束就成为汉语解析的关键依据。立委 parser 改造使用了 HowNet 来弥补句法形式的不足。白老师的系统是依靠大数据训练出来的中间件来实现优选语义的对 parsing 的约束。 逻辑语义:指的是深层结构关系。最早起源于乔姆斯基的深层结构和费尔默的深层格(关系)。中国NLP和MT的旗手级前辈董振东老师发扬光大,深化了这方面的研究,指出解析逻辑语义是深度自然语言理解的关键:所谓理解一个句子,主要就是理解了这个句子里面概念之间的逻辑语义,谁是施事,谁是受事,时间、地点、条件,等等。在 community,对应于所谓 role labeling 的任务。一般而言,主谓宾定状补之类的句法关系比较粗糙,这些是表层关系,一个语言深度解析器(deep parser)不仅要解析(decode)句法关系,而且要进一步揭示后面的逻辑语义关系,包括细化句法关系(譬如句法主语可以进一步标注为施事、受事、工具等逻辑语义,句法宾语可以标注为受事、对象、结果等逻辑语义,诸如此类),和揭示隐含的逻辑语义关系(所谓 hidden links,就是句法上没有直接联系但逻辑语义上具有直接联系的结构关系,譬如宾语是宾语补足语的隐藏的逻辑主语)。 休眠唤醒:在 李白的系列研讨 中,这个术语指的是一种把可能性较小的路径暂时搁置的parsing策略,被搁置的路径可以在适当的条件下被唤醒。这种策略据信反映了人的语言解析的过程,可以从段子、相声抖包袱等现象看到这个过程的表现。立委有系列博文专谈这个机制。譬如:【 立委科普:结构歧义的休眠唤醒演义 】 【相关】 【李白之18:白老师的秘密武器再探】 【李白之15:白老师的秘密武器探幽】 【李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|2236 次阅读|0 个评论
杨绛书里的灵魂和肉体:那些依存关系
热度 2 cgh 2016-5-28 03:12
杨绛书里的灵魂和肉体:那些依存关系 没读过这些书,从 新闻上看到的摘抄 。看来,多读书是有用的,至少知道别人是怎么思考自己可能碰到的问题的。 灵魂存在已否,科学上论证不清,但是并不影响人们讨论它。可能关于灵魂与肉体关系的精辟论述不少,每个人自己的理解深度应该是各异。在我现在看来,杨绛的肉体中介说,还是值得体会的。可能因此,她认为死亡之后,灵魂走了,设灵堂留骨灰毫无意义。 这里想到的是,她关于灵魂和肉体的关系,一个高级和低级,一个有成果而一个只是中介(或者工具、介质)。大背景下,她的书大概是生病后对死亡的思考。所谓死亡,只是肉体的灭失。她的肉体自然已经完成了中介的使命,并让她的灵魂锻炼到了很高的程度。所以,她的思考,更多的是灵魂,而不是如何使让肉体和灵魂更好相互促进、更好地为灵魂服务。 这个社会也一样,大概每一对人、事都有不同程度的依存关系。所谓的平等,大概就是让这些依存关系不至于总是单向作用。很可惜的是,我们现在的社会,在这种依存关系上似乎已经到了非常严重的地步。略举一例,略加讨论。 从扩大内需到供给侧改革,需求和供给是相对应的一对,似乎两个都改好了就该可以了。然而,系统域的定义是严重影响分析结论的。从供需的角度看,在一定的经济尺度,供需是互等的。那些局部的供给者同时也是另一个局部的需求者。所谓优化供给侧,其实约等于压缩需求。这样看来,我们从当时的扩大需求的一端走到了另一个收缩需求的一端。所以,问题不在于需求和供给。在哪里?就在于那些既不属于供给也不属于需求,却在系统中扮演供需转化角色的中间体 — 通过交易掠夺价值的环节。 我们在经济上大谈商业模式,减少中间环节。不错,交易已经是这个社会掠夺财富的最佳工具。典型的当然要数房地产。土地是全民所有的,劳动是民工的,到最后民工赔了下辈子为了住房。然而管理土地的行政者、转手借贷的银行、组织开发的地产商,通过所谓的权力和资本,攫取了所有的价值。让民工扩大买房需求,优化地产建设管理,降低民工工资以维持产业,看似合理,其实无不是进一步在榨取最后一滴血。把所谓的中间环节当作灵魂,肆意践踏它的肉体,何以共生! 所谓的改革,如果不能建立起制度体系来消除中间环节的贪婪价值掠夺,一切都是欺骗的谎言,迟早会有其他方式发生系统的重建。 ------------------------------ 人都得死。人死就是灵魂和肉体的分离。肉体离开了灵魂就成了尸体。尸体烧了或埋了,只剩下灰或土了。但是肉体的消失,并不影响灵魂受锻炼后所得的成果。因为肉体和灵魂在同受锻炼的时候,是灵魂凭借肉体受锻炼,受锻炼的其实是灵魂,肉体不过是一个中介。肉体和灵魂同享受,是灵魂凭借肉体而享受。肉体和灵魂一同放肆作恶,罪孽也留在灵魂上,肉体不过是个中介。所以人受锻炼,受锻炼的是灵魂,肉体不过是中介,锻炼的成绩,只留在灵魂上。 灵魂接受或不接受锻炼,就有不同程度的成绩或罪孽。灵魂和肉体结合之后,同在人世间过了一辈子。这一辈子里,灵魂或为善,或作恶,或受锻炼,或不受锻炼。受锻炼的品质会改好,不受锻炼而肆欲放纵的,品质就变坏。为善或作恶的程度不同,受锻炼的程度又不同,灵魂就有不同程度的改好或变坏。灵魂的品质就有不同程度的改变,不复是当初和肉体结合的灵魂了。改变的程度各各不同,灵魂就成了各各不同、各各特殊的灵魂。(《 杨绛·走到人生的边上 -自问自答 》) ------------------------------------------
个人分类: 杂谈|7143 次阅读|4 个评论
【泥沙龙笔记:依存语言学的怪圈】
liwei999 2016-4-15 13:32
今天在思考死循环的问题。这是一个逻辑问题,也涉及语言学怪圈 , trigger 是所谓的父子原则:【 科普小品:文法里的父子原则 】 。 子曰,君君臣臣,父父子子。纲常不可乱。 当然乱的也有,下面的故事便是。 Nick: @wei 我现在要上班,等周末空下来和你掐这个。 我先扯着,等@Nick 有闲批判。 咱东土生人可能一直在骨子里信奉孔孟之道,或者下意识受他老人家影响,所以做语言学一直严遵父子原则,直到进入逻辑理性,才发现这玩意儿不好使,也不神圣,绝对不是不可触犯的天条。 数据结构里面的 dag 说的是一种图的模型化,里面有两个要点,一是 d,就是纲常:臣忠于君,子听命父,天经地义。第二是 a,说的就是不能死循环。前例 “所以我就是我自己的外公”,就是犯了这个循环的错。局部看,每一个关系都是合理合法的婚姻,但绕着绕着,我成了自己的外公,就不像话了,数据结构dag就不答应。可是到了依存关系的定语从句,结构也傻了,根本连弯儿都没绕,直接进入循环怪圈: 尼克喜欢冰冰,SVO 没问题,可是做了定语以后就麻烦了:喜欢和冰冰直接进入死循环,绕不出来。尼克是局外,根本干着急。喜欢是冰冰的定语从句(Mod-S),冰冰是喜欢的对象宾语(O),这可怎么是好?乱了纲常,天诛地不灭,还活着。 忘记当年怎么写 specs 给的工程师了,总之是一切的 circular links 都挡住了,就是给“喜欢-冰冰”开了后门,大概是喜欢的太多了,与其气死尼克,不如让粉丝都进入死循环。 语言学上讲,其实这个也不算循环,至少乔老爷不这么看。 乔老爷的短语结构文法(PSG)有个 X-bar 理论 。 按照他的理论,这个死循环就活了。 不错,老子喜欢的逻辑宾语儿子的确是冰冰, 但冰冰(作为)老子的定语儿子却不是喜欢, 而是喜欢的杆杆, 可能是杆杆杆, 总之不是喜欢。X 杆杆理论说, 喜欢不过是V(杆都没有呢,词一级的语言学单位)。 喜欢的第一个杆叫做 VG (V-bar, Verb group,块组的语言学单位), 喜欢到了加二道杆的时候叫 VP(V double bar,短语的语言学单位),该短语由喜欢与空降过来的冰冰构成(动词与其 internal args 构成两道杆的衔)。 喜欢晋升到三道杆的时候就成了句子(V triple bar,S,or IP,这最后一个术语纯粹是语言学家玩的游戏,不论),作为定语就叫定语从句。 既然是句子S,一般是主谓宾俱全的,没有尼克这个主语(external arg)作为句子是站不住的。 因此,乔老爷的说法是,以喜欢为代表句子做了冰冰的儿子, 修饰她服务她。 而逻辑上呢,冰冰又被拉进了这个定语从句内部,做了里面大爷喜欢的儿子(or 女儿)。 总之这么一个理论上一摆弄,加了几个杆杆,乔老爷就克己复礼了。原来是从句作为一个整体做儿子,而儿子的老子冰冰只是又做了从句里面的个体喜欢的儿子(或女儿)。白马非马,此喜欢非彼喜欢,此喜欢的老子不妨做彼喜欢的儿子,老子虽高高在上,也不妨关起门来做儿子。 看到这里,如果还没晕,那你真是块语言学家的材料,入错行了,如今不幸做了CXO,老板,创业鬼,程序猿,或者是一不留神做了风投大爷。总之是可惜了您语言学家的天分。 还要加一句,才能稍微明白一点:乔老爷的结构树叫短语结构(phrase structure)树,我们树上画的基本上是属于依存关系(dependency)文法理论。不同的理论模型,角度不同,表现就不同。这个 我的博文 【科普小品:文法里的父子原则】 里有详解。总之循环出现在以词为终结节点(terminal nodes)的依存关系句法树上,到了短语结构句法树就不死了,因为用了杆杆把句子机构化为不同的非终结节点(non-terminal nodes),“人为”消除了死循环。乔老爷的把戏图示如下。 陈: @wei 能不能开放你的东西让我们做点应用?否则你说的越多,我们越着急 雷: 呵呵,馋死人不犯法 陈: @雷 只能选择性忽略了 雷: 呵呵,同感同感 我: 怎么开放呢?我说了不算啊。 雷: @wei 弄一个网站,大家一起玩 陈: @wei 属于全人类,不是一个资本家。告诉他 雷: 不需要处理整篇,句子就可以。大家集思广益,都来贡献各自的独特句子。 我: 不贵啊,超不过一个亿,谁有钱就买了做公益吧。 不砍了,回家吃饭,据说有美食。下次看心情接着侃循环。 雷: 真不贵 陈: 宁愿一亿给你 雷: 就是,将伟哥挖出来,一个亿的给!成立一个伟哥研究院 陈: viaga research institute 雷: 我们就朝着这个方向努力,把伟哥挖出来。这群藏龙卧虎的,想做的事定能实现! 是缘: 把伟哥资产证券化,大家认购。 雷: 这不,出措施了 我: 唉,人不能成为饭桶啊。本来想乘兴把这个语言学数据结构的循环的故事讲得深透一点, 结果回家饱餐一顿家常中华料理以后,就忘了哪儿哪儿了。早上开车上班的时候还觉得有一肚子演义呢。 雷: 莫急,慢慢就又出来了,我们等。 张: jobs说stay hungry原来是这个意思 我: 他还说过 stay foolish,悲天悯人呢,那是因为饱食者太笨了,饿其体肤者太聪明,不笨一些,这个世界就没有饭桶的活路了,jobs 菩萨心肠啊 【相关】 【泥沙龙笔记:NLP hard 的歧义突破】 【科普小品:文法里的父子原则】 乔氏 X 杠杠理论 以及各式树形图表达法 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4562 次阅读|0 个评论
《泥沙龙笔记:漫谈自动句法分析和树形图表达》
liwei999 2015-10-24 10:22
我: 关键是,一个 real life robust parser 可能不能把所有句子 parse 对,但是每个完整句法树中间可以分解为n个binary的依存关系,然后可以数一数这n个关系中有多少的查准率和查全率。因为实际上在使用的过程中,极少真地用到全树matching,用的都是子树matching (subtree matching),无论是SVO搜索还是SVO支持的图谱抽取,都是如此。在子树matching的时候,为了 robustness,通常也都是打散成 binary 去分头做matching的。在打散的过程中,一般会有一个 backoff 机制(从文法关系 backoff 到 proximity),来应对句法树的断链环节。正因为此,一个注定不能完美的 parser 才可以实用。另外,parser 并不立马达成理解,而是为理解创造一个结构化的、可以有pattern来涵盖的条件。事实上,parser 一般只是做句法的结构化而不是语义的深度理解,为的是 pattern 可以显示出来,为后去的 SVO search 或者 SVO 抽取服务。通常的理解发生在抽取或其他接近领域或应用的层面,因为在那个层面,理解的目标开始清晰,效果也可以测量。 我说 parsing 的技术已经成熟,并不是说它是完美的,而是说统计上可以达到90%,对付大数据足够好了。100 个 binary 的结构关系的话,无论precision 还是 recall,现在都可以达到90%左右。而且 robust,基本不管什么 input,包括社会媒体这样 monster。 雷: @wei 是不是可以单刀直入直取svo,事后修正? 我: 昨天你说 SVO 支持的知识图谱不太管用。其实,那是因为那个 SVO 没做好。我们自己的SVO去做知识图谱的抽取挖掘,无论中文英文,都是非常靠谱的。 雷: 是,SVO的准确性是关键,否则谬之千里。99%也背不住相乘几次。 我: 不需要完美的 parser 去做抽取,抽取层面可以弥补的。因为抽取的时候,可以用词来驱动,可以把规则写得有包容性。在词驱动的时候,因为节点是确定的,那么对于 parsing 的容错性就增强了。道理很简单,任何条件的宽松都可以内部调整来平衡。node 严一点,relation (arc)就可以寛一点。如果主语不小心做成宾语了,只要这种错误是可以预见的,就可以包容。 准确性已经达标了,至少在我这儿。Stanford 的那个 parser 也基本达标了,不过 parser 这东西没法用第三方的去做应用,大学出来的尤其没法用。 Philip: 不能产品化? 我: 第三方的基本不能产品化 没有见到成功的案例,没有做产品的。从内部调控、速度优化、robust 的考量等等,parser 是一个应该自己内部开发才好产品化的东西,这个工夫省不了。 Philip: 是个算法型的软件模块? 我: 可以这么说吧,总之有很多内部协调需要做,第三方的不好使。 雷: 算法加词知识库加规则库 毛: 有没有开源的项目? 雷: 有,英文的 毛: 叫什么? 雷: 好几种,Stanford,Berkeley,CMU,等等,NYU也提供 毛: 都是用于nlp的parser? 雷: 是。还有英国的,日本的 毛: 但是没有中文的? 雷: 中文也有。哈工大的。 毛: 也是开源的? 雷: 是 毛: 知道在哪下载吗? 雷: 都是统计学派的,我找到告诉你。 我: 统计派没法与规则派比parser,因为他们没的可玩。最多一个 penntree 这样的, labeled data 不是自然的对象,句法树是隐含的东西,你只能找语言学学生去手工标注,哪里成得了规模。没有数据,怎么玩出质量来。这是其一。其二是 penntree 这些行业标准实际上叠床架屋,定标准的时候就有很大的毛病。只不过做 NLP 的多数人都不是学语言的,没法去挑它的缺陷而已。加上只此一家别无分店,看到毛病也只好用它了。别说那乔姆斯基短语结构作为基础的树形表示有很大的缺陷,PennTree 连句法树的基础 POS 都有很多毛病、设计上的缺陷。譬如,介词与主从连词不区分,都标注为 IN,要有多愚蠢才会把这两个如此不同的东西混在一起(仅仅因为有几个小词既做介词又做主从连词)?另外,还有好多小词的分类完全没必要,徒增负担,扭曲研究重心。小词是可枚举的类,都是词典强制给的分类,过分细分没有好处。其实POS关键的就是名形动副大类,其他几十个小词的分类扭曲了 benchmarking 的注意力,从而误导了 POS 的研发。 雷: 请说明一下乔姆斯基短语结构的缺陷 我: 不逻辑,不国际,叠床架屋,引导规则系统做没必要的结构层的抽象。最后是不好用。每一条都可以写一长篇来论。 雷: 这个太笼统,请再具体一些。 我: 不过要睡觉了,快天亮了都。 雷: 哦,也是太晚了。留着话题,明天再听高见。再讨教。 我: 总之是,用 Penntree 及其标准是多数人没的选,行业标准就定错了,你不自己开发自己用的话,你只有屈从。简单说,就是依存关系最简洁好用。 雷: 我近来花了不少时间在PennTree上,希望多听你的意见。 我: 短语结构的主要价值是在短语那个层面,超出短语去做句子的结构的时候,短语结构就是个添乱的东西。即便在短语层面,短语内的关系仍然是依存的关系好用,不过是说,基本短语比起单个的短语中心词,在句法树的表达上构成了更好的句法单位(句素)。 X-bar 理论流毒甚广,莫名其妙地一味追求结构的 generalization,搞出什么 IP 之类的节点来,叠床架屋,唯此为大。也不好看,不好读,不好维护,一个结构搞得那么地深,一层套一层套那么多。其中很多层根本就没有内容,只是为了一个虚无缥缈的结构的generalization (或一味追求所谓 universal grammar)而人为设置的。 乔姆斯基真地对 NLP 多是负面影响,正面的很少看到。xbar 宗旨是所谓 UG,就是从结构分析的角度追求一个极致,看能不能在结构上统一世界,不惜加上很多人为的假设。 黄: 握个手,我也极其不喜xbar 白: xbar核心是,一切结构都是向心结构,最终负载在中心词上。有的向心结构是“吸收性的”,有些是“开拓性的”。吸收性的可以任意递归,开拓性的必须有坑的支撑,基本事不过三:左一下右一下,光杆司令再一下。所以,Xbar是反中心递归的。 都是左右递归,就好办了,复杂性不会超过FSA。 洪: 信息抽取用parsing, 不懂/没用全都扔。 语言分析究源本, 力图更多意味呈。 雷: xbar 缺点,给一个比较极端的例子 我: 我还跟我女儿讲解过这点。 Dad, can you explain Chomsky's X-bar Theory to me? 更多的xbar评论在我的博文:《 乔氏X 杠杠理论以及各式树形图表达法 》: QUOTE 因为我常常提到乔姆斯基,不少朋友以为我是乔迷。其实对这位语言学超级大佬,我一贯是敬而远之,把他当菩萨小心供着,但绝不亲近。一辈子做 NLP,从来不用他的理论,最多是取其个别概念,体系上与这位开创现代语言学主流的泰山渐行渐远。虽然他有数学出身的背景,还是计算机编译理论的奠基人,它那套语言学学说对于自然语言实践不好用、不灵光,有时误导,甚至让人走火入魔。 这两篇博文基本上回应了你的要求。 动词杠杠与名词杠杠就同构了,于是离 世界大同 近了一步。 那种所谓结构的 universals 没有实际意义, 因为是在有限的 category 中。 其实就是3个categories, 名形动追求所谓结构的一致性 ,为此不得不 虚设一些东西。 雷: xbar的目的是为了赋予短语一个结构, 而短语确实是有结构的。 xbar可以覆盖短语的所有结构。 如果我们把UG放在一边,单说结构,是不是这个理论可以覆盖短语的所有结构?因为短语也是可以不断扩展的。 我:(1)这是吃饱了撑的;(2)抽象的结果反而不好用。 其实,传统语言学中的 subcat 就可以覆盖所有的argument 结构(最多是 SVOC 四元),加上 modifier 和 adverbial 的结构,再有一个 Conjoin,也就齐备了。 可以用上述的依存结构去看世界, 比用 xbar 看世界精彩简洁多了。 关键在于 non-terminal node, 这是 PSG 和 DG 的根本不同。 PSG 理论上有抽象性 由于这个 nonterminal nodes。 因此 理论上可以更容易总结句型。 对于千变万化的句子,能够容易抽象出有限的句型来,有其功。 DG 因为全部是 terminal nodes,总结句型被认为比较难,虽然反映逻辑和语义的关系更加直接了当。 而 PSG 中乔氏 Xbar 更是其走向极端。 雷: @白 上面提到xbar可以有效地表征递归结构。 DG是直截了当的。 我: 乔老爷追求语言共性(language universals)和类似数学公式的符号表达法入魔, 理解他先必须接受他的一系列 assumptions,然后雾里看花一样地看到语言的世界大同。 雷: 但是如果要画出句法树来,有PSG作为Backup呢 我: QUOTE: 他那套短语结构句法树(phrase structure tree,见上图)既不精简也不好用,离关系语义和逻辑更远,比起依从关系结构树(dependentcy tree,见下图)差远了。不少自然语言学者用了他的形式化结构树以后,在使用前还不得不转换成依从关系树。这是何苦。 不幸的是,NLP 中最有影响的的人工标注的句法树库在宾大,叫 Penn Tree Bank,用的就是短语结构树。作为实际上的业界标准,Penn Tree Bank 迫使很多 parser 研究者不得不与这个难缠的短语结构树打交道。NLP 历史上尽出这些不好用但又不得不用的资源,另一个例子就是心理学家编制的对于NLP一点也不友好的 WordNet。 依从关系树长于揭示句法的或者逻辑的关系语义(Subject,Object,Complement,Modifier,Adverbial 等等),简明易懂,但缺点是在排除了中间层的 X 杠 non-terminal 节点 (XP or XG) 以后,句型失去了节点的抽象度。 雷: 长得好看的树还是PSG的。 我: 一点都不好看, 跟个悬空楼梯似的, 老觉得随时要塌下来。 雷: 只要顺着树,能摸着VERB,就能找着SUBJ,OBJ,等等, 也就能知道AGENT,PATIENT,等等。 由VERB找SUBJ和OBJ, 由SUBJ和OBJ,发现是什么ROLE。 我: 不过关于美,没的争。 哪里要顺着PSG树去摸S和O呢? 在DG tree, 从 TOP 往下不就直接摸到了么? 顺着任何一个老子,都可以摸到儿孙的枝枝蔓蔓,各种繁衍,一目了然。 这叫老子和儿子的语言学树。 你说说在 NLP 中,有什么是 PSG tree 表达出来的好用的东西,是 DG tree 没有的? 雷: 在我看来,两者是可以互相转换的,没有本质的区别。DG比较直接,容易理解,是词性语法。但是词性语法是不考虑到全局的。 我: 第二个问题,既然等价,用的时候基本上都用 DG,为什么要借用 PSG?逻辑的解释就是 PSG 建树更容易,所以作为桥梁。实际上的NLP原因是因为没的可选,世界上只有一个 PennTree。对于建立 tree 和 WordNet 这样吃苦的事儿,没人耗得起,只好将就用了。 雷: PSG是给人用的,DG是给机器的。人在标注句子时,同他们讲DG是不行的。这个就同ontologies与给人用的专业词典一样. 我: 恰好相反,标注DG比PSG简单多了,特别容易老妪能解。(几乎)任何人都能够理解 SVO,不就是 who did what 么?但是理解XP是很难的。你根本无法跟一个懂语言不懂语言学的人讲清楚什么叫 IP。所以 PennTree 这样的东西必须请语言学硕士博士去弄。当然,语言学学出来反正也找不到工作,请他们出来做苦力也是可以的。 雷: XP的语言学版本是比较晦涩的,但大致的意思+一些符号,用来标注是可以的。 我: 晦涩如果有好处 也就罢了,无论如何看不到好处啊。做了一辈子了NLP,也没看出它的好处来。无论是在句法的课堂上谈理论,还是在 NLP 的现场,都没有看到好处。 雷: 晦涩的部分涉及到UG,但是XP留下的一些符号和结构,还是被广泛使用的,即使在NLP领域。 我: 唯一的好处就是 乔氏给大家画了一个世界大同的饼,你顺着他的思路可以一直走下去 海市蜃楼一样觉得越走越近,有一种虚幻的满足感。但是不接地气啊。 雷: 乔氏的追随者是语言学家。NLP的工作人员非常实际,有用的留下,不好用的不理睬。 我: 话说这语言学里面有一门学问叫文法。学文法简单来说就是学画树。各种各样形态各异的树,表达了语言的多姿多彩,却万变不离其宗。奇妙啊。当年上帝怕人类同语同心去造通天之塔,乱了天地纲常,遂下旨搅乱了人类语言。印欧汉藏,枝枝蔓蔓,从此语言的奥秘就深藏不露。于是催生了一批文法学家,试图见人所不能见,用树形图来解剖语言的结构。 天机不可泄漏,泄漏者非神即仙。历史上有两位功力非凡的文法神仙专门与上帝作对,各自为语言画树,一位叫 Tesnière,另一位就是大名鼎鼎的乔姆斯基。 本来我们说话写文章都是一个词一个词往外蹦,这样出来的句子数学上叫线性一维。可这线性的东西到了文法家眼里就变了,一维变两维,线性变平面,于是产生了树形结构。上图的树就是我们训练出来的文法机器人( parser) 自动生成的,虽然并非完美无缺,倒也风姿绰约。 from 【 科普小品:文法里的父子原则 】 雷: 乔氏是不管语法是不是可以计算的,是不是NP问题。乔氏在儿童心理语言上还是非常有影响的,因为UG吸引着人们。 我: 你看看里面 parser 画的树: 有两大类树,都要倒过来画的,根朝上叶朝下,依据的是两种语言学理论,代表人物就是前面提到的神仙特氏和乔氏。上面的树就是特氏的依从关系树(dependency tree),它直接把作为文法基本单位的词与词串成树形。还有一种就是乔氏短语结构树(phrase structure tree),特点是在基本单位之间加了很多中介(non-terminal nodes),然后成形。 雷: 白老师概括的好:向心的,和有坑的,两种基本结构。任它有万千,基本节点就在这两种上演绎。 我: subcat 就是从老子给儿子预备的坑结构,modfier (包括 adverbial) 就是从儿子去寻找老子的向心结构。因此 modifier 无定数,有些野生的、边缘的、花边新闻的意味,永远进不了 argument 核心。 白硕: 有个别小词怪异,比如“的”。 雷: 乔氏总是想躲着语意走,不得已不用语意。DG为了计算,就是要把语意带进来。这个是两种人:语言学家,语言工程学家。 我: 从语义上看 argument structure 是绝对的纲,纲举目张。从语用上,其实 MOD (modifier,adverbial)往往更重要,在 MOD 里面的信息都是事件的细节(何时、何地、何因、如何等)。 argument 定义了事件的性质和主要参与角色,所有的细节都是 MOD 提供。 白: 细节:〈属性名,值〉对,属性可选不是必选,属性可不出现,如果由值可唯一确定。。 雷: CTB又延伸出CPB,就是又加了argument的角色部分。 白: 比如说红就知道是颜色的值,说辣就知道是味道的值。多一个少一个,都不影响大局。在框架里,是一个指针指出去然后姥姥不疼舅舅不爱的弃儿。 我: 那是数据结构表达的方式,unification 文法里面就特别的讲究和严格。结果是不堪使用,比Xbar还糟糕,包括HPSG。你看看他们的图示,普通的教科书的页面不够画一颗简单句的树,那种叠床架屋。当然你可以用 macro 去简约,然后你不得不在脑子里去还原那巨大无比的结构。 白: 让语义去搞啊,句法弄这干什么,知道是“吸收性的”向心结构就足够了。约掉、再约掉。 我: 说的就是啊。合一文法一派本质上是 PSG 的延伸,也到了走火入魔的程度。 雷: 词法+语意 能很容易分析出句子,但要抽象或概括,就弄出树。比如,短语可以无限扩展。 我: 你要什么样的抽象和概括?理论上的,还是实际管用的?理论上的标准太虚,没的好争,理论家为此吵翻天的多了去了,写了无数文章,说我的分析法(或模型)比你的分析法高明,因为更加 general blah blah。好像有个什么三原则,来判定一个理论系统的优劣。那些都是扯皮,在我看。 雷: 这么说吧,树有点像xml的格式,人看着很烦,但机器不烦。结构本身就含着信息。 我: 人看着烦,机器就烦,因为那个机器是要维护的,而维护的是人,不是机器。如果你做出了一个机器,打包成黑箱子了,当然就没这个问题了,其实不是这样。你对比一下两棵树,看看你愿意与哪种树打交道。 如果是从实践中看概括性,举一个 PSG 概括好的例子出来,我们可以验证一下,这个概括在 DG 中是不是不能体现? 你把这个句子“这线性的东西到了文法家眼里就变了,一维变两维,线性变平面,于是产生了树形结构”拿去用你用的PSG parser 来一下。 看看结果如何,先不说质量,我们只说表达法。看看你表达出来的格式还是不是(正常)人可以读(或容忍)的格式? 白: 我的要求特简单,就是给我意合的动作指一个结合方向就足够了。向左,还是向右。把所有非终结符做个矩阵就齐活了。剩下的语义来管。 刚才有个“浦东开发和建设”的例子,从语义看,开发和建设都带坑,浦东可以往里填。句法,尤其是POS在这个地方只会添乱。 我: 不分名词动词反而做得更好。汉语名动提前区分确实添乱,可以基本不区分。POS 不是显性形式,是一种人为标注(隐性形式),不是硬的句法。标注名词,动词,与标注人,动物,标注动作,行为,本质上一样,只是对词的标注的颗粒度不同。 白: 有没有坑,什么类型,更关键 我: 汉语的逻辑动词作为词典给定的 POS 基本上不需要在 POS 模块去改变句法的词性,除非有特别的理由,这一点与西方语言做法不一样。坑和类型都是细分类,细分类比粗分类管用,特别是汉语,这一点可以有共识。粗分类本来的好处是,可以有兜底的大规则利用它,可以多快好省地做出 parser 来。这一点在欧洲语言中体现得明显一些。POS based rules 一上去,就可以干掉一半的语言现象。S --》 NP VP; NP ==》 DT (Adj)* NN 这些都是玩具一样的抽象规则,可的确可以概括不少现象。可是到了汉语,这种粗线条就不管用了。汉语磨的是细活。我论过这个 parser 开发的区别: QUOTE 其实,真正做过西文处理也做过中文处理的同行应该不难认同上述看法。我说的是“真正”,对西文处理浅尝辄止的不算(浅尝辄止的包括NLP硕士课程中的语法形式化游戏:S: NP VP; NP: Det? Adj* NN+; VP: V NP?)。如果你比较深入地implement过一个英语分析器,针对的是大批量的真实语料,你会发现:英语的深入分析所遇到的难点需要调动很多手段,需要很细致的工作,而这些手段和工作也正是中文处理所需要的。我常常这样跟朋友说英语处理和中文处理的异同:如果你做硕士作业,导师给你一周做出一个语言处理系统能够处理50%以上的语言现象,在英语是可行的,在汉语是不可行的。因为你可以下载一个免费POS Tagger,在POS基础上编制一套粗糙的语法交差。然而,如果你要面对真实语料做一个实用的语言分析系统,如果英语需要开发N个月,调动 M 个手段,那么用同样的时间和手段,中文开发也大体可以到位。形象地说就是,中文这座山是陡坡,英文的坡则比较平缓,但是两座大山的高度其实是相差无几的。如果电脑爬坡只求到达山腰,在英文是比较容易的,在汉语则很难。然而,如果电脑爬坡的目标是山高80%以上的地带,所需资源和手段相差并不大。 from http://blog.sciencenet.cn/blog-362400-523130.html 雷: PSG tree: IP IP-SBJ NP-SBJ DNP DP DT 这 NP NN 线性 DEG 的 NP NN 东西 VP VV 到 AS 了 LCP-OBJDNP NP NN 文法家 NP NN 眼 LC 里 VP ADVP AD 就 VP VV 变 AS 了 PU , IP QP-SBJ CD 一 CLP 维 VP VV 变 QP-OBJ CD 二 CLP 维 PU , IP NP-SBJ NN 线性 VP VV 变 NP-OBJ NN 平面 PU , IP ADVP AD 于是 NP-SBJ NONE *PRO* VP VV 产生 AS 了 NP-OBJ NN 树形 NN 结构 我: 哈哈,这玩意儿你不写个程序转成 DG,谁看得清啥意思啊? 不过,其实 parse 质量不错,这是哪家的,哈尔滨的? 雷: 我已经不能辨别了。要找一个第三者来说。我陷入太深。 雷氏的。 我: 结构基本没错,质量超出我的预期。 行啊,你自己的就行。因为第三方的即便是同样的质量,也难以用于开发。自己的就好办。我好奇的是你怎么用它,是不是在用的时候,先转成 DG 表达?很难想象可以直接在 PSG 上去做有效率并且好维护的操作来。譬如 SVO search 是在 DG 上 search 还是在 PSG 上直接 search? 雷: 先DG,再通过转换,生成这个 我: 那就没道理了,先DG就DG不就得了。 雷: 就是为了好看,没有别的。 我: 问题是不好看,特别难看。为了与同行做 apple to apple benchmarking 可能需要,这是唯一的理由。 雷: 同CTB。这个是口味问题。 我: 好看确实是口味问题。但是容易理解不是。你拿这个树给人看,如果没学过语言学的,她是看天书。 雷: 我挺喜欢PENN的说明的。也试图用于训练实习生。 我:而 DG,稍加讲解,一般人都能看懂。 雷: 这个也是的,trust me,不是很难理解,但是要有好的视图工具,可以把节点关闭。 我: 那倒是 雷: UIUC有一个特别漂亮的NLP demo,把树与语意用图表示得特别清楚,真是在显示上下了功夫。 我: 既然是等价,也就没的好争优劣了,萝卜青菜。 雷: 关键还是在词法和语意上,@wei 你睡不睡觉?好像你没有多久就出来了 @毛 http://www.ltp-cloud.com/ 这个是哈工大的开源NLP 我: 我是一早就醒,夜里睡不着,白天打瞌睡 一句话,老了。 【相关】 【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】 【立委科普:语法结构树之美】 【立委科普:语法结构树之美(之二)】 【科普小品:文法里的父子原则】 乔氏 X 杠杠理论 以及各式树形图表达法 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|9390 次阅读|0 个评论
【科普小品:文法里的父子原则】
热度 5 liwei999 2013-8-6 23:10
语言学听上去既文傻,也枯燥,学完了还找不到工作,可真学进去好玩的事儿多着呢。今天就讲一桩,叫老子和儿子的语言学。本来是讲给实习生听的,他/她们琢磨 PP-attachment 正困惑呢。故事讲完了,乘兴就写出来吧。徒吾徒,以及人之徒,许是功德一枚。 乔神仙(Noam Chomsky) 特神仙(Lucien Tesnière) 话说这语言学里面有一门学问叫文法。学文法简单来说就是学画树。各种各样形态各异的树,表达了语言的多姿多彩,却万变不离其宗。奇妙啊。当年上帝怕人类同语同心去造通天之塔,乱了天地纲常,遂下旨搅乱了人类语言。印欧汉藏,枝枝蔓蔓,从此语言的奥秘就深藏不露。于是催生了一批文法学家,试图见人所不能见,用树形图来解剖语言的结构。忘了第一个画树的人是谁,感觉上这不是人力可为。天机不可泄漏,泄漏者非神即仙。历史上有两位功力非凡的文法神仙专门与上帝作对,各自为语言画树,一位叫 Tesnière ,另一位就是大名鼎鼎的 乔姆斯基 。 本来我们说话写文章都是一个词一个词往外蹦,这样出来的句子数学上叫线性一维。可这线性的东西到了文法家眼里就变了,一维变两维,线性变平面,于是产生了树形结构。上图的树就是我们训练出来的文法机器人( parser) 自动生成的,虽然并非完美无缺,倒也风姿绰约。最可爱的是,这机器文法学家玩这一维变两维的游戏是乐此不疲,只要你源源不断送文章给它,它就没完没了地给你画树玩儿。这要是人可就要小心了, 这玩意儿不能入迷,入迷了看什么都是树,最后在森林里面湮没,也不是不可能的。 有两大类树,都要倒过来画的,根朝上叶朝下,依据的是两种语言学理论,代表人物就是前面提到的神仙特氏和乔氏。上面的树就是特氏的依从关系树(dependency tree),它直接把作为文法基本单位的词与词串成树形。还有一种就是 乔氏短语结构树 (phrase structure tree),特点是在基本单位之间加了很多中介(non-terminal nodes),然后成形,这种树此处不议,略过。这里画的都是依存关系为主的树,只是有些树的节点上保留了一些短语结构的痕迹(譬如 NP,PP 等),有时候叫作 混合树 (hybrid tree)。 依从关系文法里面有一条著名的君君臣臣父父子子的原则,说的倒也是大白话: 一个孩子最多只有一个老子,老子则可以有 0-n 个孩子 。 其实,孩子当然可以有多个老子,譬如乔布斯就有两个老子,一个生父,一个养父。但是从法统上,只能有一个。这个法统在文法上就有了体现。比较下面这两个英文句子: We asked him to leave immediately We asked that he leave immediately 这两句的用词以及意思都差不多(有细微差别),但句法却不同。从深层的逻辑意义上说,he/him 既是 asked 的宾语,也是 leave 的主语。可是文法不答应,它要遵循一个孩子最多一个老子的原则。为此,第一个句子使用的句型采用了两个文法手段,一是用宾格来强调 him 是宾语,不是主语;二是用不定式(带to的动词)来切断主语谓语的可能瓜葛(英语不定式不能做谓语)。同理,第二个句子用了另外一种句型,采用了另外两个手段:一是增加了从句小词 that 来切断 he 作为 asked 宾语的可能性;二是用主格 he 来表达它的谓语老子是 leave(虚拟式谓语,不用 s)。图示如下(S表示主语,O是宾语,Com是补足语,Adv是状语,Mod是定语,Cl是从句): 这是执行这项父子原则时手段黑白分明的情形。但是自从语言被上帝弄乱了以后,手段有时候不够使唤,譬如主格宾格的手段只在代词(而且 it/you 还除外)身上显现,到了名词(譬如 John)身上就指靠不上了:We asked John to leave immediately vs We asked that John leave immediately,好在还有小词 to 和 that 在那里罩着,隐约还可看到主谓(that John leave)区分于动宾(asked John to...)的形式痕迹。可是到了汉语这些小词全没了,上面两句翻译过来就一样了,主语宾语还怎么区分呢? 我们请他立即离开。 汉语学家于是创造了一个特别的术语叫“兼语” (兼做主语和宾语) ,正式认可了这种违反原则的语言事实: 可见凡是叫做“原则”的东东就是一条超大的规则,上有规则下有例外是语言常态,因此违反原则的事并不鲜见。 汉语出兼语,就不讲原则嘛!头脑里怎么想,就直通通出来,也不穿一套文法西装(词尾、小词之类的手段)遮挡一下暧昧关系,闹得主宾混淆,显得远不如欧洲语言严谨。 认真想来,父子原则其实说的是角色定位的法统唯一性,你做了张三的儿子,就不能当李四的儿子。你是谁的宾语,就不该再做其他词的主语,不要脚踩两条船,否则容易引起误会。如果遇到一种说法,单单从形式模式上无法区分是谁的儿子,那就是歧义结构,对应两颗不同的树, 有两个不同的意思 。西方语言中最知名的歧义结构叫做介词短语找老子(PP-attachment)的问题,它的形式模式是:V + NP + PP,其中介词短语 PP 的老子既可能是名词短语 NP,也可能是动词 V。譬如: They saw the girl with the telescope. 歧义结构不违反原则,反而支持了这项原则。说明根据原则画的句法树可以把隐含的结构歧义清晰地表达出来。上述例句赶巧有双关语(pun)的特性,在句子层面两种意思的可能都存在( 用望远镜看姑娘 vs 看那戴望远镜的姑娘 )。多数情形是,文法层虽然有两种可能性,但语义配搭上却只有一种解读(语义消歧),譬如: They saw . They with a hammer]. 这就跟三角恋爱一样,恋爱层面有三个角色(V,NP,PP)两组关系(『V,PP』,『NP,PP』),可通常只能有一种婚姻关系。谁与谁结合,决定于相互的吸引力(semantic coherence,语义和谐度,俗话叫谈得来)。显然,『the nail, with a hammer』的气味不相投,根本无法与『hit, with a hammer』比,前者的语义( 带着锤子的钉子 )不搭配,远不如( 拿着锤子去砸 )自然然贴切。 同理, 在『the girl, with a hat』与『saw, with a hat』的较量中,前者更加般配,后者不 make sense。 仔细研究可以发现,所谓父子原则不过是在文法层次用归纳法总结出来的一种统计上带有一定普遍性的趋势,在逻辑语义的深层(大脑思想里)并没有这条约束。客观世界里面,绝少一个实体只充当一个角色。张三在父亲面前是儿子,在儿子面前是父亲,在公司是老总,在太太面前是丈夫兼车夫,等等。 思想是客观世界的反映, 所以多角色在语义上没有问题。那么为什么语言中常常强加这么一种文法的原则性,规定只能有一种合法角色?一种解释是,角色可以多,但在法理上应该只有一个为主,天无二日,世界太平。这叫好比某官员有隐藏的小三甚至小四在金屋里,可法理上的配偶只有一位,否则就违反原则,不成体统。 【补记】 又想了一下这个问题,我本来的解说的对的,后来为了趣味性,carried away,文末几句有误导了,应该修正 作者: 立委 日期: 08/07/2013 14:14:40 这个语言学文法结构的父子原则是由语言的交流本质决定的。一般而言,一个儿子一个老子的结构是没有歧义的,因此适应了语言交流的需要。如果语言中满是一子多父的情形,那么人理解语言将遇到重重歧义的困境,交流怎么能顺畅。 什么天无二日,脚不能踩两只船,小三小四不合法等等“法理”都是为了趣味牺牲了实质的笑话,不能当真。 看样子,科普写作要防止不小心为了乐趣不知不觉就牺牲了正确性的做法。 再进一步说,虽然大千世界里同一个实体可有多个角色并与其他实体发生多种关系,然而当语言在反映(描述)这些角色和关系的时候,仍然基本遵循一子一父原则。其中的道理就是,文法是针对语句的,而不是针对篇章(discourse)的。一个被提到的实体在一个句子的有限范围内,通常只扮演一个角色,描述一种关系(例外自然是有的,譬如汉语中的兼语现象,但这类例外属于语言中少数现象)。要想反映实体世界的多重关系,人常用由多语句组成的篇章来描述。 人类的交流过程就是利用自然语言这个通讯工具(vehicle)编码与解码的过程。严谨的语言工具提供种种形式化手段(如,前后缀、小词、词序等)和文法范畴(如,格、数、人称、时态、语态及其一致关系),限制编码过程中歧义的产生,这样受众在解码的时候就可以比较容易理解说话人想表达的意义,达成交流的目的。也正是在这样的一个人类交流的背景下,才有文法中父子原则的自然显现和贯彻。父子原则 有很多语言事实支持它,于是上升到原则,为语言学家所乐道。 【相关篇什】 乔氏 X 杠杠理论 以及各式树形图表达法 【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|10412 次阅读|5 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-15 09:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部