科学网

 找回密码
  注册
科学网 标签 句法 相关日志

tag 标签: 句法

相关日志

《语言形式的无中生有:从隐性到显性》
liwei999 2020-5-13 04:51
话说华裔语言学泰斗赵元任先生曾经有过一个游戏名作,通篇只用同一个音,讲了这么个故事,天下人无不叫绝。 《施氏食狮史》 石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。 这是比较浅白的文言文,读起来拗口,看懂这篇并不难。俏皮在通篇只有一个音节 shi,但对应了文言中不同的汉字。文言文汉字基本上就是一个独立语素(有意义的最小单位),属于孤立语,没有形态,虚字也极少用。文句主要就是靠实字概念之间的相谐(所谓“意合”)以及语序来表达内容,使人看得懂。 如果我们假设每个汉字对应一个确定的概念(多义汉字可以假设通过二字组或三字组来消歧),那么通过这些概念在西方语言中的词汇对应物及其组合成句的对比,我们就可以把孤立语与形态语之间的句法区别凸显出来。想来做一下这个练习会很有意思的,因为我们可以揭示语言的奥秘之一:无中生有。 这个对比练习最令人启发和好玩的地方,是做文言文与世界语(Esperanto)的对比,因为世界语实词的形态变化有两大特点:第一是形态词尾不可省略(起码词类词尾对于实词是必须存在的,不允许零形式);第二所有的形态变化是100%规则化的。这就会凸显形态这种词尾形式和小词这种形式怎么冒出来的。 咱们先建一部双语词典,让相同概念的实词一一对应: 石:ŝton / 室:ĉambr / 诗:poem / 士:ist / 施:Shi / 氏:S-ro / ,嗜:hobi / 狮:leon / ,誓:promes / 食:manĝ / 十:dek / 狮:leon / 。氏:S-ro / 时:temp / 时:temp / 适:ven / 市:merkat / 视:vid / 狮:leon / 。十:dek / 时:hor / ,适:ĝust / 十:dek / 狮:leon / 适:ven / 市:merkat / 。是:tiu / 时:temp /,适:ĝust / 施:Shi / 氏:S-ro / 适:ven / 市:merkat / 。氏:S-ro / 视:vid / 是:tiu / 十:dek / 狮:leon /,恃:fid / 矢:sag / 势:potencial /,使:kauz / 是:tiu / 十:dek / 狮:leon / 逝:forlas / 世:mond / 。氏:S-ro / 拾:kolekt / 是:tiu / 十:dek / 狮:leon / 尸:korp / ,适:ven / 石:ŝton / 室:ĉambr / 。石:ŝton / 室:ĉambr / 湿:malsek /,氏:S-ro / 使:kauz / 侍:servist / 拭:viŝ / 石:ŝton / 室:ĉambr / 。石:ŝton / 室:ĉambr / 拭:viŝ /,氏:S-ro / 始:ek / 试:prov / 食:manĝ / 是:tiu / 十:dek / 狮:leon / 尸:korp /。食:manĝ / 时:temp /,始:ek / 识:kon / 是:tiu / 十:dek / 狮:leon / 尸:korp /,实:fakt / 十:dek / 石:ŝton / 狮:leon / 尸:korp / 。试:prov / 释:klarig / 是:tiu / 事:afer /。 我们做语言对比的目的是考察完全不同类型和语系的语言之间,语言形式的不同是如何体现在组词造句的句法上,来帮助我们表达、理解和翻译的。因此,我们把多义字(词)的问题先放在一边,假定只有一个词义。但实际上不少字是有歧义的,即便在本篇中,也还有几个相同的字,意义不同(从而词类和用法也不同)。不过,这个问题可以用二字组(bigrams)来解决。本篇中需要用到的二字组有5条就够了: 施Shi / 氏S-ro --》S-ro Shi (倒装) 时temp / 时temp --》 tempo-al-tempo;de tempo al tempo 适ven / 市merkat --》 venas merkaton;venas al merkato 十dek / 时hor --》 dek-horon;je la dek horo 逝forlas 世/mond --》 forlasas mondon;forlasas la mondon Ŝtonoĉambre poemisto S-ro Shi, hobias leonojn, promesas manĝi dek leonojn. S-ro tempo-al-tempe venis merkaton vidi leonojn. Dek horon ĝuste dek leonoj venis merkaton. Tiu-tempe ĝuste S-ro Shi venis merkaton. S-ro vidis tiujn dek leonojn, fidis sagopotencialojn, kauzis tiujn dek leonojn forlasi mondon. S-ro kolektis tiujn dek leonokorpojn, venis ŝtonoĉambron. Ŝtonoĉambro malsekis, S-ro kauzis serviston viŝi ŝtonoĉambron. Ŝtonoĉambro viŝinte, S-ro ekprovis manĝi tiujn dek leonokorpojn. Manĝtempe, ekkonis tiuj dek leonokorpoj faktis dek ŝtonoleonajn korpojn. Provu klarigi tiun aferon. 实际上等价于: 石o室e 诗-士o 氏o 施/NNP,嗜as 狮ojn,誓as 食i 十/Num 狮ojn。氏o 时时e 适as 市o 视i狮ojn。十/Num 时-on,适-e 十/Num 狮oj 适as 市on。是/DT 时-e,适-e 氏o 施/NNP 适is 市on。氏o 视is 是/DT 十/Num 狮ojn,恃is 矢o势ojn,使is 是/DT 十/Num 狮ojn 逝i 世on。氏o 拾is 是/DT 十/Num 狮o尸ojn,适is 石o室on。石o室o 湿is,氏o 使is 侍on 拭i 石o室on。石o室on 拭inte,氏o 始-试is 食i 是/DT 十/Num 狮o尸ojn。食-时e,始-识is 是/DT 十/Num 狮o尸oj,实is 十/Num 石o狮ajn 尸ojn。试u 释i 是/DT 事on。 Ŝton-o-ĉambr-e poem-isto S-ro Shi, hobi-as leon-ojn, promes-as manĝ-i dek leon-ojn. S-ro temp-o-al-temp-e ven-as merkat-on vid-i leon-ojn. Dek hor-on ĝust-e dek leon-oj ven-is merkat-on. Tiu-temp-e ĝust-e S-ro Shi ven-is merkat-on. S-ro vid-is tiu-jn dek leon-ojn, fidis sag-o-potencial-ojn, kauz-is tiu-jn dek leon-ojn forlas-i mond-on. S-ro kolekt-is tiu-jn dek leon-o-korp-ojn, ven-is ŝton-o-ĉambr-on. Ŝton-o-ĉambr-o malsek-is, S-ro kauz-is servist-on viŝ-i ŝton-o-ĉambr-on. Ŝton-o-ĉambr-o viŝ-inte, S-ro ek-prov-is manĝ-i tiu-jn dek leon-o-korp-ojn. Manĝ-temp-e, ek-kon-is tiu-j dek leon-o-korp-oj fakt-is dek ŝton-o-leon-ajn korp-ojn. Prov-u klarig-i tiu-n afer-on. 世界语形态很简单: o 名词词尾,e 副词词尾,as 谓语现在时,ojn 名词-复数-宾格,i 不定式,on 名词-宾格,is 谓语过去时,inte 副词-主动-完成体,oj 名词-复数-主格,u 谓语命令式 那这些形态是怎么来的呢? 形态原文根本就没有,这是在翻译过程中“无中生有”的,否则就不符合世界语文法,也无法正确表达原文的结构内容。可以问:中文没有这些形态,不也是一样表达吗?凭什么知道它表达的,正好对应上面的形态呢?答案是,中文用的是隐性形式,而世界语的形态是显性形式。在我们用具体例句讲解隐性形式在文法上是如何工作的之前,我们再看看世界语的另外一种形式,所谓分析形式,是如何表达这一篇故事的。前面译文采用的语言形式是所谓综合语言的形态形式,世界语也可以更多依赖小词,采用所谓分析语言形式来表达,结果大致是这样的: En la ŝtonoĉambro, la poemisto S-ro Shi hobias leonojn, kaj promesas manĝi dek leonojn. S-ro de tempo al tempo venis al merkato por vidi leonojn. Je la dek horo, ĝuste dek leonoj venis al merkato. Je tiu tempo, ĝuste S-ro Shi venis al la merkato. S-ro vidis tiujn dek leonojn, fidis sagopotencialojn, kaj kauzis tiujn dek leonojn forlasi la mondon. S-ro kolektis tiujn dek leonokorpojn, venis al la ŝtono-ĉambro. La ŝtonoĉambro malsekis, kaj S-ro kauzis serviston viŝi la ŝtonoĉambron. Kiam la ŝtonoĉambro estis viŝinta, S-ro ekmanĝis tiujn dek leonokorpojn. Je la manĝtempo, li ekkonis ke tiuj dek leonokorpoj fakte estas dek ŝtonoleonaj korpoj. Provu klarigi tiun aferon. En la 石o室o 诗-士o 氏-o 施/NNP,嗜as 狮ojn,kaj 誓as 食i 十/Num 狮ojn。氏o 时时/de tempo al dempo 适is al 市o por 视i 狮ojn。Je 十/Num 时o,适-e 十/Num 狮oj 适is al 市o。Je 是/DT 时o,适e 氏o 施/NNP 适is al la 市o。氏o 视is 是/DT 十/Num 狮ojn,恃is 矢o势ojn,使is 是/DT 十/Num 狮ojn 逝i la 世on。氏o 拾is 是/DT 十/Num 狮o尸ojn,适is al la 石o室o。La 石o室o 湿is,kaj 氏o 使is 侍on 拭i la 石o室on。Kiam la 石o室o estis 拭inta,氏o 始-试is 食i 是/DT 十/Num 狮o尸ojn。Je la 食-时o,始-识is ke 是/DT 十/Num 狮o尸oj,实e estas 十/Num 石o狮aj 尸oj。试u 释i 是/DT 事on。 (En la) ŝtono-ĉambro poemisto S-ro Shi hobias leonojn, (kaj) promesas manĝi dek leonojn. S-ro (de) tempo (al) tempo venis (al) merkato (por) vidi leonojn. (Je la) dek horo, ĝuste dek leonoj venis (al) merkato. (Je) tiu tempo, ĝuste S-ro Shi venis (al la) merkato. S-ro vidis tiujn dek leonojn, fidis sago-potencialojn, (kaj) kauzis tiujn dek leonojn forlasi (la) mondon. S-ro kolektis tiujn dek leono-korpojn, venis (al la) ŝtono-ĉambro. (La) ŝtono-ĉambro malsekis, (kaj) S-ro kauzis serviston viŝi ŝtono-ĉambron. (Kiam la) ŝtono-ĉambro (estis) viŝinta, S-ro ek-manĝis tiujn dek leono-korpojn. (Je la) manĝ-tempo, (li) ek-konis (ke) tiuj dek leono-korpoj fakte (estis) dek ŝtono-leono-korpoj. Provu klarigi tiun aferon. 其中用到的世界语小词是:en (in),la(the),kaj(and),de(from/of),al(to),por(for,in order to),je(at/in/about),dek(10),S-ro(Mr/Sir),tiuj(these), estas (is/am/are), estis(was/were) 我们以第一句为例:“石室诗士施氏,嗜狮,誓食十狮。” 相当于: (En la) 石-o-室-o 诗-o-士-o 施/Shi 氏/S-ro,嗜-as 狮-ojn, (kaj) 誓-as 食-i 十/Num 狮-ojn. 好玩吧,概念不变,里面多出了很多文法形式和小词。原文没有,为什么要加?怎么加?为什么加了才是对的? 前面说过,文言是孤立语,缺乏显性形式手段,它的文法关系是隐藏在词内部的“隐性形式”,通过揭示这些隐性形式,我们可以知道是什么语法关系,到了目标语,又该用什么显性语言形式。 自动句法解析例示如下,第一张是所谓短语结构句法树(PS tree),第二张是分析更加深入的依存关系结构图(DG graph): “石/室/诗/士/施/氏” 这头6个字都是名词 N,虽然没有 -o 这样的形式。怎么知道的,这是词所对应的词义概念决定的。在我们头脑里面是有词典记忆的,如果建立词典的话,N 这样的词类特征就在词典里面了。可见所谓隐性形式,就是词典里面的藏在词背后的东西。词类是一种,更多的词的子类也是隐性形式,也是查词典可以得到的。 下一个问题是,6个名词串在一起,怎么知道它们之间的关系,又怎么知道它们在句子中的角色,从而知道世界语该如何合法组织它们呢? 第一条规则是,单字名词与单字名词在一起,经常是先组织成合成词。(这叫词法双音化倾向,当然有例外,但很多时候是这样。)于是,我们把6个字变成三个合成词::石室 / 诗士 / 施氏。 到了世界语,N 与 N 怎么联系为合成词呢,通常加 -o- 连。如果后面的N是后缀,或者前面的N是前缀,则不用加 o,而 -ist(者/士)正是后缀。最后两个字有一个小规则,就是:百家姓(这是隐性形式,查词典可得)+ “氏” 组合成人的专有名词,这种组合到了世界语正好要倒过来: X+氏 --》 S-ro X 为什么两种语言表达人名与称呼的词序不同(词序本身也是语言显性形式)?没有道理,就是两个语言在这方面习惯不同。把它当成语言之间的转换规则记住就好了。 这样一来,这6个字的词法(组合成词)都有了表现的形式: 石-o-室-? 诗-士-? 氏/S-ro 施/Shi 前面两个合成词后面的问号表示世界语还需要确定用什么形态(或小词)来把合成词之间的关系,或合成词在句子中的角色搞清楚。通常名词组合的合成词默认就是 -o,但有例外,这个例外也是隐性形式决定的。 这样讲下去太累了,虽然也不知道如何才能既简单也能讲清楚语言的奥秘。所有在这里讲的过程,都可以在电脑上实现。也就是说,这里的讲的隐性形式最后转换成世界语的合法的形态和小词形式,都是一个完全透明可以一步步机械实现的过程。句法为基础的“经典式”机器翻译当年就是这么做的。(最新的机器翻译不是这样做的,是用所谓神经网络算法,纯粹从大量的平行翻译语料死记硬背模仿出来的,这话先放下。) 好,运用了专有名词组合的小规则以后,我们就有了: 石-o-室-? 诗-士-? 施氏/S-ro Shi 第一个合成词与第二个合成词可以有三种结合方式:一种是第一个修饰第二个(做定语),于是第一个用形容词词尾 -a,第二个用 -o,这是最常见的默认的“定中式”名词组合: (1)石-o-室-a 诗-士-o 施氏/S-ro Shi 另一种结合方式是, 遇到 “地点名词/时间名词”(这是名词的子类,也是词典里面可以记录的隐性形式)在句首的话,我们可以认为它是状语,而不是前面说的默认的定语。状语在世界语有两个形式:一个是用副词词尾 -e表示,一个是用介词 je(或 en ),于是我们有了第二种和第三种译法: (2)石-o-室-e 诗-士-o 施氏/S-ro Shi (3)en 石-o-室-o 诗-士-o 施氏/S-ro Shi 把上面三种译法替换成实词对等物,于是我们有了这个片段的世界语: (1a)ŝton-o-ĉambr-a poemist-o S-ro Shi (2a) ŝton-o-ĉambr-e poemist-o S-ro Shi (3a)En ŝton-o-ĉambr-o poem-ist-o S-ro Shi 如果用分析形式(3a),最好适当加上冠词: (3b):En la ŝton-o-ĉambr-o la poem-ist-o S-ro Shi 冠词怎么加就不细说了,总之有些微妙,好在是可加可不加的。 这句后面还有几个字:“......, 嗜狮,誓食十狮”。 查了词典,我们知道它们各自的词类: 嗜V 狮N ,誓V 食V 十Num 狮N,名词外,也出现动词 V,数词 Num 了。动词后面跟名词,通常就是宾语,要用 -on 或 -ojn;数词(除了1)后面跟名词必须要用复数形式 -ojn。动词本身默认是现在时态 -as(讲故事情节的时候,最好改用过去时态-is)。两个动词连用的时候,后一个动词通常变成不定式 -i(严格地说这是由前一个动词的子类决定的)。于是我们就有了: 嗜-as 狮-ojn ,誓-as 食-i 十Num 狮-ojn 把实词换成世界语的等价概念,于是我们就“无中生有地”生成了合法的世界语翻译: (1) ŝtonoĉambra poemisto S-ro Shi,hobias lionon, promesas manghi dek leonojn. (2)ŝtonoĉambre poemisto S-ro Shi,hobias lionon, promesas manghi dek leonojn. (3)En ŝtonoĉambro poemisto S-ro Shi,hobias lionon, promesas manghi dek leonojn. 后面的句子都可以如法炮制。就是说,词典里面记录的词概念的词类、子类特征越丰富,我们就有了隐性形式的充足依据,拿它作为条件,根据上下文实词的组合,就可以指明世界语需要添加什么形态和小词,就可以用这些貌似无中生有的语言形式,表达隐藏在文言中的句法关系和语义逻辑,从而实现形式不同,但内容一样。 最后说一下,到底是中文文言这样的隐性形式好,还是用形态和小词把关系都挑明了好?当然是后者更胜一筹。小葱拌豆腐,一清二白呀。当然你也可以说,对于中文为母语者,也没觉得利用隐性形式,通过头脑里面看不见的词典记忆,组词造句是个负担。的确如此。但是对于其他语言来学中文的人,这不就要人命吗(语言天才例外)。对于机器分析和理解,也难得多。做一套世界语的电脑解析系统,一个星期妥妥的,做一个文言的解析系统,几年也不一定能做好呢。复杂度天壤之别。 好了,这次分享比开始想象的长多了。希望对于感兴趣的同好们,能有个启发。也在讲故事的过程中了解一下传统机器翻译的背后原理。也顺便普及一下世界语的文法概貌。 【相关】 《 语言形式漫谈 》 世界语论文钩沉:世界语的语言学特点(2/3) Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto 《 立委:一小时学会世界语语法 》 硕士论文:世界语到汉语和英语的自动翻译试验 立委硕士论文全文(世界语版) 《朝华午拾:shijie-师弟轶事(3)——疯狂世界语》 灵感有如神授,巧夺岂止天工 立委世界语论文(1986):《国际语到汉语和英语的自动翻译》 立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》 【语义计算:李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|2942 次阅读|0 个评论
【一日一析:"这帮饿鬼吃一席好菜"】
liwei999 2018-12-3 03:56
【一日一析:这帮饿鬼吃一席好菜表层句法形式变化,深层逻辑形式不变】 这也是老生常谈了,从上世纪50年代乔姆斯基的表层结构深层结构的转换就开始了。但这的确是自然语言最突出的特性:一个意思有多种(几乎)等价的表达。例如: (1a)这帮饿鬼把一席好菜吃得盆干碗净 (1b)这帮饿鬼一席好菜吃得盆干碗净 一字之差,中文句法解析完全不同。 介词“把”字的省略,造成了两个名词短语相邻,所以句法解析可能就走不同路径了。这是中文语法学界讨论蛮多的话题句式,第一个NP是话题 Topic,很像一个句子的大主语。第二个NP才是主语,也有语言学家分析说是个“小主语”,它与动词短语结合在一起,作为大主语的大谓语。无论句法上解析为大小主语也好,大小谓语也好,或者话题加单句也好,但是说来归齐,这种省略了“把”的句子与没省略“把”字的句子,说的是一个意思。因此,逻辑语义深度解析还是要统一到同样的逻辑形式(logical form)表达的。这正是我们深度解析(deep parsing)需要做的工作。下图的依存关系图是我们目前中文深度解析器的最终输出结果,就是上述逻辑形式的统一表达。 类似的,“被”字也可能省略。除了把字句和被字句外,其他句法形式还包括重叠式与得字结构。这些都是汉语句法讨论过很多年的语言现象。 (2a)一席好菜被这帮饿鬼吃得盆干碗净 (2b)一席好菜这帮饿鬼吃得盆干碗净 (3a)这帮饿鬼吃一席好菜;这帮饿鬼吃得盆干碗净 (3b)这帮饿鬼吃一席好菜吃得盆干碗净 【图例】 S: Subject; O:Object; B: Buyu; M: Modifier; X: Purely functional; Z: Functional 【相关】 《一日一析系列》 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|2688 次阅读|0 个评论
【李白宋90:语义计算中句法与逻辑与语用的纠缠】
热度 1 liwei999 2018-2-1 15:13
宋: @wei 张三是打李四的凶手。其中,张三一打,是一凶手,两个依存关系交叉,你是怎样处理的? 白: 凶手有个X坑,动名皆宜。 宋: @白硕 这个坑的语义是什么? 白: 使其成为凶手的事件 李: “张三是打李四的凶手”的问题,这是句法与逻辑的纠缠,不在一个层次。“是” (表示上下位关系,taxonomy)与“的”(表示所属或限定的关系)在逻辑上没有节点地位,只有关系意义,纯粹是一个句法形式,是一个小词。因此,逻辑上的关系没有依存交叉,逻辑上,“张三” 与 “凶手” 发生 ISA (上下位)关系,“张三” 与 “打” 发生逻辑主语关系。这不是交叉 而是同一个起点。见下图: 【SV: 张三,打】 【VO:打,李四】 【限定:打(李四),凶手】 【ISA:张三,凶手】 这四个 binary 的逻辑依存关系没有交叉。反映了本句的逻辑语义,“是”,“的”,都是小词,没有作为节点的逻辑地位。 Me: 至于句法的依存结构,那是另一个平面的事体: 白老师所说的“凶手”挖了个【刑事案件】的坑,用得好的话,可以帮助句法消歧:因为 “打李四的凶手” 有一个句法歧义在:“打”的是“李四”,还是“凶手”?从“打人” 的本体知识,可以得知打人属于刑事案件(寻衅滋事),正好填“凶手”的坑,比“李四”更加合适。但其实要真用上这个知识,无论是经过常识推理,还是利用大数据的语义相偕的统计,里面还有不少沟沟坎坎,并不是那么容易。其他的消歧的 heuristics 也有,似乎更好用。 “打李四的二儿子的凶手”,“打” “李四”,“打” “二儿子”,还是“打” “凶手”? 白: 匹配这种X的原则:1、S优先;2、如果是N,表“事件”的类别名词优先。二儿子二者都不是,优先级最低。“打李四的黑社会团伙的凶手”有歧义了。凶手属于团伙、团伙属于李四的可能性存在。这种解释下,“凶手”的坑仍未填上,且处在“挨打”境地。关键是,“黑社会”、“团伙”、“凶手”负sentiment一致,搞成一伙很顺,偏要黑吃黑很拧巴。坑填上了,sentiment却拧巴,这不好接受。 李: 在 “打 【human-1】的…………【human-m】的【human-n】”的模式里面,“打” 最不可能的宾语是 【human-n】,虽然理论上不能排除。排除其他知识,“打” 最可能的O 是 【human-1】,打嘛,打不了那么远。动宾有某种就近原则的 heuristic 在。但是,如果 【human-1】的【human-2】里面,【human-2】有个很大的坑,需要一个【human】所有者,麻烦就来了:“二儿子” 恰好是 这么一个 【human-2】,他一定有个“老子” 的坑。除了孙猴子,没有老子的儿子是不存在的。于是,“二儿子” 要抢“李四”这个可能的老子,“打” 也根据就近原则想“打”这个“李四”。 白: 各种heuristics角力的最佳模型还是神经。 李: 打不赢还是打得赢,天知道。也许“神经”知道,谁知道呢。不知道神经什么时候能够把这些个鸡零狗碎的 heuristics 都考虑进去,省得专家费这个脑子。关键是,费尽了脑力,还是“测不准”。 白: “打李四的二儿子的犯罪事实”:李四占位置优势,二儿子占大坑优势,犯罪事实位置最远,论坑反而要“打”当萝卜,填“打”的坑不占任何优势。这就是角力。任何一种heuristics只是从一个侧面做贡献而已。但自身暴露的弱点也会埋下祸根。是没爹更坏,还是没“爹”更坏? 李: 因素一多,人肯定干不过机器。但前提是不是有一个巨大的标准答案在(带标),数据不稀疏,然后一锅炒去看角力。 白: “的”字的嵌套顺序也很有意思。 李: “的” 不知道什么时候开始进入,继而被滥用的。古汉语的 “之” 可没有现代的 “的” 这么被滥用。有了 “的” 汉语裸奔性得到极度夸张。修饰语之间的内在次序约束被打破,想到啥(修饰语)说啥 根本不过脑子 直接就蹦出来。蹦出来后加上个 “的” 就齐了,显得符合语法。没有 “的” 的话,一个 NP 的前修饰语 怎么摆弄 很有讲究 各种约束。超过两个 的 以上的 NP 没有好东西。语文老师应该一律打回去重做。 白: 比如“张三打李四的二儿子的女朋友的犯罪事实”。又出来一个“女朋友”是张三的,还是二儿子的,的问题。其实就是一个“当量”问题,一个坑顶几个位置。一个首选位置顶几个次选位置。等等。一个反过来抢萝卜的猪队友相当于扣掉几个位置。如此等等。这个“当量”也就是神经里的权值。 李: 想到另外一个语义计算的问题:在句子 “我穿中号鞋大吗” 里面,这个“大”是怎么个说法?“大” 前有四个先行者:1. “我” 2. “穿” 3. “中号鞋” 4. 整句:“我穿中号鞋”。“大” 貌似针对的是 “中号鞋”,这样的话,那就是后置定语或后置补足语了,但感觉总有一点不对劲。比较: (1) 中号鞋大吗 (2)中号鞋穿起来大吗 (3)中号鞋我穿起来大吗 (4)中号鞋对于我大吗 (5)中号鞋对于我的脚大吗 感觉, (5) 具有理解客观性形容词“大”所需要的完整信息:【对象:我】,还有 【小对象:脚】(二者是整体与部分的关系,这也是情感分析(sentiment analysis)中针对主观形容词(如“好”、“坏”)的大小对象的常见形态:“iPhone X 的屏幕很好”,其中【对象:iPhone X】,【小对象:屏幕】)。 “鞋” 可以从本体知识里面引申出【小对象:脚】出来,所以 3和4 在引申以后具有完整的信息。(1) 最差,需要对话双方有相当的默契和 shared 背景和上下文,才可以相互理解,否则就是无厘头,缺省了关键信息。(2) 缺乏大对象(主体),理解也不完整,反问或追问的话,应该问:谁穿“大”呢?“大”对谁而言呢? 郭: @wei “我穿中号鞋大吗?” 觉得你的问题问偏了。 首先,这句dependency parsing应该没问题。那么,问题其实在语用。就是说,你丢给我这句话,我怎么接? 先回想下你自己的逻辑: 1. 中文可用两极对照来指代属性:“大小”就是指“size” 2. 两极中的一极是default:“大小”里的“大”就是这个default. 按此,这样三句,其实等价: “我穿中号鞋 大 吗?” “我穿中号鞋 小 吗?” “我穿中号鞋 尺寸对 吗?” 这样,我已经有理由做一步 reduction,理解你其实要我帮忙回答: “我穿中号鞋?” 或者更简单地: “我 穿 什么尺寸 ?” 这就好办了! 李: 不错,不错。 【相关】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|8034 次阅读|1 个评论
【NLP随笔:词法内部结构休眠,句法可以唤醒】
热度 1 liwei999 2018-1-31 11:03
下班路上有一个关涉词法句法的灵感,有点意思,随笔记下,省得忘了。 开问:对于词典列举了的词条,还要不要记录内部词法呢? 当然,既然列举了,词法应该不重要了,一切都是绑架。(如果要记录词法,所记录的词法也是绑架。)词条就是一团泥巴,爱怎么捏都行,一切看方便和需要。尽管绑架不需要讲道理,自然也就不必讲词法,但是反观人对词条的语言学认知,其实还是在无法有法之间的灰色,并不真地就是一团漆黑,进了词典就都是黑箱子了,其实也有灰箱子,甚至相当白的箱子在内。 举个例子来说明这种灰色的法与非法状态。 “细心” 是一个2词素的词条 在所有的现代汉语词典里面 通常贴个形容词A的标签。因为它非常典型地起一个形容词的句法作用,与其他形容词同义词“认真”、“仔细”、“刻苦”类似: (1)做定语:细心人。(认真人。仔细人。刻苦人。) (2)做状语:细心做事儿。(认真做事儿。仔细做事儿。刻苦做事儿。) (3)做谓语:她很细心。(她很认真。她很仔细。她很刻苦。) 语义上,“细心”挖了一个【human】的坑,“她”正好跳进去。无论句法上做定语状语还是谓语,逻辑语义上,“细心”都应该挂上这个【human】。 句法语义之下是词法,如果从词法内部看,这几个词条是不同的,而这一点对于人其实并不是黑箱子,而是有相当透明度的,可以轻易认定: “细心”在词法内部是一个名词性结构N(而不是对外的形容词A),词法关系是“细”修饰“心”:细的心。 “认真”稍微模糊一些,但一般人感觉还是词法内部的动宾结构V(而不是对外的形容词A),词法关系是:“认”【这个、一个】“真”。 “仔细”的词法关系应该是并列,而被并列的两词素都是形容词A,倒是与句法A赶巧一致了,说的是“又仔又细”、“且仔且细”。 “刻苦”不太敢肯定,词源上看,“刻”是动词,“苦”是形容词,也可以做名词。内部词法结构是动宾,还是并列,存疑,先挂起来。 总之,同是句法形容词的几个同义词,内部词法结构可以完全不同。回到开题的问题,这种对于人(起码是语言学家)可以看见的词法结构,需要不需要在词典里面标记呢? 乍一看,似乎不需要,因为一般来说词法的目的是支持句法,句法的目的是支持(逻辑)语义,总之是通过形式的表象,解码语义的内涵,这就是 deep parsing 和 NLU 的真义。既然句法词类(A)、句法角色(定、状、谓)、逻辑语义(修饰【human】)都可以清晰地解析出来,回头再去深究词法内部的小九九,貌似无益。就让它深眠在语言结构的层级体系(hierarchy)的最底层,永远不见天日。 但是,既然不是黑箱子,人就不会永远放过,偶见天日还是有的,特别是在段子或俏皮话里面: A:你怎么形容她? B:两只巧手,一颗细心。 see,在人脑的语言认知过程中休眠在词法内部的N,居然冲破了句法A的标配属性浮现出来,成为堂堂正正的句法N,与量词结构搭配构成名词短语,听上去一点也不拗口。为什么那么自然,因为休眠唤醒了,因为他原本就是名词。 看来,休眠唤醒的确是人类认知语言的一个机制。如果我们想要模型休眠唤醒这个机制,那么词法内部的结构作为休眠的种子,就应该先在词典里面埋下来,它才可能被唤醒,发芽成语。 结论:词法内部结构,还是记录下来为好,如果真要做深度自然语言理解的话。 【相关】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|6052 次阅读|1 个评论
【李白宋毛72:NLP的测不准与追求完美】
liwei999 2017-10-8 11:44
李: 这两天琢磨中文词的扩展中的交叉现象,很有意思: 1. 选择疑问句谓词(P)模式 【P 不 P】: 学不学; 能不能;好不好 2. 动补(V-Buyu)词的可能态模式 【V 得 B】:学得会;可能态否定式【V 不 B】:学不会 12交叉: 学不学得会 ? 回答是:学得会 / 学不会 (或者:能学会 / 不能学会) 上述两个扩展模式也可以倒过来交叉,于是我们有 21 交叉: 学好 -- 学得好; 学不好 -- 学得好不好? 回答是: 学得好,学得不好,而不是 学得好, 学不好 后一种交叉,实际上用的 更多的不是“得”而是“的”: 学的好不好? 谓语重心落在“好”上,而不是“学”上。这与前一种交叉不同。很有意思的现象。 白: 得字后面的补语,有定性定量之分。“接不接得住”可以,“接得住不住”不行;“打不打得倒”可以,“打得倒不倒”不行。所以“住”、“倒”是专司“定性”的,是一个二值的状态,没有程度之分。另一方面,“扎不扎得紧/扎得紧不紧”“拴不栓得牢/拴得牢不牢”都能说,但补语“紧、牢”对应的是一个连续度量,但又有一个预期的极化状态阈值。所以,面临可能补语与程度补语的句式竞争时,可能补语占优势。第三种情况是“长不长得高/长得高不高”,补语“高”并不见得一定是预期的极化状态,“高不高”只是一种关于程度的中性的疑问,这时,程度补语就反过来压制了可能补语。第一种,纯定性,只能是可能补语;第二种,强定性弱定量,可以是程度补语但是与可能补语紧耦合;第三种,弱定性强定量,程度补语与可能补语松耦合。 长不长得高,和长得高不高,完全两回事。 李: 长没长高 == 长高了没长高 == 长高了没有 但是: * 长没长得高 白: 长高,相对于自己;长得高,相对于平均水准。程度补语。 可能补语的“长得高”,对成年人是梦想,对小孩是废话,除非侏儒症。所以可能补语义微弱。否定形式“长不高”则信息量大。对小孩,形同诅咒。或者,是成人身份的一种变相认同。 “没”是现时的未然,程度补语无论肯定否定,都是现实的已然,语义上也不相谐。可能补语与“没”结合,参照时点一定移到了过去,如:“谈没谈得拢”。现时已经出结果了,只有过去某时点上这还属“潜在”。 所以,“学得好不好”本来是关于程度补语的疑问,到了“学没学得好”,就变成了关于可能补语的疑问了。 李: 分析得好 细致入理。 谈没谈得拢 只有天知道 谈不谈得拢 就看你本事了。 上次白老师说分词 (大意):分词不仅是切 还要粘。至理名言。 句子就跟西瓜似的 可以拿着刀🔪来切;但字就跟珍珠似的 也可以拿串子来粘它、串它(concatenation)。结果都是 词,我们建筑语言大厦的砖瓦。这砖瓦必须有来路出身 有档案背景,因此目标也算是明确,即,所谓词应该是“词典的词”。词典就是档案 背景全部可在其中绑架,才能支持语言理解。 最有意思的是离合词,因为离合词不仅要串,而且还要跳着串。“谈不谈得拢”, 这个 5-gram,需要分词分出 “谈拢” 来 才算分词到家。 谈不谈得拢 == 谈得拢谈不拢 == 能谈拢不能谈拢 == 能谈拢 还是 不能谈拢 说到底 都是围绕着动补词 “谈拢”。 其他的小词(function words)或重叠(reduplication)手段,不过是给这个核心谓词语义添加语法意义而已: 诸如 疑问(选择问句)、时体、情态。 宋: 年满18岁,具有本地户籍,在本地居住满十年者 汉语的现象说明,词不一定是单向连续的短字符串,不一定边界清楚。非词语素和词的界限并不是绝对的。 李: 这个quasi-后缀“者”, 以前论过,它要求的是 VP,而不是 V。严格说不是 VP,而是 谓语 Pred。如果主语 NP 后面接谓语 VP 的话,那么总可以把主语去掉,加上这个“后缀”,来构成一个带有定语从句的 NP:VP者 == VP的人,这个 “的” 带的是定语从句 VP 。 当然实际语料的分布中,会发现 80%(?) 以上的“者”之前的 VP 其实就是一个 V ,所以把它当成英语的 -er (-or)一样看成是词的后缀,可能会带来一些便利,但必须留个 VP 的后门,来对付 定语从句的 VP 很长很复杂的状况。 宋: 手工业者 李: “手工业者” 算是 另一个用法 看扩展性决定是细线条的规则 还是直接枚举入词典。 白: 者---N/S 关键是辖域、分配律。 李: “者” 翻译成英语应该是 whoever+VP,不是简单成为 V-er 就可以顾全的。Whoever 是主语的形式,放在谓语前,与中文的结构关系类同,“者” 不过是放在谓语后而已: 年满18岁,具有本地户籍,在本地居住满十年者有资格报名。 --》 Whoever VP(年满18岁,具有本地户籍,在本地居住满十年) is qualified to sign on 白: “子女不服管教者,配偶不在本地者” 不是主语,是领项,反填至N/N的残坑。 李: fun,then,those who/whose 汉语的大主语(或 Topic 或“领项”)是一个中文里蛮独特的句法语用混杂的现象,对应英语的结构,错综复杂一些。 白: 其实从填坑角度看就是一个纯句法现象:一坨,有个坑,萝卜可填。至于这个坑怎么来的,最初长在谁身上,不重要。其实就是一个纯结构现象,无关语用。只要摆对解读结构的正确姿势,它就自然浮现。 李: “子女不服管教”,这话听上去感觉不完整 虽然主谓齐全 因为有个坑没填萝卜:“【谁(的)】 子女不服管教?” “心脏病不好治。”这话听上去感觉是完整的,虽然也可以问,【谁的】心脏病不好治? 白: 有隐含的logical quantifier 李: “心脏病” 有坑没坑?还是说 这坑有强弱之别? “子女”对 【human】 的坑,强过 “心脏病” 对 【human】 的坑,后者信息量也更大,更需要满足。 宋: 老王的子女不服管教。老王的子女不服管教者被老王打了一顿。 李: 这里,“老王的子女”是全集,“【其中】不服管教者”应该是个子集。 “子女都是不服管教的。” 这话就显得完整了: 因为全称小词“都”虽然 mod 的是 VP,但却作用于 NP“子女”,使得其坑显得没有必要填了,因为隐含的坑就是 “【所有人的】子女”,与 “心脏病” 同:“心脏病”的坑隐含的默认萝卜也是“所有人”。 老年人的心脏病不好治。 心脏病其实不难治,但老年人的心脏病除外。 上句的第一个分句,默认萝卜是 for all human;第二个分句 做了显式的限定,修改了默认值。 回到原问题:到底坑有没有必要区分强弱? 作为对照:及物动词肯定是有强弱的。有的必须要宾语(“善于”,“赢得”),有的最好有宾语(“喜欢”,“看见”),有的可有可无(“呼吸”,“诊断”),没有的话,大众心理就补足了一个默认值,从本体(ontology)来的默认: “呼吸【空气】”,“诊断【疾病】”。 白: “心脏病不好治。心脏病不会治。心脏病不去治。” 谓语不同,对“心脏病”的坑有影响。第三个例子,最不完整。 李: 心脏病不去治,【你】不想活了? == 【你】心脏病不去治,不想活了? 心脏病不去治,【你】治啥?== 【你】心脏病不去治,治啥? 第一个【你】应该是病人,第二个【你】可以是医生。第一个【你】直接填“心脏病”的坑。第二个【你】作为医生,与“心脏病”的坑没一毛钱关系。 白: 是。对举可以削弱“萝卜的坑”。本来有一毛钱的入账,又有了两毛钱的债务。结果欠了一毛钱。成了别人家的坑 李: 最近想,退一步才好进两步,可谓真理。一辈子能够退一步的时机不多,总是忙忙碌碌,随波逐流,人在江湖,身不由己。如果因缘巧合遇到了退一步的机会,那么一定要惜缘。追求完美,不留遗憾,其实是常态生活的奢侈,但也可以是退一步的境界和机会。 为什么退一步反而可以追求完美不留遗憾呢?因为在高歌猛进的人生中,没有时间喘息和反思,难有机会从根子上改造,肩负的是历史的负担。只有在退一步的时机,才有可能重起炉灶,把历史负担当成经验教训的积淀。虽然慢了一拍,但磨刀不误砍柴工,最终可以更加完满。历史上,苹果公司的操作系统就在乔布斯的指挥下重起炉灶大放异彩。可怜的微软就总没有这样的机会,补丁摞补丁过了一辈子。 胡乱感叹一哈。 量子力学有个测不准哲学,其实对于语言学很适用。语言作为交流的工具,宏观上的可理解性是没有问题的。但是,测不准原理表明:从本质上来讲语言学不能做出超越统计学范围的预测。语言理解系统无论怎样逼近,永远也不可能在微观上 capture everything。那天白老师给了一个很妙的例句,是:“马可波罗的海上旅行”,让通常认为非常坚固的 4-gram 词 “波罗的海” 被另一个 4-gram “马可波罗” 遮盖了。可以设想一个分词系统的第一版本是 assume 4-gram 词以上就是正确的(实践中,匹配上 tri-gram词就相当靠谱了,这可算是一个分词的经验公式 heuristic),可以 identify 词及其概念。但对于上例,这个系统从最左向右匹配,赶巧就对了;若从右向左走,就错了。 毛: 有道理。这个例子确实巧妙。 李: 咱们进一步扩大疆界来逼近真实,就算搞定了 6-gram “马可波罗/的/海 (Note: 前一篇李白对话 【李白71:“上交所有不义之财!”】 中说过,其实搞定 5-gram 就可以认为是搞定了汉语分词,因为 5-gram 几乎是 local context 的极限了),咱们这就突破这个极限看看......。我要说的是,我们总可以找到一个context,使得以前的任何分词(及其分析)无效。 “我的朋友生了个双胞胎,绰号很奇葩,先生出来的叫千里马,后出来的叫波罗的海。我告诉他绰号也是有讲究的,有的可有的断断不可。千里马可波罗的海不可!(Note: 千里马/可/波罗的海/不可)。” “朋友问为什么,我说因为有个测不准原理。千里马本体毕竟是动物,与人不远,可用。波罗的海本体自然物体,无法联想到人,故不可用。” “马可波罗”乍看何其强大,甚至大过“波罗的海”(毕竟里面藏了一个万能小词“的”,是它的硬伤),也逃不过测不准的限制。最后大胆假设一下,立委牌中文深度分析器(deep parser)神奇地利用 long distance 句法或 休眠唤醒机制 帮助突破 local context,搞定了“千里马/可/波罗的海/不可” 的分析理解,so what?总还是会有“测不准”在,譬如: “我舰/日航千里/马可波罗/的/海/不可/阻挡。(或曰:固有波罗的海,哪里有什么马可波罗的海?曰:先生一叶障目,知其一不知其二。马可波罗的海,乃印度洋别称也。)” 牵强?然而场景合理,语句合法,概率不是0。 想一想测不准,咱们搞AI,搞NLP的,怪丧气的:系统完美,只在梦中。但反过来想,其实是对完美主义者的有益警示:追求系统的完美和静态高指标从来不(应该)是核心目标,领域化能力和动态指标才是系统打遍天下的硬通货。不要想完美的事儿,只是要问:给你领域大数据,你多快可以让系统进入角色,让它上线转起来服务业务,然后对于 bug reports 的反应和修复速度有多快,系统在使用中日臻完善,虽然永远不会完备。 所谓追求完美不留遗憾,正解应该是对于架构和formalism的近乎受虐的追求,为的是到用的时候,到领域化的时候,到修复 bugs 的时候,可以庖丁解牛游刃有余。 毛: 你这个事情的性质不属于测不准,而属于词法/句法的不完备。测不准是对每个粒子而言的,每个粒子的位置和速度都有测不准的问题。而你讲的这个情况,是说不管什么样的词法/句法都有对付不了的特例,这就是不完备的问题。 李: 资源的不完备(不可能完备),在我就是系统的测不准,貌似也就是原观测对象的不确定性。 白: @毛 是进出不同层次没有违和感导致的。一个字当作一个字,和一个字当作语言中的词的部件,是处在不同层次的。人偏偏要搅和在一起玩。这样会闹出悖论的,不过,NLPer似乎并不关心。 【相关】 【李白71:“上交所有不义之财!”】 【立委科普:歧义parsing的休眠唤醒机制再探】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3409 次阅读|0 个评论
【李白69:“蛋要是能炒饭,要厨师干啥用?”】
热度 4 liwei999 2017-9-10 16:23
李: “炒饭” 默认是合成名词,但也可能是动宾结构的 VP,与 “烤红薯”、“学习材料”,甚至“已成事实” 类似,汉语中极为普遍的现象。今天想,从“炒饭”到“蛋炒饭”、“酱油炒饭”,后者的名词性增强,动词性的可能减弱, 但其实也不是不可能翻案: A: 我很笨,我不会炒饭,我炒饭不好吃。 B: 你蛋炒饭呀,酱油炒饭呀。你如果蛋炒饭,就不会不好吃了。 “蛋炒饭” 里面的微结构是 clause 不是 VP,“蛋” 是【instrument】or【material(ingredient)】做主语。这不影响它可以从词法(morphology)上带有clause微结构的合成词转化成句法(syntax)中的VP,理所当然地再要一个主语: “蛋能炒饭,肉也能炒饭,菜也能炒饭,没有不能炒饭的。” 白: S降格为N+,需要统计支持,需要字数等条件。 “蛋要是能炒饭,要厨师干啥用?” S自带的S+,先跟S搞定,回头S再降格。微结构分原始结构和定型结构。原始结构没有降格处理,定型结构加上了降格处理。即使降格,仍然存在填坑关系,但是呈环状,降格–修饰–填坑关系呈环状。颠覆,不仅仅是打开微结构,而且要“去降格化”,全面复辟到原始结构。 李: 白老师高大上的思路,隐隐约约似乎看到了端倪,但不敢说真 follow 了。主要是白氏术语多,但没有术语工具书或密电码,譬如: S, S+, 降格,原始结构,定型结构,填坑关系,呈环状,去降格化 …… “蛋要是不能炒饭,啥子能呢?” “蛋不仅能炒饭,蛋黄还能做月饼,蛋清还能美颜,连蛋壳都能做工艺品。” 蛋能着呢,一身都是宝。相比之下,厨师最多就是做个饭,厨师不会美颜,也做不了工艺品。蛋与厨师,谁高谁下,不是一目了然吗?这是大学生辩论乙方的辩路。白老师代表甲方,立论是:“蛋要是能炒饭,要厨师干啥用?” 白: 按构词规则捏出一个有微结构的合成词才是根本。 李: 秀一下 捏出啥样子较好。 白: 上午徒步……方便时画几个图上来。 白天徒步时,多处看到“旅游厕所”的牌子。“旅游厕所”的微结构是啥?与“蛋炒饭”不同,“旅游厕所”并不存在翻盘的可能。 旅游只有一个标配坑,而且subcat是human类型。厕所无法填入。 李: 蛋炒饭的图示,pos 是 N,词法内部微结构就是个【主谓宾】。白老师图示的微结构没看出做主语的痕迹,不知道为什么。是因为主语要查chemistry,蛋不是 human 不够格吗?那个 with 降格 没看懂。 白: 说的对,蛋不是核心成分,是外围成分。用一个虚拟介词拉到动词势力范围来,不够格作主语。 李: 去降格化 回到了这个合成名词的动词 subcat 的潜在能力,it is a candidate 2-arg verb:/2N, 这就为翻盘成为 VP 谓语造就了可能。 翻盘还留有一个 human 主语的坑给句法。 白: 但 蛋还是不够萝卜资格。谁炒?所以那个段子,蛋要是能炒饭,要厨师干啥,之所以好笑,就在于,把蛋和厨师相提并论, 李: “蛋” 在 “蛋炒饭” 里不够格,在 “蛋能炒饭” 里够吗? 白 : 也不能,是穿透的,能用蛋炒饭 的意思。 不够格的和够格的相提并论,核心成分让步,只能是修辞,不能是其他非核心成分。 李: 这是句法主语与逻辑语义错位造成的幽默。的的确确是句法主语 ,符合主语的一切分布,甚至可以放在(状语)从句的分布模式里:如果 S Pred,S 如果 Pred: “如果蛋能炒饭” “蛋如果能炒饭” 【工具】和【材料】 做句法主语在汉语是天经地义,仅次于【施事】做主语,比【受事】做主语还常见。其实英语亦然。 白: 问题是我这没有形式主语标签,句法主语标签毫无意义。我不想沾它,而且不沾也不影响。 李: 句法主语的独立性 总之是有依据的。什么叫 “核心成分让步,只能是修辞,不能是其他非核心成分”? 白: 就是那个角色不是human了,至少也是拟人化的。这才可以当作修辞用法。 李: 哦 那是修辞 ,修辞很常见的。 白: 蛋不是修辞用法,不在此列。 李: “蛋” 从主语坑让一步,自己降格为PP,作状语? “蛋炒饭” 里面, 既然在 v 前有 n,鲁棒的系统默认不降格的,因为选无可选 滥竽充数了。人的语言理解过程感觉也是这样的。 白: 鲁棒的系统应该在语义层面无计可施时,把它加回核心角色,不降格,修辞用法。句法层面作状语,并没走远。 李: 不降格, 到不得已时再让位(主语的交椅),而不是先降格 留个坑,等还不见影子的萝卜。 白: 怕甚?无非是句法功劳少点,语义功劳多点而已。 李: 不太合节省原则。句法存在的认知基础,就是给语义省力。 白: 又没到位,没看出省力了 李: 默认涵盖了多数情形 不费力 不用常识。不得已再用。遇到 n v n 就默认svo,当然省力了。 “鸡蛋拌番茄”,“鸡蛋” 也是降格? 白: 当然。翻译成英文,不也得降格么 李: 鸡蛋用番茄,鸭蛋用土豆 … (as for eggs please use tomato …) 谁用?也是降格。 白: 谁会用谁用。反正鸡蛋鸭蛋不会,除非修辞。但修辞也不是as for的意思。 李: 哈 鸡蛋“能”用 鸡蛋不“会”用。就如乔老爷批判人工智能说 “潜艇不会游泳”。 图中 N+ 怎么回事?S+ 是N因为不够格而降格为状语,哦 N+ 是做了定语,动词委屈降格做了定语。父子翻转。 白: N+是动词不经由定语从句,直接做了定语。 李: 经不经 【定从】 关系不大,为什么又“去降格化”? 其实微结构所谓降格都是做给人看的,讲究一个事出有因,但既然在词典里面 其实不必讲这个合成词内部的故事。就是绑架 洗脑即可。关键在微结构的V的潜在翻盘性。 白: 去降格是源头,降格是过程,N是结果。要想翻盘,就要回到源头,而不是回到过程 李: 那你那图示次序反了,源头弄在中间了。降格那一节 不提也罢。降不降 都是 N 了, 词典规定的默认。汉语词法句法道理相通,但词典词法不必讲理。 句法不讲理就不行。 白: 我没有次序含义,就是一个个罗列出来。 词法捏出未登录的合成词,还是有法可依的。 李: 对 对于open词法 需要捏,open morphology 必须有法 讲理。 降格者何时升格?修辞何时实现?修辞实现用标记吗? green ideas 能 sleep 吗?“小红帽发了一顿牢骚” 怎么弄?还有很多很多灰色地带,资格不好认定的地带。要 【human】 的,【org】 不行吗,【animal】 不行吗? 白: 顺杆儿爬,顺杆儿滑。 李: 不过那个降格而捏的图示 真 implement 还有一些沟沟坎坎。 不过是给了个捏的道理罢了。道路依然不明。 白: 句法上承认不相谐的依存关系,语义上就只有修辞一条退路。但句法上到底承认不承认,有很多策略选择。 李: 但的确有灰色地带 介于修辞和正解之间的。坑与萝卜的 chemistry 是一个 spectrum,不是一个死条件,跟找对象一个德行。凑合事儿的也有过了一辈子的 还不少。 白: 这里问题不是给什么句法标签,而是最终是否碰的上。碰的上就不怕。 李: 碰不上就升格凑合?然后做个标注 这是凑合的修辞萝卜? 白: 不管在二楼碰上还是在三楼碰上都没关系。“蛋炒饭”的例子,“蛋”升格不就成了修辞萝卜了么?这是需要外力的,比如与厨师相提并论。没有外力,升格的可能性微乎其微。当然,形式的不算。既然升格,就是冲着逻辑的核心角色来的。“蛋”的工具主语的解释和修辞解释的不同就说明了问题。 李: 工具解释是临时职称,修辞解释是代理主任。临时是没办法 先凑合。乔老爷的名句 都不应该升格。因为没有纯句法以外的外力。“绿色思想今夜无眠”。“绿色思想”只能看成是“今夜无眠”的某种状语? 白: 还有另一种可能性,就是“绿色思想”看成专名。比如酒吧的招牌。酒吧再无眠,就是修辞了。同样拟人,以酒吧拟人就比以抽象事物拟人更靠谱点。 李: 是啊 这是spectrum, 讲的是本体资格距离。 其实还是三角恋力量对比的策略最实用,二元匹配不好对付灰色 三角就容易了。脚踩两只船 不得长久。最后当事人必须选择 是“他” 还是 “他”?凭着感觉就行了 选择通常不难。没有比较的选择就太难了。 王: 蛋炒饭,蛋能炒饭,真是够研究的。看了李白老师关于“蛋炒饭”这菜名讨论,感觉有些菜名无不用其奇,不考虑NLPer的辛苦,NLP很多性能不高,就坏在这“菜”上了,只要能解决就好,本来NLP大山就多,可这零碎的泥坑也不少。 白: “蛋炒饭”其实是两个问题。一个是通用能产的构词法问题,一个是特定语境下的反悔问题。通用能产的构词法,就算没有,也可以通过“词典硬性定义+原始微结构”给反悔留出线索。通用能产的构词法怎么才能有?各种在句法层面使用的不太多的“降格”手段,在构词法层面可以有。这是关于“蛋炒饭”讨论的核心。 【相关】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|5786 次阅读|4 个评论
【李白之68:再扯NLP萝卜填坑】
liwei999 2017-8-13 20:37
李: 发现 “引进” 与 “引入” 可能方向不同 虽然应该是同义词。读【 李白之29 】(“ 依存关系图 引入 短语结构的百利一弊 ” ),突然觉得不对劲 这不是我的原意。原来想说的是,“依存关系图 引进 短语结构的百利一弊”,或者,“短语结构 引入 依存关系图的百利一弊”。a 引进 b,语义主体是 a 而 b 是逻辑修饰成分;b 引入 a,a is semantic head while b is modifying element。不知道这个语感对不对 是不是语言共同体的 还是语言学家的走火入魔? 另 并列排比的力量很大 汉语为最 英语也有: “One in the morning and one afternoon” 力量大到了可以生生把 one afternoon 拆散,棒打鸳鸯 可 NLP 界对这种现象研究和应对却远远不够。排比句式的自动处理及其与parsing 的无缝连接 可以做一些博士课题 排比是并列的延伸,而并列现象早就公认为是nlp的拦路虎之一。 白: 何以见得?程序员会首先说,编译通不过 李: 万一编译器鲁棒通过了呢。 两个什么?论最近原则 是两个西红柿。但还有一个更大的力量,就是前面说过的排比的力量:一个x ……两个【 】。 白: 通过的那种编译不叫鲁棒叫自作多情。如果论排比,那“一个啥啥”前面也得加“如果啥啥”。 李: 排比的力量真地很大 感觉强过距离 虽然这几句不 make sense. 白: “孩子”是称呼对方还是指称对方子女,这是个问题: 白: “拍的一手好照”……第一次见到这个说法。 李: 洗的一把好澡 吃的一桌好饭 拍的一屁股好马 吃的哪门子醋 吃的一坛好醋 双关 嘲讽 白: 你那些统计频率够高,这个不行 李: 露一手 拍一手好照片 踢一脚好球 踢的一脚好球 想一脑门心思? “脑门” 与 “心思” 搭配,“一手” 却与 “照片” 并不怎么搭,“一手” 与 “拍” 似乎搭。 白: 如果“所”负载“他所说”,那么“他所说的”就是“所”填“的”坑。交叉了不说,感觉有点怪。 “所”是个纯粹的逻辑宾语提取算子,“的”则广谱一些,既能提取逻辑宾语,也能提取逻辑主语,而且接名词能构成定语,不接名词自己就升格而名词化。 李: 小词负载结构 也负载语义吗?我想请问的是 白老师系统如何区别 “所” 提取宾语的标配,与 “的” 既可提取宾语 也可以提取主语?这个区别如何在语义上实现?体现 在 pattern rules 里面的话,这个区分很容易实现。 白: 词负载语义结构,使用的是subcat类型演算。也就是说,“所”和“的”的提取对象,在cat层面不做区分,在subcat层面做区分。“的”提取“剩下的那个不饱和坑”所携带的subcat,“所”提取“代表逻辑宾语的那个不饱和坑”所携带的subcat。如果两个以上坑不饱和,如“卖的”,则取两个坑的subcat的最小公共上位(上确界):sup(human,human,object)=object。等待一旦其他成分做出更加specific的限定,比如“买的不如卖的精”或者“卖的都是假货”,再图改变。 李: 那是 unification 的本来意义:unspecified until more specific 两个小词提取(代表)的不同,在 subcat 演算上实现。这个 subcat 是谁的 subcat,又是怎么做 subcat 演算的?对于实词,cat 决定句法(萝卜与坑 以及 mods),subcat 决定语义(semantic lebaling 解析逻辑语义),我们可以想见。 对于小词呢? 白: 小词要具体分析 李: 从哪里看出来 “所” 指的是宾语。 我的所爱在高山。 我所爱的在高山 我所爱在高山 我所爱的人在高山。 我所爱的东西在高山。 我爱的在高山。 爱我的在高山 *所爱我在高山 白: 上面讲的“所”和“的”,我们用的词是“提取”,意思就是说它的subcat是copy来的,在copy之前,它是一个指针变量。说清楚了,谁填你的坑,你提取谁的哪个坑所要求的subcat 李: “爱我” 只剩下一个萝卜 所以 “爱我的” 就是那个萝卜(代表)。为什么 “所爱我” 不成立?“所我爱” 其实也不成立,只有 “我所爱” 才成立,这个体现在哪里? 白: 我不管什么不成立啊,又不做生成只做理解。做生成也不这么做 李: 哈 这总是少了一个 leverage。赶巧了 词序不对的序列 不会出现 因此把词序 leverage 从 parsing 中扔开 貌似多数时候可行。但总是会遇到某种时候,词序的条件恰好就起到了帮助 parsing 的作用。 白: subcat完全相同才会考虑次序,这时逻辑宾语右侧填坑优先。但是“所”提取逻辑宾语是硬性的,比只是“优先”来得更加强大。所以有了“所”,就轮不上这些右侧优先了。 李: 这种优先度的调整 听上去是宏观算法的考量,而句型subcat里面所规定的词序(如果词典规定的话)则是微观的。后者比前者更加精准。 白: 前者更加robust。我之所以放弃pattern,就是因为它管了不该管的事儿。 李: 动词句型的subcat,管得恰到好处呀,句型里面说在左边,那就一定在左边。 白: 好好说话是生成该管的事儿。而在各种糟糕语序下尽可能猜测对方意思是分析的事儿。 李: 句型里面的词序规定,与对小词的规定,以及对实词的规定(强搭配规定实词本身,弱搭配规定实词的本体)。所有这些规定都是一以贯之的。不管是分析还是生成,一个句型长什么样子 是植根在句型 subcat 的词典里面的。这是词典内语言知识。至于这个知识用于分析,可以适当放宽而鲁棒,或者用于生成,适当收紧而顺溜,那是知识的实用层面的考量,而不是知识本性发生了变化。 譬如 “邮寄” 带三个坑,其句型就是: 1. 邮寄 2. 把 邮寄 (给) 白: 理想的词负载结构,是可以100%把句型语序再现出来的。使用刚性方式(override)还是柔性方式(优先级),只不过是实施当中的工程选择,与理论无关。如果我愿意,也可以都采用刚性方式。但是我不愿意。比如及物动词六种组合语序,双宾动词24种组合语序,其中有多少种是合法的,我不需要关心。也不会用罗列的方式去挑出合法的组合。 李: 不同策略的选择 如果信息无损 当然无所谓。说的就是,在采用优先级柔性方式对付词序的时候,至少在词典化的句型信息方面,条件是受损的,词序这个显性形式没有得到充分利用。弥补它的手段包括中间件的查询。但是中间件的查询,其本性是隐性形式的使用,而词序是显性形式。 白: 没看出来受损。 李: 受损在:本来是由谓词本身来决定萝卜的词序,作为条件之一来填坑,现在却交给了谓词以外的东西。交给了算法中的优先级 and/or 中间件的查询。这个损失蛮显然的,对于所有把谓词本身与其句型的词序规定分开的算法。 白: 搞混了吧,这是谓词自带的,不是交给了算法。 李: 谓词自带词序?? 白: 第一个坑、第二个坑谓词自己是有指针的,自带优先序。 李: NP1 eat NP2:NP1 NP2的词序是词典决定还是......?至少 S/2N 貌似没反映词序。这个2N 里面没看出词序信息。 白: 说的就是第一个坑优先左侧结合,第二个以后的坑优先右侧结合。句法不管而已,subcat管。但是句法和subcat是时时刻刻互通的啊。不相谐时看后续选择。 李: 第一个坑优先左侧结合,这个东西,是对于所有 2-arg 的谓词有效,还是可以对于不同谓词有不同?如果是前者,就不能说是词典信息决定词序。 for another example: 1. translation of NP1 by NP2 2. translation by NP2 of NP1 这类词序原则上都是谓词 translation 在词典就决定好的,到了具体句子坐实其中之一而已。 白: 比如“饭我吃了”,1、吃是S/2N。2、“我”最先从左侧遇到“吃”。3、“我”与其中一个坑相谐。4、锁定human,留下food。 “我饭吃了”:1、同上。2、“饭”最先从左侧遇到“吃”。3、查相谐性,发现是第二个坑subcat相谐。4、锁定food,留下human。 至于查相谐是否必须从左到右遍历,这纯粹是一个算法问题。数据库还允许做索引呢,我为什么一定要遍历?“饭”都有了,跟“吃”的第二个坑匹配为什么必须先查第一个坑。 李: 句型规定词序的做法有下列特点: 1 在词序占压倒优势的句型里面,根本不用查语义和谐。就是词序绑架。 2. 在词序不能决定语义的时候,可以明确提出是哪两对发生冲突:然后让语义在这两对中去比较力量来求解(消歧)。白老师的上述做法貌似在情形1的时候,不必要地查询了中间件,多做了功来锁定。 白: 总而言之,在部分分析树上匹配目标句型,是我N年前使用的方法,现在已经放弃了。放弃的道理是在分析环节追求更好的鲁棒性。在生成环节,有另外的做法。 李: 在情形2的时候,不知道是不是也是查询中间件的力量对比(牵涉两个可能的二元关系),还是只查询一个关系? 白: 没有。一步到位。 说的就是没有使用遍历的方法。只有一个匹配结果就是第二个坑,第一个不用出现都。 李: 遍历也不是“遍”历,n个元素并没有理论上的所有词序排列,而是句型决定了哪些词序排列是可能的,哪些排列根本就不可能。而这些决定都是那个词的知识。 白: 白名单制。 有点对不上频道,我说的遍历是查询时对坑的遍历,不是对可能语序的遍历。我的结论就是,不需要遍历。 李: 这二者在句型实现或坐实中是相交的。譬如两个坑加一个谓词,句型的所有排列是: 1. 谓词【1】【2】 2. 谓词【2】【1】 3. 【1】谓词【2】 4. 【1】【2】谓词 5. 【2】谓词【1】 6. 【2】【1】谓词 当然对于一个特定的谓词,其句型就是这里面的一个子集。 白: 3! 李: 对。如果牵涉小词,上述句型还要扩展。 白: 我现在是一个句型都不写。 李: 然后加上省略,也要扩展: 7. 谓词【1】 8. 谓词【2】 9. 【1】谓词 10. 【2】谓词 白: 嗯,你这充分说明了我不写句型的优越性。 李: 看上去很多,但第一很清晰,第二具体到谓词,只是一个子集,有些排列被句型一开始就抹去,第三,每一个这种句型排列都可以确定性地决定,是歧义还是不歧义,从而决定是不是要求助或留给后面的语义模块。所谓文法,主体也就是这些句型。没了句型,文法也就差不多消失了。 白: 专制的文法消失了,民主的文法还在。中心化的文法消失了,去中心化的文法还在。拉郎配的文法消失了,自由恋爱的文法还在。 李: 很多年前我们的英文文法大体稳定在 600 条规则左右,其中大约有 400 条就是这些句型排列。400 条还在可以掌控的尺度之内。为什么 400 条就可以包揽呢?这是因为上帝造语言有个仁慈的设计:args 不过三。以前说过这个。args要是过了三,排列就至少是5!,必然引起句型爆炸。自然语言的谓词绝大多是是 2 args or 1 arg,只有少量的 3 args or 0 arg。决定了机器人通天塔并非不可能建造。如果当年设计语言的上帝忘了人脑的有限,弄出不少 4-args or 5-args,就傻眼了。一个事件往往关涉很多成分。但人在描述这个事件的时候,总是碎片化描述,每个句子遵循 args不过三去描述,然后利用冗余和合一,最后在篇章中才拼凑出完整的语义图谱出来。这就是自然语言简约有效、与人类脑容量相匹配的奥秘之一。 白: 这就是老话说的,一碗豆腐豆腐一碗,本来不需要区分的,语序一成刚需,得,不区分也得区分了。 一碗豆腐和豆腐一碗,语义上没差别,差别在语用上。数量词后置,是“报账”场景专用,可以让人联想到饭馆里跑堂的。如果将来都用移动终端触摸点菜,“二者的语用差别”就会成为历史。跟自称“奴婢、在下”一样,只能在文艺作品里看到听到了。用于分析的句法,不适合画“毛毛虫”的边界,画出毛毛虫的“包络”就很好了。 【相关】 【立委科普:及物、不及物与动词subcat 及句型】 【李白董之51:说不完的subcat和逻辑语义】 【Parsing 的命根子是subcat,逻辑的和语言的】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4134 次阅读|0 个评论
【李白邢65:“着”字VP的处置】
liwei999 2017-8-8 07:50
【立委按】 世界上很多事物都有不同的角度,对于一个现象的处理也有不同的考量。到了NLP,这就成了不同策略的优劣之争。对于老革命,战略和战术辩论的好处是各自说明白背后的理由,多数时候并不指望谁说服谁,更非争个高下。对于看客,行内人自可各自体会,根据自己的理解择优而行。对于行外人,看热闹之余可能得到的一个启示就是,世界往往就是,公说公有理,婆说婆有理。 白: 开着窗户睡觉,开着窗户是状语吗? “砍了一刀没死”,砍了一刀是状语吗? 邢: 我理解您的分析方法中,是不是没有主语、谓语的概念,而是以动词为核心为其填坑,填坑的萝卜与其在句子中的位置关系不是很大,而与其在语义上的搭配关系更大。 白: @邢 是的 邢: 还有“掌声欢迎”中的“掌声”是状语修饰欢迎,那“鼓掌欢迎”是否也可以理解为“鼓掌”修饰“欢迎”呢? 白: “掌声欢迎”是“(用)掌声欢迎”,有一个隐含介词。所以可以把掌声这个N降格为S+,做状语。“鼓掌欢迎”句法上是两个S的合并,至于语义上是什么,留给语义去处理。合并不是修饰,句法上“鼓掌”不是状语。 邢: 如何实现“降格”这个操作呢?是否也需要大语料的统计做支持 白: 不需要 邢: 那如何区分“同学欢迎”和“掌声欢迎”呢? 白: 欢迎的标配坑有human,没有sound。检查subcat相谐性可以区分。 邢: subcat确实非常重要,谢谢您! 白: 鼓掌欢迎,列队欢迎都是合并。夹道欢迎,其中的“夹道”已经成了专用副词了,不在其列。 邢: 我理解合并是有前提的,首先合并词都是动词,同时合并词共享某个坑 白: 对 述补、并列、连动、兼语、某些缩合复句,都是合并关系。 邢: 很受教,谢谢您! 白: 名词和名词也可以合并 邢: 是的,至少并列结构的词语都可以合并,无论属于何种词类。 李: 为什么不说省略了“用”呢: (用)鼓掌欢迎 (用)列队欢迎 动词也好 名词也好 都是用某种方式,核心还是 欢迎。 “鼓掌欢迎” 与 “掌声欢迎” ,看不出实质区别来。 都有大数据相谐的证据。其实已经接近合成词了。 白: 在句法层面定核心,和在语义层面定核心,是两件事情。 开着窗户睡觉,也是有核心的,但是在句法层面就定,太早了 李: 不早,至少对于这句,句法痕迹还是很明显的。 白: 早不早,这是体系问题。 李: 带“着”的动词做伴随情况的状语,修饰紧跟其后的核心动词。这是一个合适的句法和语义一致的路线。 白: 没必要 李: 英语的 ing 作为伴随情况状语也是如此:He came here running,有某种语言共通性 白: 知道他俩有关系,句法上就够了。 李: “ 走进来” “ 说” “ 恳求他” 这个形式痕迹不用白不用,看不出来推后的理由。需要或必须推后给语义的,是句法上缺乏形式痕迹。句法有形式的,自然是早做强过晚做。 白: 不一样,谁带,谁恳求,这里面首先有坑的共享问题。修饰语出现坑的共享,这是给修饰语找麻烦。 李: 修饰语是第一位的,坑是第二位的。修饰语里面的坑不坑 其实无关大局。从理解和语用看,语义重点不再是补全修饰语里面的萝卜(真要补也可以补,但语用和落地需要它的情形不多)。 白: 放下筷子骂娘 拿起筷子吃肉 开着窗户睡觉 穿了衣服出门 这些都是平行的。光处理“着”,只是图一时痛快。 李: 核心突出了,哪怕只是部分现象,总是好的。 白: 不同性质 李: 其他的句子其实核心开始模糊了,但带“着”的句子,核心基本是明确无误的。 白: 共享坑在机制上要更根本,有没有核心,在其次。共同的机制先放在一起处理,到里面再分道扬镳。不存在不处理或者处理错的问题。 李: 直感上,合并这把伞太大了,罩着太多的不同结构。 白: 这才好,说明共享坑足够根本。 李: 在后一个语义模块的解析策略不太明确的时候,很难判断这样处理的 pros and cons。区分或理解这些不同结构对于多数落地,是绕不过去的。而填坑对于落地有时候反而可以绕过去。 白: 语义上具有向心性,和句法上的修饰关系,是两个概念 李: 譬如说 MT,“着”字动词做状语 可以平移到英语,不填坑也可以平移。 白: MT能绕的不止这些 那都不是事儿 李: 这种语义落地场景就表明 坑里没有萝卜也可以的。可是核心的识别 却是不可或缺的。 白: 不是没有,是两种语言的共享坑机制一致,这不是问题的重点。 李: 一般原则还是,句法管形式,形式不充分的留给语义。为什么介词短语做状语呢?因为有介词这个形式。同理,为什么“着字VP”可以做状语呢?因为有“着”这个形式。 这并不是说,没有介词没有“着”的就不可以做状语。而是说有了这些形式,可以放松对语义相谐的要求,不需要“意合”,也不需要大数据 ,就是根据形态(包括小词)基本就可以确定。 白: 后者可以不叫状语,叫连谓结构 李: “好”的句法,应该把这些形式用到极限。这就好比有格变的语言,要尽量通过词尾格变确定句法关系。只有在格变有歧义的时候,句法确定歧义的边界,然后才把负担留给语义模块去选择。放着形式不用,先用大数据、常识或其他的模糊条件,是舍近求远。 白: 坑也是形式 李: 对,subcat 属于隐性形式。 白: 了和着在形式上也有诸多平行性。一个地方不平行,完全可以揣在兜里,到属于它的角落,掏出来该干啥干啥。那些有平行性的,大家共用高速公路。另外,进入这个车道的“着”,状语的标签已经是鸡肋,在这个形式下可以直接定位到“背景-前景”语义关系 带上水路上喝,带着水路上喝,带了水路上喝。 真的只有第二个才有形式么?每一个都带有形式,都带有时间标签。一旦确定相应的标签,回头再看“状语”这个大而无当的筐,算个啥? 带上干粮饿了吃,带着干粮饿了吃,带了干粮饿了吃。 “墙上挂着画显得很有雅兴。” “墙上挂着画还是仿制品。” “墙上挂着画居然上下颠倒了。” 这三个例子里,“墙上挂着画”都不能说是状语。“这种场合戴着帽子不够严肃。”当中的“戴着帽子”也不是状语。 李: 这些特地选出来的例句 的确具有强烈的平行性。但这只是语言事实的一部分。当我们说 “着VP”可以做状语 指的是另一批现象。“笑着说” 与 “笑了说” 并不平行,前者是【伴随状语】(adverbial of attendant circumstance),后者是【接续】,在“笑了”与“说”之间其实有个停顿或标点。再看,“带着干粮饿了吃” 与 “带了干粮饿了吃” 的确平行。但 “带着干粮去上访” 与 “带了干粮去上访” 就不必然平行。总之,的确有相当部分的“着VP”是做伴随状语(也可以说是做核心动词的背景 都是一个意思)。而这部分现象是可以在句法阶段搞定的。 处理的重要形式依据是 “着”,但也可能需要再附加一些制约做微调。事实上,我们系统有几条带“着”做状语的规则在句法有时日了,经过长时期的考验,发现很管用, 出状况的时候很少。几乎与 PP 做状语的规则一样好用。 汉语的痛点之一就是 动词成串 难分主次 搞不清核心。这与欧洲语言对比强烈 :欧洲语言有 finite (谓语动词)和非谓动词(不定式、分词之类)的形式区分。谓语中心很容易确定 句子骨架一目了然。既然是汉语的痛点,分而治之就是解决繁难痛点的一个不错的策略:各个击破。 自然语言另一个比较普遍的痛点是并列结构,我们起初总想毕其功于一役,但总搞不定。后来探索出来的有效策略也还是分而治之各个击破。 白: 伴随关系(前景-背景关系)是时间关系的一种。接续关系是另一种。目的关系,可以看成未然的或可触发的接续关系。平行上路,平行落地。人家自己完全井然有序,用不着这个状语标签分了一块去再横插一杠子。充其量只能说,在这一批从时间内在结构角度而言从句法到语义都充满了平行性的关系当中,伴随关系“碰巧”具有了向心性。但是在这么本质的语义关系都揭示出来的情况下,坑哧吭哧跑过来宣布谁谁是状语,不觉得蛇足么。就好像从集体婚礼中拽出一对儿,然后宣布,这俩是山东人,差不多。 笑着说,笑的区间包含说的区间;笑了说,笑的始点位于说的区间左边(笑的终点不确定)。怎么不平行? 语义计算里面,时间结构是重要的一块。有些动作的时间结构不是区间而是点状的,对其不能用“着”,比如“死”“开除”,这也是一种形式上的旁证。点状的时间结构不能包含区间状的时间结构,正如0不能做分母。 【相关】 【语义计算:李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3945 次阅读|0 个评论
【李白宋铿锵行:聪明的一休与睿智的立委】
liwei999 2017-5-16 13:09
宋: “禁止违规游泳”(1)凡游泳皆违规,禁止游泳。(估计这是标语牌的本意)(2)游泳还是可以的,但不得违反相关规定。(相关规定是什么,并不知道) 蕫: 宋老师,是的,应该是'在此处游泳均属违规。我还见过“禁止野浴”。 李: “禁止违规游泳”这个问题蛮典型 就是修饰语的限定性还是非限定性的问题。所有游泳违规 均在禁止之列,这个解读是非限定性的。限定性的有: “欢迎持照游泳 禁止违规游泳。” “以下游泳行为一律视为违规 本游泳池有权禁止入内或强制驱逐: 1 不穿泳裤者:便裤 普通内裤不得入内。裸泳绝对禁止。 2 传染病患者 3 无会员证者” 汉语句法 前修饰语默认为限定性。就是说 有修饰语 集合就变小了 成了原概念的真子集。而非限定的修饰语解读属于例外,是值得具体研究的现象。 白: “聪明的一休”,还有不聪明的一休木有? 李: 聪明的一休很典型。再如 吾党的伟光正:伟大光荣正确的某某党。语言学认为默认为限定,吾党认为是非限定。这是自封的本性 不改变集合的外延。如果抠字眼,可以说: “伟光正的党万岁 不伟光正的党必亡。” 搁在文革,这就是恶毒的反标,现行反革命,要坐牢的。 如果非限定性有句法形式的区分手段 那就好说。譬如英语非限定定语从句,前面加逗号 不允许用 that 作为连接小词。这些都是句法形式的规定 与语义相呼应: 限定: “I like the guy that just won the Math Olympic modal ” 非限定: “I like the guy, who just won the Math Olympic modal ” == “I like the guy, and he just won the Math Olympic modal ” 但是如果没有形式区分 就是一个特别值得探究的现象 究竟是如何出现的 什么因素决定了非限定。我觉得非限定修饰语的产生就是语言表达的偷懒,或discourse意义上的降格。偷懒表现在 本来应该是独立子句表达的语义 被凝缩或降格为前一句内部的修饰语了,做了小三,但表达的却是原配。除了偷懒 造成可能的困惑外 还有轻视或侮慢原来语义 顺带一提的语用或风格的因素。 白: 这个和反事实条件句有得一拼。汉语不太看重程序正义,如果你知我知没有不聪明的一休,那聪明的一休就是非限定的。 李: “朦胧的月光”,是非限定。“火热的太阳”,却是限定性的,因为“惨淡的太阳”、“昏黄的太阳”也是存在的。Stupid me, 这个是非限定的。 它等价于 “I m stupid”, 虽然严格说 我应该也有 intelligent 的时候。逻辑与语言的不一致就在这儿。 白: 哲学上较真儿起来,没有绝对的同一性。上一分钟stupid,这一分钟不stupid完全可能。所以非限定就是一主观的“锁定”。让你不游动,定格在某个特定的属性上。 李: 对。 可是怎么在说者与听者之间达成这个锁定,使得理解无误呢。“伟光正”的锁定是洗脑的结果。“聪明的一休”在狭窄的domain,是新造的脸谱化人物,也是绑架的。“美丽的西施”是历史的共识,还有 “睿智的诸葛亮”。如果说 “睿智的立委”,那就是恭维 拍马 或 嘲讽了,虽然也是锁定,因为说这句话的时候 是没有假设存在一个愚笨的立委 作为对照的。但是,可以说:“睿智的立法委员肯定不会投票赞成这个法案的,少数愚蠢的立法委员除外。” 这就是限定性了 。当然,立委与立委不同,专有名词从集合论上说只是一个元素,排除时间维度可能的变化以后,这个元素是不可割裂的。普通名词常表示类别,所指是一个集合,于是给子集的限定性留下了余地。 白: 先有脸谱,锁定才成为可能。与脸谱不符,那是高级黑。 李: 这里 脸谱 就是英语的 stereotype,带有默认属性的实体,当默认属性成为修饰语 那就是非限定。默认以外的属性作为修饰语, 就是限定性 因为这增加了信息量。伟光正的信息量为零。作为修饰语 不是为了传达信息,而是为了宣传或气势压人。把默认属性提出来作为修饰语虽然没有增加信息量,但可能有强调或比照的语用效果。如果我们知道隔壁老张是个矮个子,然后说:“小个子的老张摔跤大赛中得了冠军”,这个已知内容的非限定性修饰语加强了意外成就的效果:see,大家都知道老张是个小个子,可是他虽然个子小,本应处于不利,他却赢了。 宋: 一般情况下,对于个体的修饰,通常是描述性的。对于多个体的集合的修饰,就有两种解读了。刚才说的是定语。如果是状语,则往往是描述性而非限定性的,因为通常是叙述一个特定的时刻特定对象发生的行为。如“他违规使用电器”。但是,在“禁止”、“提倡”、“要求”这类语境中,状语往往是限定性的。 白: 刚转了一篇关于陆奇的采访,用的称呼是“微软最有权势的华人”。且不说他是不是适合这顶帽子,这里涉及到定语的限定性用法和非限定性用法。如果中心语是集合,那么定语可以筛出一个子集。如果定语是一个个体,it depends。 “原来的我”,实际上把一个个体在时间维度上分片了,筛出一个时间段。而“聪明的一休”则根本没有任何限定。“假马克思主义者”则针对原来的集合在其外面构造了个集合。 李: 这个限定还是非限定的问题 在做 sentiment 时候挑战可大了。选定的定语有褒贬的话 对于被限定的实体 是直接影响。非限定则不然 根本就不存在褒贬评价 只是把对象用褒贬的维度 做了客观的分类说明而已。可惜二者的形式区分很微妙 不好区分。“道德败坏的四人帮 是贬四人帮,道德败坏的人 是环境使然 还是也有遗传因素呢 仍然有争议 谈的不过是人类的一种,是在“人”这个集合里面限定一个子类,语义议论,并非针对“人”做否定性的价值判断。 白: “道德败坏的人”两个意思。限定用法,指人类中道德败坏的那部分。非限定用法,指人这个物种就具有道德败坏的属性。 梁: 白老师是说,限定性把概念的外延限定变小了。“聪明的一休”没有限定“一休,只是说一休有”聪明“的属性。 白: 是啊,正是。所以“丑陋的中国人”其实也有歧义的,只不过作者毫不隐讳他说的就是非限定性的意思。 宋: 英语的关系从句也有这两种(全体元素具有该属性,或抽取出具有该属性的那一部分元素),它们的区分有无形式标记? 白: 感觉:1、后置定语往往是限定性的;2。分词做定语往往是限定性的;3、有定形式(比如受定冠词管辖)往往是非限定性的。 我: 限定 非限定可讨厌了,有没有形式痕迹?有,英语中,我们尝试发现蛛丝马迹,也的确发现一些,类似白老师说的。但是非常微妙,稍不留神就 overkill,这个问题对 sentiment 非常重要,除非牺牲 recall,对定语一律不抓。如果想要那个 recall,precision 就会影响,如果这个问题不细心的话。烦死啦。 利用句法和pattern 都这么难缠,没有结构帮助,这个 sentiment 怎么弄,是不是就是瞎蒙。By the way, 英语中的术语 限定性(restrictive)与非限定性 似乎正好与白老师说的意思相反。教科书上,英语中最典型的区别和说法是,限定性定语从句前面不能有逗号,用 that 或 who、which,非限定性定语从句有逗号,不能用 that。因此,非限定性定语从句与另起一句差不多,是对NP的整体做进一步讲解,而不是对 NP 做限定性分类。但实际的情形复杂多了,这与 NP 是不是专名,NP 前面是定冠词还是不定,是不是复数,等等微妙条件的组合效应有关。 Case by case,人大致可以判断是哪一类,或是是不是歧义(或两类都有),但从这些语感中总结出一组可靠的条件,颇费功夫,要不断到数据去求证,才逐渐感觉有个眉目,这里面结构是必需但不是充分的因素(没有结构,是不是定语都不见得摸得门,就更甭提区分两种定语了)。应该算 NLP 难点之一。看哪家系统,用什么招,可以成熟一些。迄今所见所闻的学习出来的 sentiment 系统,对这个挑战似乎束手无策。 【相关】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4853 次阅读|0 个评论
【李白之36:汉语可以裸奔,不可能无法】
热度 1 liwei999 2017-4-6 02:33
白: “他拿了你不该拿的东西。”谁不该拿? Me: 妙句。 他拿了他不该拿的东西。 他拿了人不该拿的东西。 他拿了不该拿的东西。 默认主语是 “人”, 其次是 “他”。这个 “人” 指的是 一般的人,正常的人,有底线的人 (decent human)。当默认主语的位置出现了 “你” 字,奇异的事儿发生了: 1 按照常理 “你” 取默认主语而代之, 这就造成了 “你” 与 默认的 decent human 或 “他” 的下意识比照。言下之意可以是:他拿了你不该拿(但他可以拿)的东西。这是一解,或可以想象的场景。 2 根据法律或规章面前人人平等的普世原则 上面的解读虽然合语言学的法 但不合现代社会的法。这就迫使默认主语 继续有效,“你” 于是不能雀占鸠巢, 不得不另寻他途。 于是“你”的定语角色 instead of 主语的可能进入理解: 他拿了你(的)不该拿的东西 == 他拿了他不该拿的属于你的东西。 3 一时想不通1与2的语义落地场景的人 会觉得这是个病句。 白: 其实,“拿”有三坑。谁,拿谁的,什么。 如果“你”进入定语从句,就少了一个萝卜,坑不饱和。所以,“完形优先”的策略会倾向于使坑饱和的分析结果。 Me: 我觉得“拿” 有两坑,通常不认为作为孙子的 “谁的” 可以提上来做儿子。 【谁】 拿 【什么】 【什么】有没有定语的坑 要看是什么名词。一般专名(如人名机构名) 材料(如 石头 钢铁)或产品种类(如智能手机 数字电视等)就无坑。但产品专名(如iPhone)可以有拥有者 算是有坑:“我拿石块”。石块不能算有坑,没有预期。如果强加了定语,那个定语是随机性的,不是语义必需的:“我拿了他家的石块”。 我拿iPhone7 默认是:我拿我的iPhone7。要是拿别人的,那可能就是窃了。 白: 拿人东西手短 Me: 还是有儿孙之别,长幼有序: take 's “ take 's ” seems a bit too flat,cf: buy buy I bought an iPhone7 of course we can say: I bought Apple's iPhone7,but Apple does not need to associate with buy directly 白: 表“取得”义有一大批动词,拿、捡、取、抢、夺、偷、窃、娶、借、买……,都有三个月坑,无需搞两层。间接宾语就是原所有者,逻辑主语就是新所有者。 Me: 定语一直很灰色(介于arg坑与随机mod之间)。如果这么说坑,也可以有四个坑五个坑: 【1 谁】 【2 从哪里】 拿 【3 谁的】 【4 什么】 【1 谁】 【2 从哪里】 拿 【3 谁的】 【4 什么】 【5 到哪里: 目标地】 白: “所有”义由动词自带,无需借助其他手段。到哪里不是标配,谁的和哪里合并。给予类,给谁是标配。 Me: 从双宾 “给予” 开始,带两个实体的坑就逐渐处于灰色。“给予” 的 【接受者】 是公认的坑。到了另一种间接宾语 【为谁】 买 【什么】: buy sb sth --》 buy sth for sb 就有点从arg的坑向mod的随机成分移动了。 白: 自洽、能产就好。 Me: 其他的实体角色几乎都可以或者看成是 mods,或者是孙子辈。arg struture,除了这两种间接宾语,宾语以外的坑通常是非谓语动词,也就是动词的右嵌套或者是形容词做补足语。当然这多少受欧洲语言句法框架的影响。如果超越句法,还是看 HowNet 的坑怎么定义的比较靠谱。这样一来,句法的args不过三,就需要突破了。 所谓“坑”,根子源自常识语义的本体,体现却在各个语言的句法。由于句法体系有个语言学共性,即我 所谓args不过三的普世原则 ,结果,有些常识语义的“坑”在句法就被降格成 mods 了。这里面自有上帝造语言的玄机在,我以为。幸亏有上帝在,自然语言乱中有静,冥冥之中自有其不变之法。语言学家就是法师,可以直接与上帝对话,而普罗 native speakers 呢,只是下意识遵循,或试图不遵循:但也还是逃不过如来佛的手掌。你可以偶然违规,你不能永远违法,也不能连续不断地违规。语言可以灰色,但不可以黑色。社会媒体可以乱象丛生,但还是可以捕捉到舆情。 中文可以裸奔 ,但不能无法。不管怎么裸奔,也还是个人形。无法的裸奔,那就成怪物了。汉语无文法论,可以休矣。无法,人如何把握,又如何能理解? 白: 怎么可能无法,最多就是一叶障目 【相关】 泥沙龙笔记:汉语就是一种“裸奔” 的语言 【李白之21:萝卜多坑不够咋办】 【语义计算:李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3376 次阅读|2 个评论
【语义计算:绕开句法做语义不合适】
liwei999 2017-3-20 08:02
Jiang: 请教一下各位老师,“咱为什么不用接龙报名来招机器人班?”是否合乎语法规范?如果不合乎语法规范,为什么大家理解起来还没有问题?这个现象说明了什么?说明语法是人为的,不能用来约束鲜活的语言发展事实么? Bai: @姜博士 合语法呀,没看出什么问题 Jiang: @白 嗯!我担心“招”和“班”从语法上来看搭配不妥。有您印证,我就大胆地这么说了。 Bai: “班”是“招”的逻辑主语。 Me: 嗯! “逻辑主语”概念挺好,和“主语”有何区别? Bai: 就是以这个动词组成典型的、正常的、统计上占优的主谓句的话,应该在其中当主语的那个角色。 Me: 严格说来 最底层还不是逻辑主语 Jiang: 喔? Me: 招 ,“班” 是目的。第一个human是逻辑主语,第二个human是逻辑宾语。 Jiang: 您的意思“招”的宾语还是“human”! Me: 对。班 是 招 的结果或目的,宾语表示结果在汉语不鲜见。 Jiang: “招生”可以说,也易于理解。但“招班”虽然可以说,但理解起来要拐个弯,理解成“为班招人”! Me: 招生成班。挖土 挖坑 挖土成坑,同理。 Jiang: 感觉引入“主谓宾定补状”等语法成分有用,可以用来分析描述语言现象。但如果为之所累,或者非要顾及合乎语法与否,会影响语言学的深入发展。 Me: 没有不合语法呀。 挖坑 一直存在, 没有语法规定宾语一定要是逻辑宾语。再如:吃饭 吃食堂 吃亏 ...... 宾语不是逻辑宾语很常见的。 Bai: 也许是“招人成班”,一个“经办人员”为“学校”招“人”成“班”。但是,经办人员不过是学校意志的代言人,学校是班的上位整体。这个办事人不需要强调的时候就融化在学校里 甚至可以说是学校的“工具”。招这个动作,真正的决策主体是“学校”。反而,办事人员如果大言不惭地说“我招了谁谁谁”,颇有贪天之功的嫌疑了。所以,学校是大主语,班是小主语,学生是宾语,办事人员是工具。工具偶尔升格为主语,但真正主语到来时必须让位。学校在出现显性介词(如“为”)时降格为介宾,与介词一起做状语。学校与班的关系,是整体与部分的关系。 Jiangg: 嗯!这么说来,这里边的关系挺不简单的。感觉“主语”这个语法概念和“工具”这个语义项概念粒度不一样。为了说清楚其语义,可以不借助语法概念。语法概念的引入把事情弄复杂了。 Bai: 语法自己还有打不清的架,又跟语义有说不清的纠缠,所以不能驾驭的建议干脆绕道,能驾驭的,从简为妙。 Jiang: 感觉语法体系是人凭感觉硬造的,在实际的语义分析中,不应过分依赖它或在意它。 Bai: 会用的可以借力。不会用的硬要用只会添麻烦。 Gong: 我在淘宝的经验是处理语法或语义不用照搬理论,解决实际问题即可。例如了点,我会认为是一个程度副词。 Bai: 不管语法语义,要回答的就两个问题:1、谁跟谁有关系;2、是什么关系。 这两个问题回答清楚了就上了三楼。至于一楼二楼怎么分,最终应用不care。 但是一楼二楼分好了,上三楼就可以有“利器”。 Me: 句法存在有几个理由: 1 句法的确有一定的概括性 只是汉语句法的概括性不如欧洲语言而已。 2 概括性的表现之一就是句法角色对逻辑语义的标配(default)映射,譬如 句法主语的标配映射是施事(逻辑主语),其次是逻辑宾语,第三位的映射是工具。标配以外的所有映射 都需要特别的条件。 3 句法关系比较简单:逻辑语义非专家不能 而且不容易达成一致。简单的直接体现就是数目,句法关系不过十个;逻辑语义可以到百。差了将近一个数量级,掌控起来 难度不同。如果做语言教学,“主谓宾定状补” 的说法 虽然仍难免捉襟见肘 但的确容易解说一些也大体抓住了关系的概貌。 4 其实更本质的理由还是语言共性的作用:无论汉语还是欧洲语言 语言学中的 subcat patterns 中的 args 不过三,这就为句法主宾补(补足语包括间接宾语,不仅仅是所谓【补语】),做了背书。至于这些主 宾,在深层不一定标配映射到语义的逻辑主语或逻辑宾语,那是另一层面的问题 是句法语义的接口问题 不宜混为一谈。所以白老师说句法做好 可以借力。欧洲语言的句法借力是很显然的 其实汉语中也有很多借力的地方。不过确实需要一点高度 才好玩这个句法语义接口的游戏。做直升飞机上三楼 固然是好 只怕更难。 以上几点是相互联系的 是不停角度的视点和论证。我的主张是 汉语研究不宜跳过句法 但汉语句法需要更大的张力和灵活变通才好。句法的框架设计 在解决“谁与谁发生关系”中 至关重要, 在解决发生什么关系上, 起了一个标配和桥梁的作用。 跳过句法可行否? 这个问题可以这样理解: 如果针对特定领域 特别是特定应用, 别说跳过句法, 就是跳过语义, 都是可能的。所谓端对端就是跳过了显性的语言学。但是对于 open domain 的语言分析应用的通用引擎 哪个环节都不宜跳过。跳过了 就难以深入和坚固。 自然语言(尤其汉语)是如此复杂 。语言学的几大部分已经是最起码的分野和分工了 还想要跳过,不对路呀。模块化多层处理是深度自然语言分析和理解的正道。 语言学的几大块是语言学多年研究传承的结晶 不宜轻言跳跃或抛弃,包括 Lexicon / Morphology / Syntax / Semantics / Discourse / Pragmatics,这几大块处于语言研究的不同层面。不能因为它们的接口复杂(尤其是汉语的词典与句法接口,句法和语义的接口),就否定或忽略了它们的层面不同。不少人希望破除繁琐哲学 要一锅烩,深度神经的端对端算是一个成功案例,但局限似乎在对带标大数据的要求上 还有就是连带的领域移植性问题。对于通用的语言分析理解 迄今没见成功案例 也不大可能。董老师说法 上帝不可欺。 Dong: 当年在农村插队落户,老农的一句话,我记了一辈子:种庄稼,你糊弄它一时,它糊弄你一年。科学研究,你糊弄它一时,它可就糊弄你一辈子。李维说的对,别以为有了语义,就可以绕过句法。语义离了句法,还如何处理语言呢? Guo: @wei 跟你抬个杠。 今天,深度神经不一定是端到端,机器学习不一定要带标大数据,语言处理多不是领域专用。 今天已知的“神经翻译”,第一步是word2vec,就是把“word”(不拘泥于词典词)转换成“vector”。这一步大家常用unsupervised方法独立做,没什么“端到端”,“带标大数据”,“领域专用”。 “神经翻译”常见的第二步,是seq2vec,就是把一个源语言sentence从一个“sequence of word vectors”转换成单一vector。这一步,也可以单独做,不用端到端带标大数据。 “神经翻译”常见的第三步,是vec2seq。这里需要端到端带标数据,但比想象中的“大”要小很多。 上面这两个vectors,如果要说成是对词和句的“深度理解”,免不了无尽的争执。但在神经计算的圈子里,他们的“通用性”性是显而易见的。同样一个句子的vector,人们不仅用它来生成不同语言的翻译或者产生对话,还有人用它来生成一幅画或者一段音乐。那个word vector,就更是无所不在了。 Me: 好问。 第一步 第二步 是一种 representation 的转换, 还是一个相对独立的知识训练?第一步对应的是什么知识?第二步又是什么知识?如果是对应某种知识, 那么 unsupervised 的训练如何反映这种知识或目标? 貌似第一步是 lexical semantics and ontology, 这个容易达成共识,无监督学习应该是可行的。第二步是 句法的模拟或逼近,理论上讲是难以无监督学会的。 Guo: 第三步vec2seq其实也是可以独立的。这就是为什么翻译出来的句子总是很顺的原因。 Me: 很顺的另一个说法是狗胆包天。哈 上次把肯定翻译成否定, 人是万万不敢的 除非自找炒鱿鱼 很顺的秘诀来源于大数据的特性, 棱角和独特性的语言表达被过滤了, 飘在上面的语言表达比人类表达的平均水平要 “高”。 Dong: @Guo 学了不少东西。我一直纳闷的是,NMT有时会漏译、过度翻译等,那是怎样造成的呢?研发者知道原因,并知道如何去改进它吗?举个例子: (英文)There was a very serious accident on the Beijing-Tangjin highway on Tuesday morning, resulting in a brutal jam. Victims say the traffic started to slow down around 4 o'clock Monday morning. (谷歌):北京 - 唐津高速公路上星期二上午发生了严重事故,造成了残酷的果酱。受害人说,交通开始在周一上午4点左右减速。 (百度):在北京唐津高速公路上星期二上午非常严重的事故,造成一个残酷的果酱。受害者说星期一早上四点左右交通开始减速。 他们研发者发现后知道将来应该如何修改、提高呢? Guo: @董 翻译中的遗漏或者添油加醋,都是已知的问题,主要就是因为,那个中间的vector表达,没有在任何地方有显式的成分表达。 简单讲,这有点像口译,你先说一句话,别人听懂了,然后他把那句话用她自己的理解转述出来。如果不做笔记,口译的人是很难保证不增加或者减少内容的。但是他一定能说得很顺。 现在已提出些补救的办法。例如在谷歌的神经翻译中,就有一个所谓的,关注模型,希望输入的句子对输出的句子,能有一些比较直接的影响。但很显然,这个效果还是没能让人满意。 Dong: 没有在任何地方有显式的成分表达。显式是什么样的?那么为何不让它具有这个“显式”表达呢?是疏忽,环视技术上有障碍?@Guo 这是不是跟口译的情形还有点不同。口译是理解原文意思后的翻译复述,有着难免的变通。而NMT实际上是完全不是自觉的。大概有点像图像识别、语音识别,它在技术上完成了比较后,挑选了最“像”的结果。 Guo: @董 现在常见的深度神经,无论是机器翻译,图像识别,语音识别,还是其他的应用,基本上都是先将输入转化为一个相对通用的一个中间表达(一般就是4096个数值),然后用这个中间表达,来完成具体的不同的任务。 这个中间表达,对不少深度神经的从业者而言,就是对原文的“深度理解”。 当然,机器到底“理解”了什么,我们还说不清楚,但也不是一无所知。 【相关】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3375 次阅读|0 个评论
【李白之29:依存关系图引入短语结构的百利一弊】
热度 1 liwei999 2017-2-10 04:55
我: 至于基本短语的 Phrase Structure (PS) 边界迷雾(【长大的战友】),除非发现碍事(譬如不加修整地在产品 display这样的xp结果),不管他了。说到底,pure dependency grammar tree representation 本来是没有显性边界的,没有短语结构(PS) 的牵扯,一切都发生在词与词(terminal nodes)之间,只不过我们在实践中,把乔老爷的短语结构的概念,有限度地在 shallow parsing 阶段带入,成了一个 hybrid tree, 这才有了这个所谓的边界的问题。换句话说,这是一个系统内部在模型化过程中“人造”出来的问题。 白: 这是“坑”和“坑的坑”不加区别地混同的结果。 我: 这种 hybrid 的表达法的好处太多了,以前论过 (e.g. 《 语义计算沙龙 :基本短语是浅层和深层parsing的重要接口》 ),带来这么点副作用我觉得可以忍受。但我们应该记住,dependency 的本质原本就是独立于短语结构的(属另一个 very competitive 的 syntactic representation),所有的边界都可以通过父子关系,间接而完整地事后确定。譬如上图中“已经”和“儿女”都是【长大的战友】的children,“长大”也是 ,边界事后确定校正就包括了这些儿女,if needed。不影响核心逻辑语义及其理解是关键。 白: 如果站在填坑的角度,区别二者是理所当然的,并不需要刻意多做什么 我: 白老师是,站着说话啊。 白: 这只是说明“树”这种结构不如“坑-填坑”这种结构更接近语言的本质 我: 白老师上面这句话很妙啊:我个人的翻译就是,乔老爷的短语结构那一套(PSG及其表达法),不如词(概念)与词之间的依从关系更接近自然语言的(逻辑)本质。I honestly cannot agree more. 所谓坑与填坑的结构,就是依从关系建立的条件匹配与满足。“不需要刻意多做什么”是你心中的 approach。我现在的patching就不是这样了,在我这儿,为了人看着舒服的事儿,可以做,但不是必做。必做的事儿是在应用的时候碰到了不想要的后果,那就回过来再把屁股擦干净。 白: 他那些杀红了眼,刺刀上沾满血的战友们可管不了那些了。 “儿女”有坑,把“战友”捎带上还可以解释。“刺刀”的坑是“枪”,“枪”的主人是human,这弯儿拐的。句法非标配的坑,靠语义中间件凌空凿开一个坑,才能把定语从句的钩子钩上。 第一个“那些”如果去掉,好像不通了,或者说链条断开了: ?他杀红了眼,刺刀上沾满血的战友们可管不了那些了。 所以,凌空开凿的坑无法填装远距离的“友元”。 我: 白: “刺刀上沾满血”是自足的,弄个S出来,似乎不能自圆其说。 我: 有那么自足吗? 战友们刺刀上沾满血 战友们沾满血 刺刀沾满血 刺刀上沾满血 这个后置词“上”字把本来可能的一个主语降格了,变成更像状语了。这就为 “战友们” 出场做主语创造了条件或坑。 白: S,一定有填坑的关系。“战友们”究竟填了什么坑,不深究是看不出来的。 好像“刺刀”和“战友们”通过这种结构浑然成为了一个整体,“刺刀”成为了“战友们”的一个部件(body part)。 我: 虽然董老师那一层的逻辑语义,可以不管这些表层的 trigger 而保持 【human】 和 【physical object】二者的逻辑地位的稳定,但是 parsing 过程中,这些句法痕迹及其引致的句法“坑”的动态变化还是有迹可循的:PP 把潜在主语降格,让位给其他 NP: 他沾满血了?哪里沾满血? 他在(他的)刺刀上沾满血,身上滴血不沾 “战友” 是大物体,“刺刀” 是小物体。“刺刀” 在这个场景,就是大物体中的一个小物体,与 body part 功能很接近。“他刺刀上沾满血,可手上却没有”,这与前一阵子讨论过的英语表达 hit sb on+bodypart 类似,到了汉语就成为所有关系的表达了: 他击中了我的头 击中 的是 “我” 还是 “头”? 沾血的是“人”还是“刺刀”?当然,“上”也是一个讨厌的小词,在接近成语的表达法中不一定降格,譬如 用“组织上”代替“组织”做主语的情形。 组织上批准了你的建议。 对于战士,刺刀就是手脚的延伸,成为一个战士的不可或缺的部件。 白: 地方上,县上,州上 甚至“今上” 我: 这现象是词典化的了吗 还是相当地开放? 白: 他衣服上残留着油渍。他工位上挂着两条领带。他单位里流传着很多绯闻。 他桌子上永远整整齐齐。 可以肯定,1、这是一个系统性的现象,不是偶然或者活用。2、到底是主语还是应加但未加“的”的定语,似乎有个连续的谱系。3、一个具体用法在这个谱系中的定位,与形式状语和形式主语整合为一个整体、或者说形式主语延伸到足以包括形式状语的可接受性有关。整合越不可接受,形式主语越像定语;整合越可接受,形式主语越像逻辑主语。 我: 语言学理论中 主语与定语 地位很接近,虽然前者属于 arg 后者属于 adjunct。它们都是 external 的成分 有很多相通之处。乔姆斯基xbar 理论的起因之一就是要统一主语和(部分)定语,在句法结构的理论上给一个统一的说法(参见 乔氏 X 杠杠理论 以及各式树形图表达法 )。 【相关】 【李白对话录系列】 《泥沙龙笔记:漫谈自动句法分析和树形图表达》 乔氏 X 杠杠理论 以及各式树形图表达法 【语义计算群:句法语义的萝卜与坑】 《 语义计算沙龙 :基本短语是浅层和深层parsing的重要接口》 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3698 次阅读|2 个评论
【李白之21:萝卜多坑不够咋办】
liwei999 2017-1-21 07:09
【立委按】 核心成分 args 不过三 句型不过百 是我们语言学家对于世界主要类型的语言观察到的普遍规律 或曰普遍文法。语言的奇妙 莫过于此。可是思维没有这么简单 一个事件可以有很多成分。这个矛盾 语言怎么解决的呢?模型语言的 parser 又有怎样的对策呢?不骗你 做个语言学家真好 可以洞悉很多上帝和人的奥秘。 白: 你那个打铁的图,不大对啊 我: 白老师眼毒是出了名的。是的,“打-铁” saturated 在强搭配中了,就不应该再去外挂另一个宾语,这跟娶两个老婆同罪。系统目前没那个严苛,执法不力。但也说明了,后一个老婆也许应该降格,降成姨太太。如果宾语是大房,那么 complement 就是二房,打的是正室的铁(morphology 的 compounding),打的结果就是二房的钉子(syntax)。用逻辑语义的话说,一个是受事宾语,一个是结果补足语:是为打铁成钉。 众所周知,句法的宾语其实可以有很多不同的逻辑语义。默认标配的逻辑语义是受事。但对象、结果等都可以的。“打铁” vs “打钉子”,前者是标配的【受事】,后者是【结果】,但都可以以宾语的身份或分布现身。 白: 如果给盖房子的盖规定只有两个坑的名额:我,房子,木头,怎么填? “他考清华研究生数学八十五分” 不止四个 我: 这是说的萝卜多,坑不够,是吧? 白: “这些木头可以盖很多房子” 我: 这个不用试我就知道:目前就是主谓宾。将来细磨逻辑语义的话,“木头”是【材料工具】类的逻辑语义坑,房子则是【结果】。 白: “这些木头我可以盖很多房子” 我: 这个也可以预测到,耍个流氓,不是 Topic 便是 Next,将来细磨 ontology,也可以让流氓从良。 白: topic是温吞水,上不着天下不着地,既不是标配的成分,又没说填谁的坑 我: 不过一步之遥啊。但是 Topic 或 Next 所直接连接的 token,通常没错。换句话说,坑是填了,不过妾身不明,不知道跳进了啥坑而已。妾身不明是因为 knowledge poor,一旦有了大数据或有了 HowNet 类的本体知识,knowledge rich 了,也就可以验明身份了。 白: 穆斯林比旧中国好。说好了四个就不可以多。再耍流氓也只能在四个范围里耍。 我: 其实不是。这个问题我想过很久:世界上的语言五花八门,主要类型的语言都有一个突出的共性:就是句型非常有限,不过百(主要句型不过二三十个) 。主要原因是,句法上 arg structure 的坑是有严格的数量限制的,不过三。超过的部分肯定属于另类,那就是 mods 了。但实际上,语义层面的 args 和 adjuncts 的界限,比句法上的 complements 和 mods 的界限 要模糊得多。这就是为什么 hownet 里面的坑,比 句法词典里面的 subcat 的坑,有时候更多。本来二者是有映射呼应(correspondance)关系的,但从纯粹语义角度考虑,有些 mods 需要被拉进坑来,语义的本体定义才完整。这是我看 HowNet 董老师的处置得出的体会。 考清华那句也是醉了。语义上的 args 包括: 考-清华 【school】 考-研究生 【graduate program】 考-数学【knowledge】 考八十五分【RESULT】 加上主语 ”他“ 就是 5 args,即便把补语“85分” 当成后置 mod(当成谓语亦无不可),也有四个 args,这不符合 arg structure 原则上不过三的普世句法(UG)。我认为,正因为普世句法有这个args不过三的原则,才使得人类的语言的结构变得 tractable,人类语言因而可理解,方便了交流。三个 args 的排列组合可达 6 种,加上其句型变体可控制在百种之内(常用句型也就二三十个),几乎达到了人脑短期记忆的极限,哪怕再加一个,就几乎不可收拾了。人脑很可怜的。不得不佩服自然语言架构的恰到好处:说语言背后没有上帝是很难让人信服的,难怪乔老爷坚持普遍文法是人天生的、普世的。 可是逻辑语义上,同一个谓词可以有很多 args 的,这就造成了思维内容与语言表达的矛盾。自然语言又是怎么解决这个矛盾的呢?思维上的多坑,到了文句的句法不允许有这么多坑,怎么办? 白: 这是理论问题不是技术问题。技术问题是,准备了俩坑,来了三个萝卜,怎么处理? 我: 有了理论,技术还不好办?纲举目张啊。 技术就是: syntactic parsing: 耍流氓 semantic parsing:根据 HowNet,教育流氓从良。 也就是,没知识就耍流氓,有了知识立地成佛。 白: 技术就是,其中一个萝卜历史上做mod居多,果断降级 我: 历史不历史,那是语言处理的时候,选择谁 out 的一个数据依据。关键是降级:萝卜多了坑不够,不降级还能怎么着?这才叫:英雄所见略同。 你那一路也行,但是还是重负前行。这个从大数据来的历史 不管怎么表示和使用,都是一个很大的 overhead 白: 在中间件里,matcher是极其轻装的。 我: 中间件庞大。call 它一下,等价于一次信息检索??这个也许 overhead 不大,可是怎么对付优选语义呢?不是相谐还是不相谐,而是多大程度相谐?或者比较另一可能,更相谐还是更不相谐?多大程度相谐是个无底洞,不说它。更相谐与否,就是一个是否判断。这时候提交的是两对。两次在线检索 才能在线比较计算大小,是不是?在线是因为无法预知哪两对需要比较,无法预先计算好。 回到白老师上面的问题:盖房子的“盖” 句法上似乎大家都认为就是两个坑:一个主语 一个宾语,who 盖了 what,但是从语义的本体定义和结构看,至少有三个坑: 【who】 盖了 【what】 by【what materials】。我常把这种多出来的语义坑看成是处于 args 与 mods 边缘地带的东西。还有一个典型的例子 translate:绝大多数动词最多有三个 args:主、宾、补足语,但是 translate 四个比较合适: translates 。语言实践中,PP(from)常被当成状语,而不是arg,有人把 PP(into)也当成状语。这就是 args 降格为 mods 的结构处置现象。 面对萝卜多坑不够的语言表达困境,一般而言,主要是两个路子,(1)一个是迫使语言把多个 args 分散到不同的句子去表达,这样一来每个句子的结构还是在限定的坑数之内,subcat upto-3-arg patterns are very tractable;(2)给 args 降格:降格为理论上随机的 mods。由于(1),于是产生了句法的主语、宾语,可以对应10几个不同的逻辑语义的坑。 刚刚 parse 了白老师的句子,看看目前这个根据语言学句法原则制定的parser怎么对付多于3的萝卜, 结果是: 哈,果然。遵循普世文法来模型自然语言的 parser 采用的是降格,策略(2):“清华”的 arg 和 “研究生” 的 arg 都被降格成mods,只剩下 “数学” 作为 head N,堂堂正正填了宾语的坑。作为句法 parsing,这种处理是符合语言架构原则的,非常合理。但是作为深度分析和语言理解,句法被降格的成分,应该重新“升格”到 args 的逻辑语义 slots 去,语言深度解析才比较完美。逻辑升格了,其他句子的 “考清华” 或 “考研究生” 的说法,就会与这一句的说法语义一致,可以 unify。这个升格的任务,也应是语义模块的任务之一。语义模块不仅要填写句法上省略的 hidden args,而且要把部分mods升格为 逻辑的 args。这些 mods 是人类语言表达的时候被 UG 下意识降格的成分。 【相关】 【李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3675 次阅读|0 个评论
【李白之20:得字结构的处置及其结构表达】
liwei999 2017-1-21 07:07
白: 他写字好 他人品好 多么平行呀,为什么两个“好”待遇这么悬殊 我: 好 是一个百搭词。因为百搭 所以赶上谁谁:他好;人品好;写字好。 白: 其实就是有一个pos为wildcard的坑,我这里标记是X 我: 人品和写字 都有一个 “人” 坑:一个是【所有】,一个是【施事】。 白: 我: 没看清 “得”怎么带的“好”。 白: 箭头方向是坑,箭尾方向是萝卜。得的输入是谓词,输出是体词。好的输入既可以是谓词,也可以是体词。语义上是把动作转化为为对象,然后以对象的身份填坑。 我: “好” 没疑问。说 “得” 输出 N, N 被“好”吸收,这个说法有些不好理解,也不大看得出好处。传统说法是 “得字结构” 做谓语的【补语】。不一致的地方在于得字结构怎么构成、谁先谁后。得字结构的构成是“得”有坑,而不是“得”先与谓语结合,然后去填坑。你这里parsing 的先后正好与传统做法次序相反。 白: 结合以后做主语,让“好”做谓语。不是“好”或者“得好”做补语。 我: 这个句法分析与众不同。“得字结构”构成很容易: 【得 评价类形容词】 是一种; 干得漂亮。 【得 vp】:跑得快(这时候 vp 的逻辑主语沿用前一个谓语的主语)。 【得 s】 是另一种: 气得他哭了。 白: 没问题,“他”反填回“气”不占名额,可以处理成一个。无非就是约定什么情况下一个萝卜填俩坑不占名额的问题。跑得快,和跑得上气不接下气,结构上没有本质不同。病得很严重,和病得起不来床,也是一个结构。并不因是否使用了评价类形容词而不同。传统所谓程度补语,都可以用这个套路。 但是可能补语好像不一样。搬得动,睡得着,考得上一类。跑得快,跑快了,跑快些,跑赢了 填坑结果一样吗? 我: 可能补语是词典扩展 lexical rule,算是词典一级的延伸扩展,不难处理。 白: 因循守旧最简单了,我之前就是这么玩的。垂直方向是填坑关系,水平方向是修饰关系。但是不知道谁填“严重”的坑。root也和语感不符。这样的结构也是可以有的: “他的病很严重”和“他病得很严重”不应该在“严重”的填坑方面有大的不同才对。要么这样: “得”的填入体“很严重”留下了一个待填的坑X。作为root的“病”,向自己修饰语的体内回填S,不占萝卜指标。这就成环了。 同理,“他病得起不来床”可以处理成:这次轮到体外的“他”向“起不来床”回填N。在体外不占名额,所以“病”照填不误;体内“起”“来”为合并关系,共享除了“床”之外的一个坑,也只用一个名额。所以从“他”出发的三个萝卜,竟有两个是不占名额的。 这么处理,如果不耽误回填,也挺好。反正再怎么折腾都只折腾“得”一个词条,跟别人无关。补语还是补语,但需要回填。的 、地 、得 都有了。它们都是单进单出,去掉确实不影响拓扑,但是放在那里可以揭示语义类型转换的逻辑。 我: 关键是 “病”与“很严重”具有直接联系。另外,【human】作为 N 的 Mod 与 【human】作为 V 的 S,具有相似性。这个甚至在 X-bar theory 中就有所揭示(specifier and subj are both external args)。进入深层逻辑,可以认为这是同一个关系的两种变式。 白: 可以再推广: 这本书的出版,这套房子的装修,这款软件的开发。 不是S,不是human,也有同样的暗通款曲。 我: 白: 看不到“这本书”是如何填“出版”的坑的。 我: 还没做呢,自然看不到。都是 Mod 作为句法桥梁,语义中间件目前还没全到位。加上这个逻辑 O 不难,只要与逻辑 S 区别就好:“出版”的宾语坑,需要一个【publication】的萝卜,放松一点也起码是一个非【human】或非【organization】的萝卜。 白: 这一部分完全是探讨,与formalism无关,只是在formalism框架内探讨小词“得”负载结构的不同表示方法的优劣。 【相关】 【李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3676 次阅读|0 个评论
【李白之16:小词负载结构与小词只参与模式条件之辩】
liwei999 2017-1-6 18:52
白: “是他杀的张三”是一个完整句子吗? 主谓宾都在哪儿? 我: shi S Vt de O ==》SVO 很常见的句式,主谓宾齐全, 是 S V 的 O == S V 的 O == SVO 不过其中 “SV的O” 有歧义,因为与带定语从句的NP同形。 不过加了强调小词 “是” 在句首以后,似乎歧义就消失了。 白: “是”当什么?自己没有主谓宾? 我: 是数学我不喜欢。 是在北京他们开的董事会。 是1990年我毕业的。 句首的“是”,是强调小词。 类似于英语的强调表达法: it is X 。。。。 it was in 1990 when I graduated It was in Beijing where we got the deal 白: 可否认为“张三是他杀的”,然后“张三”后移到句尾。 我: 张三是他杀的 ==》 是他杀的张三 ? 张三他杀的 ==》 他杀的张三 白: “是他杀了张三”可以这么做。“是他杀的张三”不能。 “是他杀了张三”跟“有人敲门”是一个性质,在坑论里是两个谓词合并,共享一个萝卜。 但“是他杀的张三”不好套用这个结构。没办法把二元关系进行到底。不仅“的”捞不出来,连“是”还得搭进去。 我: “的” 字的两个用法:1 定语标志(或所有格);2. 肯定语气 表示肯定语气的 ”的“,通常位于句末,也常与表示肯定或强调的 ”是“ 搭配使用: 是 XP 的 貌似由此衍生出表示肯定的 ”的“ 用于谓宾之间。 “是他杀的张三” 说的是对过去或完成的肯定,但是却不允许用助词 ”了“ 或 ”过“,原因可能是这个位置被 “的” 占据了。另一个原因是 这种肯定语气蕴含了完成。肯定的行为动作不可能是没有发生的事件。 在 pattern 中,只要能列举出这种即可,很容易捕捉,除非是歧义。 白: 表达什么先不管,谁跟谁有关系是首先要解决的。 我: 没有句首“是”的pattern “SV的O” 的确有歧义,但是这种歧义是 consistent 的。对于consistent 的歧义,其实不难处理,可以将错就错。直到错到某个点,系统觉得应该校正了,就校正。现在的处置是,开始 parsing 的时候,一律做定语从句看。 白: 有套路,就把构成套路的词摘到二元关系之外,语言学上不够简约。 前面说到的踢出机制试了几个例子,很好玩,基本通了。 我: 有套路,就把构成套路的词摘到二元关系之外,没有问题啊。因为小词已经在套路(patterns)起到了该起的条件作用,譬如 “是+S+V+的+O”,在这个 pattern 中,没有歧义, SVO 被确定,逻辑语义被解构,一抓一个准,完事了,把 “是” 和 “的” 这种句法辅助小词挂起来。这是pattern的天经地义。pattern 比起二元关系环环相扣的 parsing 有不同的优缺点:pattern 可能比较长,上述 pattern 是个五元组,实词的元是XP,所以实际的跨越可能是很长的 string,用的是长度来换取确定性,牺牲了某种抽象性,或换句话说,带来了一些规则的冗余度。二元关系环环相扣的做法,可能更加简约和概括。 白: 做系统咋都行。做句法。感觉非常实用主义,理论上不连贯。 我: 句法标配说的是 sv 语序,多数系统都用的。你的系统先不用,是例外。 白: 我这不用。至少matcher不用。以后语义模块用另说。 我: 虽然汉语语序很操蛋,孤立语中它自由得简直不讲道理,但是 sv 是默认,有统计性依据,也有心理认知的依据。这一汉语句法标配的形式痕迹,不用白不用。 白: 用了也有误导的时候。 我在尝试踢出边的功能:一个强搭配萝卜进来,在坑饱和的情况下,踢走一个已经进坑的萝卜,自己跳坑。如果没有不占指标的额度的话。一进一出,不破坏结构,不重构结构,也不改变结构对外部的联系。与所谓“回溯”大不一样。拔出来的萝卜再进什么坑,全看后续发展。 我: 所以句法结构的时候 可以不利用语序,因为这个结构的标签暂时不不用给出。其实这是跳过句法标签,直接在下一步进入逻辑语义标签。但传统做法是区分 arg1 arg2 arg3,现在是不区分 只说这是arg,有别于 mod 就可以了。 白: 但是各个arg如果subcat不同的话,需要锁定,免得互相串了。 我: 所以是标签隐藏在后面,暂时不露而已。 对,免得互相串了 是必须的。 白: 如果连另一个可能性都没有指出来,焉知落地想要的不是另一个? 我: 这个问题哪里会有?是落地的需求 drive 开发呀。世界上哪里有飘在天上搞开发的呢。何况开发这事儿也不是一锤子买卖。今天没有的可能性,明天加上可能性也是可以的。系统不可能是一成不变的。pattern 不变的话,在结论上增加点什么,连重新测试都不需要就可以搞定,有何难哉?更何况 我们 patterns 用完小词以后,还发扬了革命人道主义,并没有扔掉敲门砖,还用 X 把小词给挂上呢。所有的痕迹都在,过河没拆桥。不过是不让过了河的桥和敲了门的砖占据我们的语义核心地位而已。 小词负载结构,我的理解,本质上也就是一个过渡,一个粘结剂,一个特定的 parsing 算法所依赖的一种手段,并不是一种必需。小词成为条件,则是一种通用的必需,因为没有小词,结构关系就很难搞定,这是小词存在的理由。 白: “杀人犯把卖盐的杀了化妆成卖盐的在那卖盐。”杀人犯是卖盐的? 我: 那句话一时看不懂,但 point 明白了。你是在诘问 把“S是V的”处理成 SV 的做法。它们不等同,不仅仅是 affirmative 的差别,还有另一个差别在。这个差别是,“S是V” 的 可以回答 “S是谁” 的问题,而 “SV” 不能回答 “S是谁” 的问题。好,这是一个典型的语义落地决定如何表达的例子。现在的问答系统的语义落地有对这两种结构做区分的需求,那就让第二个pattern在输出表达中,把这种需求满足即可。譬如,可以让第二个pattern (S 是 V 的)输出这样的结果: arg structure: S V feature: affirmative answer: who is S 白: 杀人犯不是卖盐的VS杀人犯不卖盐 这些零碎副词加在affirmative上还是加在普通谓语上怎么区分? 我: bottom line is pattern1 和 pattern2 是两个独立的捕捉,二者该怎样处理都可以,加在哪里都可以。加在哪里落地好用,落地觉得有用,就加在哪里。这都不是事儿。媳妇都娶回家了,怎么打扮还不是男家一句话吗? 白: 那就是说实际上做了两个谓词,简化成一个谓词是伪命题。而小词负载结构,只不过把两个谓词显性化而已。 我: 早早年的parsing,其原始定义记得是没有parse tree的表达的。什么都没有。就是一个合法非法的结论。所谓合法的结论,就是 parser 把那个句子从头到尾都吃进去了。 白: 判定问题 我: 后来的 tree representation 或其他的表达,全部是 parsing 过程留下的痕迹,或副作用。这样看parsing就明白了娶媳妇是核心,打扮媳妇是具有任意性和功利性的副产品。小词负载结构如果能在语义上表现出贡献,那么这种贡献可以等价地由 pattern 给出。换句话说,如果某种用小词作为枢纽来区别谓词的表达法,对于语义落地有益,那么没有人可以阻挡pattern的编写者,输出同样的表达。但实践中,我们知道,其实绝大多数时候,这些小词丢掉了,核心语义没啥损失。譬如 小词 “把”点名了宾语的所在,借助它表达出宾语的核心语义以后,“把”的使命也就完结了。 白: “把”和述补结构连接,绝不是只有“宾语”这一个含义。参照“他把眼睛哭肿了。” 我: 小词负载结构的语义贡献注定是有限的小词的本质就是句法的显性形式,在句法走向逻辑语义的过程中,形式走向内容。表层走向深层。言语走向逻辑。这种趋向决定了小词负载结构基本是边缘的语义。换一个角度看这个问题,小词是 language specific 的,而语义的本质是人类共通,language-independent 的。language specific 的东西不会在语义里面唱主角。 30 年前,董老师提出,以人类共同的逻辑语义作为机器翻译的基础,而不是在句子表层实施转换。这样一来,不仅用了不同小词和词序的主动语态和被动语态被认为是相同的,而且动词与deverbal的名词也被认为是相同的。因为其 arg structure 的核心逻辑语义都是相同的。用它指导 MT 就是: I translated A from B into C == A is translated from B to C (by me) == my translation of A from B to C == 我把A从B翻译成C 当时觉得董老师的做法的确抓到了要害,但也觉得表层的小词和细微差别(譬如语态)也不能就这么扔了。最后的体会和结论是: 在语义落地的时候(譬如MT),逻辑语义是主要的,表层结构是辅助的。做到了逻辑语义的转换,基本任务可以算是完成了。但是要想做得更好一点,还可以参照表层结构或features,再做一些细节上的调整。譬如 英语是被动态的,也许也翻译成被动态更合适(其实,由于两个语言的显性被动表达形式具有不同的使用频度,只能说,部分的被动态用汉语的显性被动为宜,其他的被动态可以用隐性的被动形式,最后还有一部分被动其实更合适用汉语的主动态来翻译,这个要细细研究的话,可以针对不同情形结合表层和深层结构写一大篇来)。 总而言之,小词和表层,顾不上来的话,扔掉了也没啥大不了的。这些边缘的语义色彩,对于语义落地的不同场景或许可以有参照作用,但不是核心。 白: 实际情况是,逻辑语义也是人参照表层写出来的。本族语表层研究不到位,就只好迁就着走。就好像grandma不知道是姥姥还是奶奶。并不是他们说英语的人逻辑上不能定义和区分爸爸的妈妈还是妈妈的妈妈。我们要高频率地使用,就不能绕着走。 我: 这样看也是一个角度,有其道理。 理论上,逻辑语义应该是参照多数的人类语言提出来。基本立足点就是,人类的概念和思维是共同的,理解也应该是共同的,只是表达的时候穿了不同的外衣。当然,语言对思维也有反作用,因此人类思维和理解的共同性,只可能是大同小异,而不可能是完全一致。 白: 共同性体现为外衣的并集 如果主要外衣缺失,就谈不上共同性了 【相关】 【李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3001 次阅读|0 个评论
【李白之15:白老师的秘密武器探幽】
liwei999 2017-1-3 20:31
【立委按】 白老师不动声色开始亮剑了:独创的自然语言的parsing法术,无需规则,无需带标数据,词典主义标注加无监督大数据以克服知识瓶颈。深度计算,句法语义交融,借力RNN,以平天下。小试牛刀,以中文难句为例。先睹为快,以飨同仁。 我: 省略 head 最可恨。从“的字结构”和what-clause始,恨的是 队员都在 头儿却跑了,缺少头就缺少了语义相谐的依据。what I read 的语义是 【book】,可是很难找到这个本体的入口点。语义计算和细线条深度parsing就犯难了。当然,可以转弯抹角通过 “read”的 HowNet 网络里面的 logic subcat 的逻辑宾语的标配,把这个语义节点挖出来,这多费劲啊。 白: 别拿“的”不当头儿 我: “的” 与 what 一样,可以当头儿,但没有本体的底气。 白: 给它它就有 我: 我尝试过把 V 当头, 也尝试过拿 “的” 当头,都遇到这个本体的滑铁卢。V 麻烦更大一些,V 本身的本体在那儿添乱。理论上可以通过 V 询问 HowNet 去 retrieve 出来逻辑宾语的标配,然后赋值,并替代 V 的本体属性。Word 天,这不是人做的活儿。 我吃的 --》【food】 我看的 --》【ANY】 我修读的 --》【knowledge】 我parse的--》【language】 我干的 --【事业,or 勾当?】 白: 只需要指回来,不需要明确哪个坑。 的当头不是问题,当头的赋予什么subcat才要紧。谓词的坑不饱和不要紧,可以到坑里去挖。谓词的坑饱和了还要“凭空”憋出一个subcat来最麻烦了 我: 出去买外卖,路上冒出个英语打油: What I read -- is not a book What I eat -- is not food What I do -- is not a cause, What I love, is you. 标配被形式推翻,哈。 白: not a book, but newspapers; not food, but pills; not a cause, but fun. 看看我自己搞的带“的字结构”的parse: 我: 牛叉!看着就高大上。 what I love, is the girl:见过的都说漂亮的。 见过的都说漂亮的:有歌为证:“在那遥远的地方,有位好姑娘;人们走过她的帐房,都要回头留恋地张望。” 里面有两个 “的”字结构: 见过的 --》 【human】 都说漂亮的 --》【ANY】 前者是主语,后者是宾语,补全了就是: 见过的【人】都说【她】漂亮的【那个姑娘】 白: tomita差远了,我这里没有规则只有词典。 sh移进;up升格;ma填坑;mo修饰 比图栈自动机简单,而且跟语义中间件查询一一对应。 我: 就四个操作?跟汇编似的。记得汇编就是两个字母做操作缩写。我自己没整过汇编,我领导当年整天就是汇编。 白: 还有一个me,合并,这个例子木有用到。 match,modify,merge,那么凑巧都是m打头,第二个跟不同的元音。 下划线义为“关闭”。五角星是关闭后又打开复用。 我: SH 的缩写是? 白: shift 我: my bad, I thought it was shit wondering why this naming by the way, shit and crap are NOT negative in Oral English when used in NPs 白: up含元音u,shift含元音i,这aeiou也算集齐了 shift:move to the next token 我: we call it read head in FSA 白: pda players like to call it that way. 但实际上我这也不是栈。 我: 能把姑娘那句串出来,真心不易。 我要是硬做也可以做,可是感觉不踏实,不知道哪天又断了。很多事儿是选择不做,因为没有鲁棒的把握,当然也因为不足够常见感觉不值。 match 是填坑,那就是 saturated 了。up 是升格,意思是? 白: 修饰语提升为被自己修饰的pos 坑有指标,填一个少一个 matcher就做这五个动作 我: 为了理解白老师的parsing机制,咱们对照上图来个walk-through吧: “这” 是 N++,Up 了一下,就成了 N+ ? 白: 对 指示词,数词,都是N++ 我: Up 之前为什么 Shift? 白: 位置一开始-1,进入0就是shift 我: Mo01 就是被吃掉了,N+ 就是往右边找 N,modifier 找 head,找到了 就自裁了。 白: 对 我: 可是这个 NP 看不出来是一个完整的有 det 的 NP,过了这村,痕迹也没留下的感觉。 白: 弧都在。每条边都是痕迹。 我: Ma12 那是填坑了,带有 2N 的 “见”,saturate 了一个,成了 S/N,可是怎么知道是主语坑填了 还是宾语坑填了呢? 白: 不知道。也不care。 我: 所以 先吃掉一个再说。也不问问中间件? 白: 目前每步都问 我: 每一步都查相谐? 道理上不需要,只有出现歧义可能才需要查问和比对。 白: 两个如果有一个相谐,就锁定一个,再来只需查另一个。 我: 小词 “过” +S 是向左修饰谓语的,因此 Mo32 就把时态助词吃掉。 so far so good 可这时候没遇到 N,只遇到 “的”。“的” 很特别,谁都要 白: 的,左面吃一坨,吐一个定语N+ 我: X 来了就吃掉。 对 突出了一个 N+ 白: X是wildcard 以前说过的,不管S还是N,来者不拒 我: 嗯 Up 4 晕了 原地踏步就是 Up? 白: 定语升格为NP,实际是创建了一个虚节点,图上有 我: Up 的原因是因为前后的路都堵死了,等于是默认操作?走不下去了,就 Up 一下。 白: 什么因素驱动什么操作,应该是最核心的东东了。 我: Ma42 填的啥坑?“见” 还有一个没有填的 arg N。 白: 见,残留的坑。 因为是残留的坑,萝卜不占指标,依然可以它用。 残留的坑就灭了。 我: 哦,那是“的”没找到 head N,自我升格为 N 以后,去填了 “见” 的第二个坑。至此我们其实不知道“姑娘”和“的”各填的什么坑:如果的字结构中被省去的N是【非人】(东西),则“女孩”是主语;否则,“女孩”可能是宾语(也可以是主语),类似于说: 这女孩见过的【东西】 见过这女孩的【人】 其实在本例句“这女孩见过的都说漂亮”中,“女孩”是宾语,而的字结构指的是主语【人】。 不占指标的意思是,这个 V 做了定语从句,所以 V 全部saturated 了 白: 残留是指,head已经填坑去了 我们matcher是没有语言学知识的,只知道填坑去了,定语从句什么的,不知道。 另一面说,如果有其他情形导致残留的,也一样办理。 六亲不认。 我: Ma42 结果 把 “见” /N 变成了_,关闭了,就是用 “的” 填进去的结果?语言学上对应于 “的”字结构 反填为子句里面的主语。 makes sense 反填不占指标,所以动词saturated,可“的”字还是 N,从这个 N 进一步取下一词 (Sh5) ? 白: sh是先放着,看下一个 我: 入栈? 白: 不完全是栈,暂且理解为栈也将就 我: 小词 “都” S+ 往右找谓词做修饰(Mo56),于是吃掉了 “都”。 “说”有两个 args?一个是 N 主语,一个是 X 爱咋咋:NP宾语也好,宾语从句也好 这时候 的 N 可以填进去 (Ma46),后面的 A 作为第二个 X 也填进去,大功告成? 白: 要处理残留:谁漂亮 我: Ma17 于是把“女孩”连上了“漂亮”,填坑。 白: 因为是残留,要在之前已经关闭的N里面找一个做兼职。不占名额。 我: 远距离逻辑关系 不能占句法关系的坑。 白: _是关闭,五角星是再打开 我: 关闭是入栈,打开是 pop? 白: 好像不是 关闭是了结,打开是废物利用。 我: 这个游戏好玩。 parsing 是走通了,哪里看出怎么给标签?主谓宾等 白: 不给标签,只说谁跟谁有什么关系,留下来的arcs正好构成这么一幅图 我: “什么”关系不就是标签吗? MO 是修饰;MA 是填坑,但没说主语关系还是宾语关系 白: 水平的是修饰关系(红色),垂直的是填坑关系(蓝色),跨接是合并关系(橙色)。 我: 没看到跨接 白: 这句没有 不说没关系的,范围已经框死了 语义层面往下走接得住 我: 主语宾语怎么接得住? 主宾的区分往往是,相谐只是可能,句法才是决定。“老鼠爱大米” 填坑以后 相谐可以决定主宾,“张三爱李四” 呢? 白: 我们汉语可能要反过来,相谐如果搞定,不问语序;相谐搞不定的,再问语序。 语序的原始编号都在。 我: 至少对于此句,不问语序是对的。问了语序的话,“女孩”在主语位置,应该是定语从句的主语了,但其实是宾语。 白: 如果填坑时没有竞争者,也不用查中间件。 大部分情况只用相谐就搞得定。 三省吾身,用得妥妥的。 我: 有意思,太有意思了。 白: 当个玩具吧,希望尽快升格为不再是玩具。 我: 这可不是玩具 玩具哪里能搞定这样的句子。看得出来 小词很关键。实词一边有坑,一边有中间件。 白: 玩小词其乐无穷啊 我: “的”字的玩法 令人惊诧。 白: “圆圆地画一个圈” 这里要解决“伪状语”的问题。顺带考查一下小词“地”。 我: 洗一个痛快的澡 是伪定语,同理。 白: 这里,“圆”残留的/N,靠“圈”的废物利用搞定。二者之间的subcat不要太般配哦。 同理,“痛快”残留的/N,找到了subcat相谐的已关闭的“他N”。 我: 这句没看懂。 “圆” 一个坑,后来让 “圈” 填了。类似于 “痛快” 的坑 让 “他” 填。 白: 画的逻辑宾语坑是“图形”,圈的subcat也是图形,这不是般配是什么? 伟哥没看懂的是上海话吧…… 不要太 means 太tm 我: 哦。 北方话就是王八绿豆对上眼了。 对上眼的是远距离的 “圆” 与 “圈” 啊,“画” 与 “圈” 哪里需要对上眼,那是句法绑定 父母包办: v 了 一个 n 白: 父母包办的也送中间件里,无妨 我: 不需要。先婚后恋。不恋也成婚。 白: 圆圈也包办的 不过我还没处理成包办 需要磨 所谓包办,就是word embedding。自由恋爱,就是subcat-embedding。 我: 前者是强搭配?后者是搭配 强搭配在两个直接量之间进行:洗-澡;搭配可以在 subcats 之间 吃 -【food】 or【consume】-【food】 词对词:洗-澡 ==》 词对subcat: 吃-【food】 ==》 subcat 对 subcat:【consume】-【food】 HowNet 基本是后者,因为是概念之间。汉语词典里面有前者,因为有习惯表达法,language-specific。问题是,由于自然语言有多义,词到概念的映射不是一一对应的,除非存在一个完美的 WSD 支持。因此,subcat 对 subcat 的这个宇宙真理,尽管概括性和逻辑性强,但不好实施,容易走偏。除非有大数据做底,指望 WSD 不太现实。 白: 中间件看到的就是实例对实例、标签对实例、标签对标签(含标签它八辈儿祖宗)。 我: 我把 HowNet 的搭配搬过来以后,吃过亏。不过实例对实例,这个不需要大数据,拍脑袋也不会走偏。基本就是词典的记忆,脑袋里都有了,而且因为概括性弱,走偏的可能几乎没有:譬如 洗-澡。实例对标签 处于二者之间。 白: WSD再怎么不完美也要分开,绝不能搅在一起。宁可分头完善去 我: 我从来不指望 WSD 默认假设是没有 WSD 怎么做 NLU 或落地。WSD 是其他过程的结果或副作用,而不是支持其他模块的前提。 白: “洗”是万金油,“澡”是单打一。 一个固定搭配入口在哪很要紧,放在万金油那儿就惨了 我: 那是效率的问题。有不同的 indexing 的入口。“澡”作为入口 效率更好而已。 所谓 word driven 其中一个考量就是入口的驱动词的选择。传统的词典编纂也有这个考量。 白: WSD和matcher工作时都要调用中间件 我: 一时想不出来 parsing 为什么要 WSD,有中间件就可以 parse 了。理论上 parse结果里面,词的节点应该是 WSD 过的概念。 白: 不存在独立于中间件之外的WSD 给Matcher的是单选的pos流,从多选到单选这一步是WSD做。再回到多选,就是休眠唤醒了。就是我说的,“纵向不确定性”WSD负责搞定;“横向不确定性”matcher负责搞定。二者都要借助中间件。 我: 多选到单选不是中间件吗?当然说这里面隐含了WSD也是不错的,因为所谓相谐就是两个节点的某一个 ws 与某一个 ws 对上了。从图上说,node 才有 wsd 的问题,arc 不是。 白: 义项的多选到单选,由WSD借助中间件做。parsing动作的多选到单选,由matcher借助中间件做。 “我想战胜AI的心,仅仅是为了作为棋手的尊严。” “想战胜AI的心”,遇到“心”属不属于“那个小集合”的问题。可以人为设定“心”的一个属于那个小集合的新义项,(类似“心情、心愿”),在中间件里面靠“想、V、的”等捆绑,希望运行WSD时可以体现出来。目前资源太小,很多时候不顺手。 我: 我来推演一下: parsing 到某个步骤,需要决定定语从句修饰的N,是不是应该反填子句谓语还未填的坑。如果 N 与坑的arg的要求相谐,则填,否则不填。如果 args 都已经 saturated 也没有填的问题。 “我想战胜AI的心” : “战胜”已经saturated,“心”不填。无需给心做 WSD “想战胜AI的心” : 这时候,“战胜”还有一个主语的 arg 没有填,“心” 能不能填,决定于大数据中有没有 “心” 做 “战胜” 主语的历史积淀。应该是不相谐,没有积淀,因此不填。即便是那个“小集合”的典型案例,譬如“消息”,也有可能是相谐可填坑的: 他走漏的消息,很关键。 他走失的消息,很关键。 大数据搞定 “走漏-消息” 是肯定的。至于“走失” 与 “消息”,那应该是词典决定的标配,而不是大数据。换句话说,搭配是大数据的统计,不搭配则是默认。 白: 再看: 因为“碗”和“猪”不相谐,标红的这一步选择了Sh,而不是Mo 王: 白老师,这个句子最后一步match的是17,可以是47么? Plus,“这女孩见过的都说漂亮”这个句子似乎有歧义?对比:“老祖宗讲过的都说有理”。 “女孩”在这个带“见”的的字结构里,可以当主语,也可以当宾语。 白: 对。这里只取了一种分析结果 我: 这姑娘见到的都说漂亮。 这小伙儿见到的都说英俊。 这小子见到的都说漂亮(因为他以前根本没遇到过漂亮的)。 这姑娘见到的都说英俊(因为她足不出户,见识太少)。 猪八戒见到的都说漂亮。 这傻瓜见到的都说奇妙。 结论,是 ”姑娘“ 与 ”漂亮“ 的高度相谐性,决定了姑娘与句法标配唱反调,做了 ”见到“的逻辑 宾语。甚至替换成同义词 ”英俊“,这种相谐性有所降低,就很难打败句法标配了。这也说明,语义中间件的相谐性不是好玩的游戏,非高手不能。甚至高手也会失手,过犹不及。 王: 操作有Shift, Modify, Match, Up, 还有这个句子里没用到的Merge,一共五种…… 白老师,如何决定每一步用哪种操作呢?是在每一步都把五种操作全部轮一遍,看看哪个能用,然后继续,最后把成功parse全句的依存关系留下,没parse出全句的依存关系丢弃? 另外parsing以前做pos tagging的时候是不是也要把所有可能的pos序列全部给出来? 白: 这里面有大量无效的结合需要排除。算法的核心就体现在这个地方。 目前算法还没有面向所有歧义分析结果,取的是按照系统排序原则首先形成的第一个满足条件的分析结果。 另外不同的pos标记是靠WSD模块来选取的,每个词只有一个pos标记胜出。 如果做不下去了,又发现“里外勾结(甲词的首选pos和乙词的非首选pos类型相配)”,则启动翻盘。 我: 总结一哈。 优选的路径亮相的背后是大量的伪歧义,白老师怎么对付的呢?一个是基于训练出来的语义中间件的WSD,它负责提供每一个词的唯一而合适的pos供给 以 subcats 驱动的 parsing 去匹配。另一个就是 parsing 的算法,想来是糅合了某些语言学原则的,来决定操作的顺序。 这解答了我以前的一个疑问,为什么不可以绕过WSD做深度parsing? 在白老师,是绕不过去的,因为是基础支持。在我这儿,基本上是绕过去了。POS (可以看成是最粗线条的 WSD 的语法表现)我基本是绕过去做parsing的。见:【 NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈 】;【 中文处理的迷思之二:词类标注是句法分析的前提 】。 能绕不能绕,决定于算法。条条大道通罗马 of course 白老师算法的精炼和操作的简约,是建立在两个基础之上:一个是语言学标注丰富的词典,潜在的路径都藏在里面,就等 matcher去选秀。另一个就是要有一个大数据的语义中间件的有力支持。 我这边也要靠信息丰富的词典,词典的一头是语言学,词典的另一头是HowNet本体,前者是主,后者是辅。 另一个靠山就是规则,根据语言学原则和经验设计出来的支持多层parsing 模块的 hierarchical 的规则集。 多层、细线条规则,为绕过POS和绕过WSD施行对伪歧义免疫的高精度深度分析,提供了条件。parsing 本身的基本机制也很简单,但利用这个机制把语言学揉进去来组织多层,那就是可乐式秘方了。 白: “貌似咱倆把天聊歪了”--隔壁群里的一句话,离合词活用经典。 我: 就此打住吧。 白: 我说,天好好的,没歪。 当规则寓于词典的时候,WSD不是传统含义,POS也不是。某种意义上说,此时选择义项就是在选择规则。也就是说,绕开彼WSD使用的技术,跟此WSD使用的技术是相通的。 我: WSD 本来是一个独立的与结构分析不必交融的任务,譬如,bank 是选“银行”还是“河岸”的消歧问题。再如,this coach is believed to be tough 这是以前提过的 WSD 经典案例,说的是,利用语义相谐来做 WSD coach 有n个义项 tough 也有 m 个,二者互谐的只有两个: coach【human】:教练 ; tough【human feature】:严厉 coach 【vehicle】 :马车; tough 【object feature】:皮实 白: 这不影响结构啊,一个N,一个S/N。pos没有其他选择就不check 我: 这个案例不影响各自的POS,不影响结构,这是 WSD 原本要追求的目标,但不是 parsing 所需要的支持。 然而,如果相谐是需要check的一个条件,出现的情况就是: 1. 由于 sparse data,两个直接量在一起的机会不够,所以系统认为是不相谐: 就是说语义不及格,全靠句法了。如果句法无歧义,没关系。否则影响parsing的质量。 2. 如果数据超大量,不要依赖于 subcat 级别上的相谐,而是利用直接量的 touch 和 coach 就有足够的例证是互谐的,那么语义支持了二者的结合,哪怕这时候究竟是 【human】还是【non-human】仍然无解。 我要说的是,白老师的 WSD 模块不是通常意义的 WSD,而是针对结构歧义(structural disambiguation)而来的相谐的支持,是粗线条的,而且是调用 when needed 的。WSD 的本义不是这个,本义是 lexical disambiguation,是为了确定词义的。本义的 WSD 对 结构 parsing 理论上有帮助,实践中基本不需要。在结构 parsing 的时候,WSD 可以隐含(或成为结果,就是所谓 positive 的副作用),但不必是条件。 即便如此,白老师由于没有显式的多层的 pattern 规则,只有隐含在词典可以被 matcher激发的潜在规则种子,其结果是对所谓 WSD或POS 模块的依赖远远大于多层的规则系统。既然有休眠唤醒,白老师应该也引入了多层。但总体上,白老师的层次是少数的,仍然在传统 parsing 单层搜索空间的延长线上。因此理论上,伪歧义会成为极大的困扰。白老师的创新就在,层次虽然不多,但背靠两座大山。这两座大山,都是传统 parsing 不具备,或者严重不充分的。第一座大山是词典主义标注,这是一个巨大的语言学工作,特别对小词和 top 1000 的用法众多的实词。第二座大山就是大数据的语义相谐的训练。建造这两座山都不是简单的活儿,除了设计家的宏观规划外,牵扯的具体的数据工作和调试测试工作非常庞大。没本事建大山,也就无法克服传统parsing的伪歧义瓶颈。 【相关】 【李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4167 次阅读|0 个评论
【Parsing 的命根子是 subcat,逻辑的和语言的】
热度 1 liwei999 2016-12-21 08:29
细说起来有两类句型分类:一类是逻辑上的,一类是语言上的。二者相互呼应,前者是内容(output 目标,也隐含了语义条件),后者是形式(input 的句法条件)。 逻辑上说,一个谓词需要几个 arguments,是由这个谓词的意义决定的,譬如 “哭/笑” 这样的谓词概念,需要一个施事 argument 来表达谁哭了笑了,所谓不及物谓词。 “爱/恨” 这样的谓词需要两个 arguments (所谓及物谓词),表达 谁 爱/恨 谁了。 “给/赠与” 这样的谓词,需要三个 arguments,表达 谁 把 什么 给 谁 了。 “认为/声明” 这样的谓词,需要两个 arguments,其中一个是实体,表达谁的认为/声明,第二个 argument 要求一个 statement (嵌套的谓词结构),表达认为/声明的内容。 这种逻辑上的谓词子类的区分是语言通用的,因为它的根基是概念及其意义的完整性(谓词加上arguments就是所谓的argument structure,表达的是一个 statement)。 逻辑工作方面的集大成者就是董老师的 HowNet。 以上的逻辑谓词子类表现在不同语言,就是语言学上的 verb subcategories 及其 patterns。到了语言这个层次,辞典中一个动词的动词句型子类可以标示以下的subcategorization 的信息(及物不及物只是其简化标识,vt/vi, 牛津词典曾经用20多个子类标注每个词条的subcat,v1,v2, ..v21,...): 1. 能带几个 arguments 2. 这些 arguments 要求处于什么形态(主格,宾格,要什么介词,处于什么位置) 词典中这种子类信息的标注直接决定了一个parser的质量,是非常关键的预示信息。对于学习英语,熟悉这些句型信息也非常有用。我以前教英语的时候,经常要求学生看牛津词典或者朗曼词典后面的句型附录(朗曼的分类略有不同,印象是分了30多子类),务必熟悉这些句型的概念,然后在翻阅词典时候注意其标注。 一个词经常分成n个义项,每个义项下的subcat分类标注往往不同,回去翻翻词典就看到了。 这后一步的工作,英语和中文我一直在做,n年了。董老师的中文系统目前也在做。只做不说的白老师或其团队也一定在做。subcat 是 quality parsing 的命根子。大家具体做法可能不同,但大而言之,还是差不多的。就是我们以前说的句法词典化。 【相关】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|2645 次阅读|1 个评论
【语义计算沙龙:坐而论道 on 中文 parsing】
liwei999 2016-12-6 18:42
董: 刺死前妻男友男子获刑5年 死者系酒醉持刀上门 -- 百度新闻 Stabbed her boyfriend man jailed for 5 years, the drunken knife door --百度翻译 Stabbed his ex-boyfriend boyfriend was sentenced to death for 5 years the Department of drunken knife door -- 谷歌翻译 不知道这样结果是什么智能? -- 人工?鬼工?骗工? 白: 也是醉了 董: 我主要是要探讨“连动”--酒醉,持刀,上门。这三个动词在知网词典里都是有的。 酒醉 -- {dizzy|昏迷:cause={drink|喝:patient={drinks|饮品:{addict|嗜好:patient={~}}}}} 持刀 -- {hold|拿:aspect={Vgoingon|进展},patient={tool|用具:{cut|切削:instrument={~}},{split|破开:instrument={~}}}} 上门 -- {visit|看望} 酒醉的上位可达:“状态”;持刀的上位可达“行动”,但它与“拿”不同,它是“拿着”,所以定义描述里多了“aspect=Vgoningon”;最后是“上门” 它是“行动”。于是我试下面的规则: DefineVP1 0712 CN ;L1 $L1 @chunk(CN,L1)# // 酒醉持刀上门; DefineVP1 0722 CN ;L1 $L1 @chunk(CN,L1)# // 酒醉持刀上门; 心里还是不踏实,因为没有大数据的支持。想听你们的意见。其他例子如:骑车上街买菜遇到一个老同学; 白: 直观感觉,状态的标签不是太好贴。比如,拿着刀子砍人,拿着是状态;抡起斧子砍人,抡起就不是状态?隔着玻璃射击,隔着是状态;打开窗户通风,打开算不算状态 ? 买菜和遇到老同学,谁是前景,谁是背景?谁是主线谁是旁岔,很难说。像伟哥这样一律next最省事。 打开保险射击,打开保险就不是状态 我: 伟哥于是成为懒汉的同义语 。工业界呆久了 想不懒都不成。我曾经多么勤勉地一条道走到黑啊。Next 的好处是拖延决策 或者无需决策。可以拖延到语义中间件,有时也可以一直拖延到语义落地。更多的时候 拖延到不了了之 这就是无需决策的情形。 白: 董老师说的就是语义落地啊。花五毛钱打酱油,花五毛钱打醋。花五毛钱该贴啥标签? 要不是语义落地谁费这事儿。 我: 花 money vp 这个是 subcat 可以预测的模式。凡是subcat可明确预测的句型 通常都不是事儿。给标签于是成为 system internal 的内部协调。 白: 关键是不知道该有多少标签,如何通过粒度筛选、领域筛选、时空背景筛选,快速拿到最有用的标签。 我: 通常的给法是:money 是 o (object),vp 是 c (complement),这是句法。 句法之上这几个节点如何标签逻辑语义 也可以由 subcat 输出端强行给定。譬如 可以给 vp 一个【结果】的标签,vp 是 “花钱” 的结果。 subcat 的实质就是定义输入端的线性模式匹配 并 指明如何 map 到输出端的句法和逻辑语义的结构。这种词典化的subcat驱动简化了分析算法 而且包容了语义甚至常识。 董: 我是因为首先要解决句法关系引起的。例如:欢迎参观;争取投资,就是VO关系,而不是参观游览。也就是说,两个或更多的动词连着时,如何排除歧义?试着只给两个标签:动宾、连动。 我: 一般而言 动宾 是动决定的,连动可以是第一个动决定, 也可以是随机的组合。后者有一个与conjoin区分的问题。 “欢迎” 在词典subcat 中决定了可以带 “参观” 这样的宾语,就事论事 这个“欢迎-参观”的关系几乎是强搭配,与 “洗-澡” 类似。 连动也有词典 subcat 决定的,譬如 “去” vp,“驱车” vp,“出门” vp。 词典决定的东西 没有排除歧义的问题 就是词典绑架 通过 subcat。只有随机组合才有歧义区分的问题。而动宾的本质是不随机,原则上不存在歧义 一律是强盗逻辑 本质就是记忆。可以假设 人的动宾关系是死记在词典预测(expectation)里的,预测实现了 动宾就构建了 这符合 arg structure 的词典主义原则。 董: 负责挖坑,负责浇水,负责填土。。。动宾关系; 我: 负责 vp 为 vp 负责 后者是变式 董: 这么看来,动宾还是连动还是修饰(限定),都由词典解决了。统统做进词典里,就可以了。明白了。 我: 词典主义。随机度太大的组合比较难做进词典。所以一方面尽量做进词典,另一方面 来几条非词典化的规则 兜个底。 随机性而言 似乎 修饰大于连动 连动大于动宾。 白: 如果只有这三个标签,当然做进词典是首选,就怕落地时要的不止这三个。 董: 这是我刚才试的一个句子。我们为每个节点预留10个子节点。动词与动词也得包括这些。 我: 进不进词典 主要不是有几个标签 而是这个标签的性质。 语言学的理论比较文科,说的东西有些模糊,但大体还是有影子的。 语言学理论中一个最基本的概念区分就是 complement vs adjunct,这是句法的术语,对应到较深的层面 就是 argument vs modifier。一般而言,arguments or complements 都是词典的主导词可以 subcat 预测的。HowNet 从语义层面对 args 已经做了预测。语言学词典(譬如英语的计算词典,汉语的计算词典等)就是要相应地从具体语言的句法表达方式的角度把 subcat 预测的 complements 定义出来。至于 modifier 和 adjuncts,他们的组合性随机,词典就难以尽收。最典型的就是普世的时间地点状语等。世界上的所有事件都是在时间和地点中进行。 白: 跑步去公园,去公园跑步。前者去公园的路上都在跑步,两个事件在时间上重合;后者只有到了公园才开始跑步,在时间上只是先后衔接。 如果语义落地需要对此作出区分,该有什么标签?怎么词典化? 动词为其他动词挖坑的情况都不难处理,难的是压根儿没有标配的坑。这是从ontology的事件根结点继承下来的。 我: 跑步去公园,去公园跑步。 先说第二句:【去 + NP + VP】 这是可以词典预测的,万一预测不准,可以 fine-tune 条件,譬如:【去 + 地点 + 动作】,总之是词典预测的。既然词典预测了,那么该给什么标签就不是问题了。给什么都可以,要什么给什么。 再看第一句:跑步去公园。 去公园 不是问题 这是一个动宾 VP 是词典预测的:【去 + NP】 或 【去 + 地点】。 问题于是就成为 “跑步” 与 VP(人类动作)之间的关系。 这种关系在哪里处理,词典可以不可以预测? 白: 吃口饭去单位,又是接续关系不是重叠关系了 我: 这个的确有些 tricky 但不是无迹可寻。 白: 跑会儿步去公园,也是接续关系了。 我: 偷懒的办法就是有一条非辞典化的模糊的规则 Next 连接二者。 费劲的办法也有:一个是 “跑步去” 词典化 作为“去”的变体,“跑步”是对“去”的方式限定。 白: 现在的问题是,句法上承认next,语义上细化next 我: 另一个词典化的做法是,在“跑步”词条下,预测 movement 的动词 VP, 【去NP】 、【来NP】 、【到达NP】 等等 都符合条件,可以跟在“跑步”后面。 白: 为啥跑步加了时态,限定就失效? 我: 这个预测的subcat里面的句法规定是: 1. 本词不许有显性时态,不许分离; 2. 后面的 VP 必须是 movement; 3. 输出端:本词作为后一个 VP 的限定方式(句法叫方式状语:adverbial of manner)。 Binggo! 至于为啥?这个问题,系统可以不回答,系统可以是数据驱动的。 系统背后的语言学家可以一直为了 “为啥” 去争论下去,系统不必听见。总之是让 “跑会儿步去公园” 不能在此预测pattern中实现。词典化实现不了,那就只好找兜底的规则了,于是 Next 了。【限定】与【接续】的区别由此实现。前者是词典强盗,后者是句法标配。 白: 在词典之外搞几个标签模版也不难,句法上都对着next,只不过依据前后subcat细化了,这有多困难,而且清爽。 我: 亦无不可。差不多是一回事儿。一碗豆腐,豆腐一碗,就是先扣条件还是后补条件的区别而已。无论前后,总之是要用到词典信息,细线条的词典信息。 白: 看上去不那么流氓 我: 先耍流氓(注1),还是先门当户对,是两个策略。 很多年前跟刘倬老师做专家词典。他是老一代无产阶级革命家,谆谆教导的是不能耍流氓,要门当户对,理想一致了才能结合成为革命伴侣。后来到了美国闹革命,开始转变策略,总是先耍了流氓再重新做人。其实都是有道理的。 白: @董 跑步和上班是先后关系,跑步和去是同时关系。 董: 这句分析后,有两个“preceding”,不符合我们理想的结果。我们要的是“跑步”是“去上班”的manner 才好。因为我们要准备用户提出更多的信息要求。例如:系统要告诉用户,我平时是HOW去上班的。 我: 刘老师做系统是在科学院殿堂里面,可以数年磨一剑,we can afford to 不耍流氓。来美国闹革命拿的是风投的钱,恨不能你明天就造出语言理解机器人出来,鞭子在上,不耍流氓出不了活。形势比人强,不养童养媳成不了亲,不抓壮丁打不了仗,于是先霸王,然后有闲再甄别。 董: 是的,我们现在连科学院殿堂都不是,而是家庭作坊,可以慢慢磨。其实已经磨了20多年了。 我: 我还记得当年我们为了一个不足100句的英语sample,翻来覆去磨剑磨了两三年,反复地磨平台、磨算法和磨规则。当时的董老师已经大数据(现在看也不是大数据了)开放集测试“科研一号”【注:中国MT划时代的第一款工业产品“译星”的前身】了。 董: 我们给我们的现在开发的中文分析的目标是:看看能最大限度地挖掘出多少信息。 我: 董老师20年磨出的 HowNet 打下了语言分析的牢固基础。现在是把普世的 HowNet 细化为具体语言的句法规定。路线上是一脉相承的。换个角度看,董老师在 HowNet 中已经把普世的 Subcat 的输出端统一定义了,现在是要反过来再进一步去定义具体语言的句法表达形式,也就是输入端的pattern和条件,然后把二者的映射关系搭上,大功即告成。先深层结构 和 UG,然后回过头来应对每个语言的鸡零狗碎的形式。 董: 这倒是的,我们这个中文系统还没到半年,就有点模样了。词典22万义项,规则近4000条。当然,要真正交给用户,那还有一段磨的。 我: 蛮 impressive。我们开发四年多了,但绝对没有 8x 的规则量。 董: 这回我们不做中英翻译,因为英语生成我们做不起,又没有大数据的。其实做出来也只是给别人添砖加瓦,多一个陪着玩的。这种事情我们不玩的。 我: 对,MT 从大面上就拱手相让吧,数据为王。 符号逻辑和规则路线现在的切入点就是应对数据不足的情境:其实数据不足比人们想象的要严重得多,领域、文体等等,大数据人工标注根本玩不起。不带标的 raw 数据哪里都不缺 但那比垃圾也好不了多少。 宋: 中国对蒙出口产品开始加征费用 白: 这个哪里特殊? 宋: 中国对(蒙出口产品)开始加征费用, (中国对蒙)出口产品开始加征费用 白: 进口出口,应该站在自己立场吧 宋: 出口是自己的立场,但也有两种解读:蒙古出口,中国对蒙古出口。我一开始理解为后者,看了内容才知道是前者。 我: 这个 tricky,在争抢同一个介词“对”:对 np 征税;对 n 出口。 远距离赢。 白: 常识是保护自己一方的出口,限制非自己一方的进口 我: 远距离原则有逻辑 scope 的根据。但是具体看 很难说 因为汉语的介词常常省略。scope 的起点用零形式 并不鲜见。 “对阔人征税” 可以减省为 “阔人征税”;“对牛肉征税” 可以简化为 “牛肉征税”。但 “对蒙古出口”,不可简化为 “蒙古出口”。本来也可以简化的,但赶上了 “出口” ,逻辑主语相谐。“牛肉” 与 “征税” 没有这种逻辑主谓的可能,于是“对”可省 而NP的逻辑语义不变。 白: 势均力敌时,常识是关键一票 宋: 这个例子在我所看到的语境下是远距离赢,在别的语境下则不一定。因此,分析器是否应当给出两个结果,然后在进一步的处理中再筛选? 我: 给两个结果 原则上没难度,但后去还是麻烦。 白: 其实关键是什么时候定结果,几个倒在其次 我: 中国对蒙出口产品开始被加征费用 加了一个 被 字 哈哈 可能是蒙古对中国的反制。 白: 两个对,有一个和被不兼容 ~~~~~ 【注1】所谓parsing耍流氓,指的是在邻近的短语之间,虽然他们之间句法语义关系的条件和性质尚不清晰,parser 先行把他们勾搭上,给个 Next 或 Topic 之类的虚标签,类似未婚同居,后去或确认具体关系,明媒正娶,或红杏出墙,另攀高枝,或划清界限,分手拉倒。 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3346 次阅读|0 个评论
【李白对话录之10:白老师的麻烦不是白老师的】
liwei999 2016-12-6 09:07
李: 突然想起一句话 怕忘了 写在这: 白老师的麻烦是 他懂的 我不懂 我懂的 他懂。 谁的麻烦? 乔姆斯基说 麻烦是白老师的 菲尔默说 麻烦是我的 后一种语义深度分析的结论是如何得出的? 语义要多茁壮 才能敌得过句法的标配啊。 而且这种语义的蛛丝马迹并非每个人都有捕捉的能力 它远远超出语言学 与一个人的背景知识和领悟力有关 遇到这种极深度的人工智慧 目前能想出来的形式化途径 还是词驱动比较靠谱 如果真想较真探索的话 “麻烦 问题 毛病” 这类词有两个与【human】有关的坑 一个是标配 表达的是所有关系 possessive 另一个是 about 要求填坑的是 【event】或【entity】 后者自然也包括 【human】 白: “他的教训我一辈子忘不了” 谁被教训? 李: 哈。 回到前面, 近水楼台的 【human】 “白老师” 是标配。 另一条词驱动的可能路径自然休眠。因为词驱动 也就埋下来唤醒的种子。 上下文中遇到另一个 【human】 candidate “我”,加上其他一时也整不清楚但终究可能抓到的蛛丝马迹, 于是 休眠唤醒 了。 白: 好像sentiment在休眠唤醒中起比较重要的作用 李: 此句是一例 本来是褒 可不唤醒就是贬了。 白: 标配的麻烦,把负面情感赋与那谁,等到后面说的都是正面,纠结了,另一个human就有空子钻了。 李: 对对对 这个 trick 我们做了n年 sentiment 摸索出来了就在用。典型案例是: “Thank you for misleading me” Thank 里表达的抽象的褒 由于遭遇了 misleading 的较为具体的贬 而转化为讽刺。 还有:“你做的好事儿 great”。这里 great 的讽刺也是有迹可寻的。 白: more specific expressions承载的sentiment优先 李: 遇到过两次记者采访,两次都被问到 你们教给机器 sentiment,机器可以理解正话反说 和 讽刺 吗? 我的回答是:这是一个挑战 但其中的一些常见的讽刺说法 是可以形式化 可以捕捉到的。举例就是上面。 白: 具体override抽象。 李: yes yes yes 白: 如果二者纠结,具体承载的sentiment才是基调,抽象的反向sentiment不是抵消而是修辞手法的开关。 李: 我一直在强调,sentiment 的世界里面,主要是两类东西:一类是情绪的表达,一类是情绪背后的理由。 有些人只表达情绪,但有些人为了说服或影响别人,好恶表态的前后,会说一通理由:you make a point,then you need to support your point with arguments 所谓 sentiment analysis 很长一段时间 领域里面以为那是一个简单的分类问题:thumbs up thumbs down。这个浅陋而流行的观点只是针对的情绪,而面对情绪背后千变万化的理由 就有些抓瞎了。可是没有后者,那个sentiment就没啥特别的价值。 所谓讽刺,只是情绪的转向,正话反说。具体的理由是不能转向的,否则人类的交流就没有一个 protocol 而可以相互理解了。褒贬里面具体的东西 我们叫 pros and cons, 那个东西因为其具体,所以语义是恒定的,不会轻易改变。 情绪却不同。人是一个奇怪的动物,爱极而恨,恨极而爱,都有。甚至很多时候 爱恨交织 自己都搞不清楚。表达为语言,就更诡异善变。 英语口语中 sick 是强烈的褒义情绪,shit 和 crap 等词也不是贬义,bad ass is very positive too: “The inside of a prius is bad ass no lie.” 是非常正面的褒奖。 人类在情绪表达中说反话,或者由于反话说常了 community 都理解成正话了,这种情形也屡见不鲜。 关键词的褒贬分类系统遇到这种东西不傻眼才怪:当然如果input很长,可以 assume 这类现象只是杂音,整个关键词分类还可以靠谱。但一旦是社会媒体的短消息,这种语言模型比丢硬币好不了多少。 汉语中 老婆太喜欢老公了 喜欢到不知道怎么好了 就说 杀千刀的。 再举一个今天遇到的 sentiment 实际案例: @Monster47_eNd nah, you have no idea how bad I would kill to eat taco bell or any kind of shit like that. 瞧瞧里面的 sentiment triggers: bad;kill;shit 三个都是强烈的 negative triggers 谈论的 topic 是 Taco Bell,一家流行的墨西哥快餐连锁品牌。 这条短消息通篇没有褒义词出现,因此没有理解、缺乏结构的关键词系统只能得出贬义的结论。但这句话其实是对 Taco Bell 异乎寻常的褒奖 用的是完全草根普罗的用语。 谷歌的神经翻译遇到口语化的句子也基本抓瞎,训练的数据严重口语不足(那是因为双语语料质量过得去的来源大多是正规文档,组织人力去标注口语,做地道的口语翻译,是一个浩大的工程,巨头也无能为力吧): @ Monster47_eNd nah,你不知道我會殺了多少吃塔可鐘或任何種類的狗屎。 尝试“人工”翻译一哈: @ Monster47_eNd nah,你不知道为了能吃上Taco Bell 的东东,我會怎样不惜代价(哪怕让我杀人都行)。 简单的译法是: 想吃 Taco Bell 这样的垃圾,我他妈都想疯了。 谁要再说 sentiment 好做,我TM跟他急。这无疑是 NLP 中最艰涩的果子之一。 【相关】 《泥沙龙笔记:parsing 的休眠反悔机制》 【立委科普:基于关键词的舆情分类系统面临挑战】 【立委科普:舆情挖掘的背后】 【李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3720 次阅读|0 个评论
【李白对话录之九:语义破格的出口】
liwei999 2016-11-18 09:01
白: “国内大把的钱想出逃” 钱不会“想”。但是“出逃”只有一个坑,除了“钱”没有其他候选。这种情况下句法优先,语义的不匹配,到语用(pragmatics)层面找辙。一个语用出口是拟人、人格化,把钱人格化。另一个语用出口是延展使动用法,钱的主人“想”使钱出逃。 李: 出口的问题也许不必存在。句法搞定的东西 默认是 语义不出场 语用不解释,除非落地需要这种解释。落地通常不需要。譬如 mt,一个语言的语义不谐而产生的转义通常可以平移到目标语,哪怕是八杆子打不着的语种之间。譬如乔姆斯基的 green ideas,直译成汉语,同样可以反映乔老爷想 make 的 point:句法确定的时候 可以排除语义。 白: 聚焦句法的人看到的是half full,聚焦全局的人看到的是half empty。 李: 哈 这里谈的是默认。默认做法是、一直是,语义破格是默认许可的,句法破格才需要语义出场。 因为自然语言中,句法确定场合下 语义破格太常见了,常见到见怪不怪。无需解释。而受体在理解过程中 常常各有各的理解 根据这个人的教育和素养 而不是语言学 后者个体差异不大。 白: 默认的主体是谁 分析器么?分析器我同意。但默认的主体不必然是分析器。 李: 换句话说,如语义破格一定要给一个语用出口的话,很可能莫衷一是,标准很难制定。譬如 乔老爷的破格的 green ideas ,我们语言学家的理解 与普罗的理解 在语用层面相差太大。但是在句法层面,精英与普罗是一致的,虽然普罗可能不知道主谓宾定等术语。 白: 钱想出逃,在应用场景中是有意义的,不管精英普罗,并没有大的分歧 李: 洗钱 的意思? 白: 不一定,也有正常的恐慌.包括本地赚了人民币觉得不安全的,以及外资觉得不想继续玩下去的。 李: 这些破格带来的附加的意义,是听众体会出来的。每个人的体会即便大体方向一致,也很多差异。白老师的理解,比我的理解要丰富,比普罗更不同。很难形式化。即便能形式化 也很危险,因为有强加于人 限制其他可能的缺陷。 白: 这不重要,重要的是面向大众中和精英的预警都要take it into account。 李: 也许只要指出某个关节 语义破格 就可以了,至于这个破格意味什么 让人各自琢磨。其实破格的事儿 指出不指出 大家都心知肚明。 白: 伟哥说的是模块视角,不是系统或服务视角。换到服务视角,即便面向普罗,但是定位也可以是让普罗觉得专业,精英觉得不外行。一个带有修辞性语义破格的表述只有把附加意义掰开揉碎了才能向后传播,跟其他信息滚在一起发酵。在NLP同行间心知肚明的事,要想在知识情报各个piece之间引发chemistry,必须还原为掰开揉碎的形态。形成看上去专业的影响链、作用链。 李: 语义计算提供多种可能 在语用中发酵 是个好主意 ,可能提升人工智能的深度。 白: 所以,一个有追求的服务,不会迁就普罗的非专业理解,而是想办法把专业的理解用普罗便于接受的形式展现出来。 李: 不过 也有可能是潘多拉的盒子 白: 不喜欢不买便是 李: 发酵到不可收拾 不收敛,语义破格的确是 nondeterministic,本性就是发散。其本质是诉诸的人类的想象力。 白: 有些破格已经是家常便饭了 像这句家常便饭就是。 李: “家常便饭”的破格 通常固化到词典里面去了 。绑架以后 就把破格合法化了 可以不算是破格了。只是词源上 可以看到 两个语义 对于同一个词。系统是看成两个个体的 尽管实际操作我们常常绕过wsd,不做区分 但是如果需要区分 词典是给出了两条路径的。 白: 但和本意还是两个义项 “没怎么特意准备,就是家常便饭,大家随意吃哈。” 家常便饭遇到吃,和难过遇到小河,是一个性质。 李: 感觉正好反着 家常便饭遇到吃 是常态 默认;就好比 难过 遇到 人【human】。 家常便饭甚至谁也遇不到,也还是默认为本义 【food】。 “难过” 稍微模糊点 谁是本义 谁是转义 可以 argue,但通常 按照 hidden ambiguity 的原则,词法大于句法,“难过”因此本义是 sad 。 白: 计算机只管一个是本义、另一个是转义,其他不care 李: 转义带有强烈的句法组合色彩 ,是 difficult to cross。 当然 这一切都听人的安排,遵从便利原则。 语义计算 没有人工 便没有语义,没有语义 就谈不上计算。 说到底 人的语义 design 以及系统内部的协调的考量,是语义计算的出发点 数据是语义计算的营养基地。 白: 如果说到相似性,就是固定组合里面的词素和外面的词素产生了搭配趋势,改变了原来的结合路径。 李: 对。 “这条河很难过。” lexical entry “难过”里面的词素“过”与外面句法的词素“河”发生了 VO 的关系纠缠。 “这孩子很难过。” 就没有纠缠,桥是桥路是路。 白: 本义的家常便饭,和外面的“吃”有纠缠,转义的没有纠缠;本义的难过和外面的“小河”有纠缠,转义的没有。本义的不一定是概率最高的,譬如本义的“难-过”就可能比不上转义的“难过”概率高。 李: 所以说,要 遵从便利原则, 系统内部协调。本义、转义的区分不重要,重要的是内部协调:哪个义项最方便作为标配。一旦作为标配,就不必考虑纠缠的条件了。只有标配的选项 才需要条件,或者需要唤醒。一般而言是概率高的做标配。或者条件混沌、难搞定的那个做标配。然后让条件清晰的去 override 标配,此所谓 system internal coordination。遵循 longest principle,具有 hidden ambiguity 的“难过”,词典标配可以是 sad 白: 选最高概率的作为标配是情理之中,但标配如果恰好是本义,就不需要纠缠去唤醒本义了。“把国民经济搞上去” 李: 最高概率原则保证的是,万一系统没有时间充分开发,标配至少保证了从 bag of word 的传统模型上看,数据质量最优。我们实践中也遇到过决定不采用概率最大的作为标配,这是因为概率大的那个选项,上下文条件很清晰,规则容易搞定。而概率小的选项却条件模糊,所以索性就扔进词典做了标配。所有这些考量都是 system internal,与语言学或词源学上的本义、转义没有必然的对应联系。 白: 吃豆腐,标配是本义,搭配在本义内部纠缠,遇到sex上下文时进入转义。不一定显性,隐形的sex也在内。比如,“张三的豆腐你也敢吃?” 当然,张三卖的豆腐有食品安全问题时,也可以这么问。后者更加specific,是“例外的例外” 李: 例外之例外不得超过三层,这是我的原则,甚至不超过两层。虽然人使劲想,可以一直想到更精巧的例外之例外来。系统不要被带到沟里去。曾经由着性子这么干过,一路追下去,自以为得计。在某个时间的点,一切都 ok,但除非封装为黑箱,只要系统还在继续开发中,那种追求例外之例外的开发路线,结果是捉襟见肘,不堪维护。鲁棒的系统不允许规则具有嵌套层次的依赖性。【 科研笔记:系统不能太精巧,正如人不能太聪明 】 白: 这话放在比特币上,一堆人会跟你急。比特币的设计实在是太精巧了。 李: 超人例外。电脑例外。机器学习例外。 肉身凡胎的人做自然语言系统,stay simple,stay foolish 怎么强调也不过分。 白: “人家都出轨了,你为啥还没上轨”这标题有意思 李: 机器学习例外是因为反正就是个黑箱子,里面有多少参数,调控成了怎样都是一锅粥,在 retraining 之前,这就是一锤子买卖,好坏就是它,不跟人类讲理。 白: 无规则的系统例外 李: 无 symbolic rule 的系统例外。规则的广义似乎也包括黑箱子系统。严格说该是,无可以让人干预的 symbolic rule 系统例外,如果是 symbolic,但是人不得干预,那也无妨。跟封装等价。 白: 完全词例化的系统也是无symbolic rule的系统吗? 李: 在我这里是。每一条都可以做符号逻辑的解释,都遵循某种语言学的思路。 白: 人只能干预词典 李: 句法是超然的,处变不惊。只有语义甚至修辞,才需要把 出轨 与 上轨 联系起来,感受其中的“深意”。interpretation 是围绕人跳舞的,譬如我们做 sentiment,把大选舆情挖掘出来,至于如何解读,各人面对挖掘出来的同样的情报,会各自不同。很多人想让机器也做这个解读,基本是死路。上帝的归上帝,凯撒的归凯撒。剥夺人的解读机会,简直蛮不讲理,而且也注定无益。 白: 在证券领域,就是智能投研和智能投顾的关系。 李: 解读的下一步是决策。机器不能也不该做决策。 白: 智能投顾也可以是机器人,但根据一份智能投研报告,不同的智能投顾机器人可以做出不同的投资决策。机器真做决策。但是决策机器人和语义分析机器人之间有防火墙。在投资领域,机器比人强。人过于贪婪和不淡定。人处理信息特别是把握瞬间机会的能力不如机器。做对冲的不利用机器是不可想象的。 李: 这个我信。 甚至银行的那些投资顾问,遇到过不止一个了,老是忽悠我们每年定期去免费咨询他们,感觉他们的平均水平低于一台机器。按照他们几乎千篇一律的所谓投资建议去投资,不会比遵循某个设计良好的系统的建议,更有好处。这些顾问应该被机器把饭碗砸了,省得误导人。 【相关】 【 从 colorless green ideas sleep furiously 说开去 】 《泥沙龙笔记:parsing 的休眠反悔机制》 【李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3955 次阅读|0 个评论
【李白对话录之八:有语义落地直通车的parser才是核武器】
liwei999 2016-11-14 08:09
bai: “你牺牲了的战友不能瞑目。” “张三打得李四脸都肿了。” 我: 张三打李四 ...打得他脸都肿了 ...打得他手都肿了 ...打得脸都肿了 ...打得心直哆嗦 ...打得好痛快 ...打得鼻青脸肿 ...打得天昏地暗 这些后续与第一句的不同组合,有些 可以转成白老师的句式 s v o v 得 vp -- s v 得 s2 vp bai : 填坑角度看不一样,前面topic填名词坑还是动词坑还是与坑无关。 天昏地暗可以当一个形容词。 拆开来看天和地都不能成为填“打”的坑的共享萝卜。 谓词结合的不同方式,只有显式地描述坑和萝卜才说得清 我: 对,不是都可以转, 必须后一个s2是前一个 o 的时候, 才可以转。 如果 s2 回指第一个 s, 那就是另一组了。 “天昏地暗” 是成语形容词,黑箱子词,句法拆不开。 我用 vp 表达的不是 vp 是“谓语p” 的意思 包括 ap。 以后得创造一个合适的标签 P redP 只剩下一个主语的坑待填。 对于主语, 谓语是ap 还是 vp, 不重要。 人家自己已经内部摆平了, 不关主语事儿。 bai : 类似:(a/b)*(b/c)=a/c 我: 谁脸肿了? 李四。 谁手肿了? 不好说,但张三比李四可能更大, 因为打人借助的工具往往是手。 打人最常打的部位是脸, 而不是手。 这个 minimal pair 真心诡异: 张三打李四 打得他脸都肿了 张三打李四 打得他手都肿了 也是中文文法很操蛋的鲜活例证。 bai : 没啥,常识都是软的,一碰到硬证据就怂。 你不说对方手上挨打,那就是打人者手肿,说了,那就是挨打者手肿。 语言和常识推理已经融为一体。 各种标配都是随时准备让位给例外的,例外不出山,标配称大王。 我: 白老师的段子是张口就来啊。 这个说段子的功力很神。 bai : 在填坑时,先不管三七二十一按标配填,再给例外一个权利,可以override标配。 试试 “你渴了饮水机里有水可以喝。” 缩合条件。 我: 马上出门 回来再试 喝水不就是 “有 o 可以 vt”? 蛮常见的。 有书可读 有澡可洗 bai : 但填坑结构是跨前后件的。 啥句法标签呢? 我: 补足语, 逻辑 vo 单标。 graph 也不管它怎么绕了,看上去合理就行。 反正用的时候都是子树匹配, 落地甚至可以是 binary 关系组的匹配。 原则上,任何 node 可与 任何 node 发生暧昧,不讲门当户对。 一张分析全图(the entire tree)的元逻辑性(meta logicality) 可以不管它, 只要个体的 dependency 有说法就行了。 英语也是: “have a book to read” 句法标签是 宾语 ➕ 宾补, 后加逻辑vo 到了逻辑语义层 或语用层、抽取层, 句法的层次理论和原则不算数了。 bai : “他有三个保镖保护着。” 句法上其实有条件带点笼统性地把坑共享的标配拿出来。 我: 有 np vt, vt 的标配是 np 做宾语(o),若要 s 做逻辑宾就需要外力。 bai : 这房间有三扇窗户可以通风采光。 连逻辑宾都不是,最多算间接逻辑宾 我: 我的理解是逻辑主语。 两个主语都说得通, 全部与部分。 bai : “这房间”对于“通风采光”来说是填什么坑呢? 我: 主语啊。 窗户也是主语, 不过是整体和细节的区分而已: 窗户通风了, 房间自然通风。 bai : 这套音响有七个音箱和两个低音炮可以营造出环绕立体声效果。 我: 这样不断营造语用现场, 其实导致的不是语言学关系的矛盾, 而是语义 interpretation 的挑战。 语言学关系的标签,本性是弹性的, 哪怕标签取名不一定合适或容易误导(譬如主语误导为施事,其实未必)。 主语也好、宾语也好,都是万能的筐, 什么 interpretation 都可能。话题(Topic)就更甭提了。 常识来说 立体声效果的营造,应该是立体装置的总体, 这些装置的个体达不成这个效果。 这是知识内部的争论,与语言表达背后的结构关系不大。 知识内部也可 argue 立体装置中某个装置是决定性的, 那个装置效果出来了, 立体效果就基本出来了。 这是两套系统,两个层面。 结构关系,与我党对历史事件的原则一致, 宜粗不宜细, 留下语义解释或争论的空间。 bai : 那就干脆粗到不分主宾语, 只计数目, 不计语序方向, 更不计subcat的相谐, 装到框里再说。 在遇到多种填坑戴帽可能性的时候,再把这些法宝一个一个祭出来。 吃瓜打酱油的捎带着做细了。 不是为了做细而做细,是为了增加确定性而做细。 这就有意思了, 比如量词搭配。 看起来是在细化修饰关系,可顺带把逻辑宾语搞定了,纯粹是搂草打兔子。 我: 不是不可。 实践中,往往在句法关系或标签的 representation 的极端做法之间,做个折衷。 更多是为了方便。 说到底,一切句法语义计算的表达, 都是人自己玩, 方便原则不过是让人玩的时候, 少一点别扭而不是求一个逻辑完备性。 representation 作为语言理解的输出, 本质是人的逻辑玩偶。 爱怎样打扮都可以。 这个本性是所谓强人工智能的克星。 bai : 我还不那么赖皮…… 我: 强ai 更赖皮 bai : 刚性的局部可以顺带给柔性的全局注入一小丢丢刚性,但是出发点就没指望全局会百分之百刚性。 我: 连语义的终极表达 都一头雾水,说什么强智纯属扯淡。 bai: 强AI我反对,语义表示太过任意我也不赞成。总要有个松紧带勒着。 我: system internal 是做现场的人的现实。 很多东西就是有一个模模糊糊大的原则, 或有 相当 弹性的松紧带。 下面呢,就是一个系统内部的协调(system internal coordination)。 在人叫自圆其说, 在机器就是内恰。 bai: 二分法是要的,一部分role assignment,一部分symbol grounding。前者是深度NLP的必修课,后者跟现场关系更大些。 过松的松紧带,红利已经吃得差不多了。 新兴的松紧带,不紧点就没有投资价值。 我: 投资价值与宣传价值还有一些不同。 投资价值对松紧不会那么敏感, 除非是投资与宣传(marketing)紧密相关的时代, 譬如当下ai泡沫的时代,或当年克林顿的时代。 投资价值的落脚点还是语义落地(semantic grounding)。 至于怎么落的地, 松啊、紧啊,不过是给一个宣传的说法。 昨天我还说, syntaxnet 和很多 dl 都是开源的, 要是好落地为产品,还不是蜂拥而上。 现实是,不好落地。 所谓核武器是这样一个工具, 它有一个明确的落地途径,至少从方法学上。 system internal 的落地管道,被反复验证的, 余下的主要是领域打磨和调试。 bai : 现在很多公司是万事俱备,就差核武器 我: syntaxnet 至少目前状态没有这个。虽然也是 deep parsing,但并不是所有的 deep parsing 都是核武器,要看是谁家的、怎样的 deep parser 才有核武器的威力。 bai : 你没看上眼的,我们可以不用讨论 我: 看上眼的dl,是有海量带标数据的(最好是自然带标数据,无需组织人去标注),端对端绕过显性结构的,里面满肚子谁也猜不透的隐藏层黑箱子的机器,譬如神经机器翻译( nmt)。 bai: 带标看标在什么地方。标在字典里OK,那算数据资源建设。标在语料里,即便假定标注体系在语言学上是正确的,还要考虑做不做得起呢,何况语言学上错误的标注体系,更让人怀疑有没有价值和意义去如此大动干戈了。 我: 回家了,可以测试: “你渴了饮水机里有水可以喝。” 逻辑的坑都没到位。句法的框架不能算离谱。就是这样。至于叫补足语还是叫 Next,也无大关系,反正后续语义中间件需要这么一个桥梁做细活。“有 NP V” 的句式以前调试过,比想象的复杂,一直没搞定,就放置一边了。 bai: “有电话可以打”“有空调可以吹”“有大床可以睡” 不必然是逻辑主语,不必然是逻辑宾语,甚至不必然是必选坑。两个谓词中间被NP穿插的,朱先生书里叫“连谓结构”。类似伟哥的next。 我:哈。 bai: 大床居然是S 我: 目前词典没有收可分离合成词 “睡床” 或 “睡大床”。 默认做主语 也是可以的。循 “有 什么什么 发生了” 的句式, 何况 “睡” 做不及物动词的时候更多。不是说分析对了,而是说错得有迹可循。汉语“有”在句首的时候,常常是 dummy,如果 “有” 前有个 NP,那么后面的 NP 做主语的机会就相应减少了。 白老师曰: 大床居然是 S 有两个哥们,一个叫大床,一个叫小床。大床爱睡懒觉,小床爱撒酒疯。有大床睡,就有小床喝,一刻不得安宁 .... 【谁接龙?】 bai: 白老师还曰,任何成分皆可为专名。 我: =:) 吾谁与归? bai: 时不我待 我: 想起文革时期的莫须有群众举报,结论是:事出有因,查无实据。然后是 有则改之无则加勉 就是教育被污名者自认倒霉,没的冤枉。 说实心话,昨天白老师说很多公司是,万事俱备,只欠东风。时不我待,我手心的疑似东风如何才能刮起? bai: 专名是一种层次纠缠。 事出有因,查无实据;有则改之 无则加勉。这是那年代的套话 方言,成了小说里的人名;文章,成了现实中的人名。 找谁讲理去。 只能用“结构强制”,从外部施加影响,再辅以大数据。 我: 说事出有因 是文过饰非。 不过 nmt 测试的结果常常连事出有因 都很难。一个长句 只有一个字不同,而且这个不同的字还是同质的,nmt 翻译结果却有很大的不同。这个现象非dl专家无法解释和理解 bai: 所以规则层面的、用可理解的特征直接表示的知识如何混入大数据直接参与学习甚至“编译”,非常重要。 我: 所谓符号逻辑派 就是错了 也错得事出有因 debug 也知道症结所在 bai: 符号逻辑派缺乏的是柔性,不知道认怂,一错到底。 我: yeh 见过这种人 还不少 【相关】 【李白对话录之七:NLP 的 Components 及其关系】 【李白对话录之六:如何学习和处置“打了一拳”】 【李白对话录之五:你波你的波,我粒我的粒】 【李白对话录之四:RNN 与语言学算法】 【李白对话录之三:从“把手”谈起】 【李白隔空对话录之二:关于词类活用】 《李白对话录:关于纯语义系统》 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3515 次阅读|0 个评论
【李白对话录之五:NLP 的 Components 及其关系】
liwei999 2016-9-29 09:59
白: “交杯酒”,似乎“交杯”修饰的不是“酒”。“散伙饭”比“交杯酒”好点,可能“饭”单指饭局比“酒”单指敬酒频率要高些。 李: 这不就是一个黑箱子吗,里面啥关系对语义计算有什么用呢?如果有用,那就在词典绑架性标出,如果没用,就不管它。“交杯酒” 与 “酒” 的不同,是前者有个坑 【with+human】:“与张三的交杯酒刚喝过,李四就跟他掰了。” 后者似乎也可以,但那个似乎随机性很强或者后者指的是前者的时候:“与张三的酒刚喝过。。。” 白: 考虑创造新说法的安全性和可接受性,这问题不能绑架了之。见面礼,也属此类。现在流行的“谢师宴”,若干年前肯定是不说的。如何“安全地泛化”,对于语言生成来说是新课题。 李: 如果说的是语言生成,譬如在机器翻译应用,那么,一个系统有选择的余地。不必要翻译成一个短小紧凑的 【合成词】 的表达方式。可以用比较散漫的句法表达方式,这样相对保险,也规避了 word formation 的泛化的问题,因为句法的本性就是泛化和随机,构词法则不然。“谢师宴” 可以表达成 “感谢恩师的宴会”。 白: 人机对话不同 需要惊喜 李: 白老师看的是未来,锦上添花的东西。现如今雪中送炭还远没解决。 如果是 parsing,这种泛化的合成词的确词典收不胜收。汉语的造词能力特强,需要专门的 compounding 的模块去识别。 白: 单字形容词重叠+的,应该是系统性的现象。词典化怎么看都不像正路子。 李: 应该是两手吧。常用的 aa 重叠,尤其是双字的合成词,常规词典有收。系统的 rule 也必须有,娄底,保证recall。何况 “美” 与 “美美” 不是 1+1 的关系。可以被 “美美” 所状的谓词,单个的 “美” 根本不可能,无论睡觉、吃饭。同理,“好好” 与 “好” 也差别很大。可是 “幸幸福福” 与 “幸福” 就完全是规律化、系统性的现象了。即便用法有别,也是系统性地有别。这与 “好好、“美美” 不同。 白: 美美,是当事人感觉美。好好,是提要求/愿望的人觉得满足要求。轻轻,是行动人的身体或者行动人操控的物品宛若很轻。这一切基本与谓词无关。 李: “美美睡上一觉”;“睡一个美美的觉。” 说与谓词无关,谓词不同意吧。 如果无关,辛勤与工作也无关。辛勤也是说人,工作也是说人,当“辛勤”修饰(状语)“工作”的时候,两个人是一个人。 如果说句法上的修饰关系,到了逻辑语义层不应该有所反映的话,那么逻辑语义表达中就不存在定语从句的路径。那么,“我说的话” 与 “我说话” 的语义区别咋办呢? 目前我们的处理是:“我说的话” 有一个小句“我说话”,这个小句有一个修饰的路径(Mod-S)指向“话”。 白: 逻辑语义是一个“结构体”,标配是负载最外层结构的词对外。需要其他词对外时,就需要定语从句来改变。所以定语从句不改变结构内逻辑语义关系,只是指派了不同词语来“代表”结构对外而已。S-mod是一个句法关系,不是逻辑语义关系。 李: 我对逻辑语义的理解是宽式的,涵盖一切由语句表达的涉及概念之间关系的语义,表达的是人对语句的理解。有了逻辑语义,再加上节点上的概念(从语词到概念的映射,理论上要经过 WSD),就可以说人理解语言了。如果是机器达到了上面两项,那就是机器的自然语言理解了。从这个角度看,定语从句不仅仅是表层的句法关系,它也是深层的语义关系(在 argument structure 以外的另一个维度)。 白: “吃饭”,和“吃的饭”,吃与饭的逻辑语义关系不变,只是这个结构体的对外代言人,一个落在“吃”,一个落在“饭”。 李: 没错,吃饭 与 吃的饭 在 arg structure 维度,逻辑语义完全一致。也因此我们的 deep parse tree 上,下面的小句是等同的。跳出这个SVO结构体以外的维度,或者说,这个 SVO 与其他 SVO 发生关联的时候,这种关联也是语言理解的必需,也是语义。至于这个语义及其形式化的表达,叫不叫逻辑语义,那是命名的问题。但它的确是理解的必需,也的确是语义,也不能说不逻辑。对于 “我喜欢吃饭”,这个“吃饭” 的 arg structure 就直接做了 “喜欢” 的对象,到了 “我喜欢我吃的饭”,这个 arg structure 就只能降一级,然后通过 “饭” 来做喜欢的对象。逻辑上,arg structure 只是一个最基本的事件语义元件。 白: 结构体能做萝卜的成分有多个,包括最外层谓词本身。这并没超出逻辑语义范围。真正超出的是语用,比如定语从句有“造成既成事实”因而“强加于人”的感觉。 李: 由于这些元件的叠加所产生的语义,在语言表达中有很多方式,而且语言的节省(或偷懒)原则,使得这些元件的坑里面的萝卜往往省略,造成了语言向逻辑映射的困难,构成了 deep parsing 的挑战。说定语从句是句法形式,表达的是语用,而不是语义。这种说法,可成一家之言。可是,语义和语用本来的界限就有相当的灰色地带,哪些东西可以从语用的边界拉到语义这边,哪些东西可以在语义中挂起来,留待语用去解,都是一个公婆各有理的 practice,实践中就是系统内部(system internal)的协调。 白: “惯于充当世界警察的美国”,就有把“美国惯于充当世界警察”当作既成事实强加给受众的意思。 李: 我个人的原则是,凡是 domain independent 的,都应该在语义里面表达和求解。凡是关涉 domain 的,或应用的,那就先挂起来,留到语用去解。这是把语用(pragmatics)与应用(apps)紧密联系了。定语从句是独立于 domain 的,不管哪个 domain 哪个应用,定语从句所表达的那点意思,都是一样的。当然会遇到有些语义计算的现象,它似乎有某种 domain 独立性,但又不完全。这时候的定夺就有任意性。主张在语义阶段求解的,加重的是语义 component 的负担,节省的是那些对此现象有要求的 domains 的 work,浪费表现在对于那些对此工作没有要求的 domains,那个语义工作就是白费功夫了。 白: 你这语用不是pragmatics,而是language usage。pragmatics一定是领域无关的。但pragmatics同样独立于逻辑语义结构 李: 前者我不确定,也许 community 对 pragmatics 的理解是你所说的,那样的话,“我的语义定义”里面是包含了这部分的。后者好像不对, language usage 一般指的是纯粹语言学的句法、词法、习惯用法等表层的现象。language usage 不是一个语言学的相对独立完整的 component。 白: 或者application,反正不是pragmatics的意思。这误会不是一天两天了,之前听你说语用我就感觉对不上茬儿。 李: 哈哈。 用的不是同一套话语体系,交流的时候要是不相互了解的话,的确很别扭。 举个具体的案例。 费尔默 上个世纪70年代(?)提出格语法(Case Grannar,深层格)的时候,我的理解,这是语义。实际上就是逻辑语义。当他不断把这条路线往下进行的时候,终于越来越趋近语用,最后成就的 FrameNet 在我的理解体系里面是属于 “语义” 向 “语用” 过度的结果(因此我一直批评它说在NLP中不尴不尬),但仍然基本上是领域独立的,可以划在语义的大范畴里面。可是,到了 MUC 创立了 IE 的时候,这就不再是领域独立了,于是就完完全全成了语用。信息抽取领域定义的那些关于事件和关系( 知识图谱的发源 )的 Templates, 与费尔默定义的 FrameNet,从形式上看,是一体的。不过在 FrameNet 里面,成千的 Frames 组织成了一个基本独立于领域的 hierarchy ,到了 IE 就完全放弃了自上而下的这种继承,一切都是零敲碎打,随着领域 随着应用随时拼凑起来的 Templates,直接服务于产品。 白: 指代消解,言外之意推导等,这些才是“语用学”环节要解决的问题。 你在美国,只要不用pragmatics指你说的语用,啥事没有,但对国内的人就不同了。你说的语用,在国内叫知识表示。 李: 指代在我的“科普”体系里面,是另一个 component,属于 Discourse,那是另一个维度,是篇章的维度。知识表示 (knowledge representation)有两大类吧,一类就是 ontology,有普世的,譬如 董老师 的 HowNet,也有领域的,譬如,医学领域的 ontology(本体)。另一类知识表示是动态的、流动的,就是现在红透半边天的知识图谱,其基础就是 IE,加上 篇章的、跨文本的一些工作支持的融合(fusion),包括merging,deconflicitng 等 mining。 白: 句内也有指代,无需篇章。 李: 句内也有指代,所以才有以句子为最大单位的句法的与之交互。交互的结果就是乔老爷的所谓 Binding Theory 或 Principles,但是指代在借助句法做了句内的指代以后,自然的下一步是走向篇章。事实上 乔老爷的 binding 原则之一,就是把句法搞不定的,推向篇章。那个原则是,本句的某个 NP 不可能是这个指代词 (“自己”、“他”)的所指。根据这一原则,句法的作用只是否定了一种可能,留下的是其他的可能,让篇章去寻。 我的相关科普在:【 立委科普:NLP 联络图 】(英文在: OVERVIEW OF NATURAL LANGUAGE PROCESSING )。里面把与 NLP 有关的语言学 components 按照我自己的理解,梳理了一遍。 【相关】 【李白对话录系列】 《 知识图谱的先行:从 Julian Hill 说起 》 《语义三巨人》 【立委科普:自然语言系统架构简说】 【 立委科普:NLP 联络图 】 OVERVIEW OF NATURAL LANGUAGE PROCESSING
个人分类: 立委科普|4281 次阅读|0 个评论
【博士涂鸦回顾:把常识代入文法的尝试】
liwei999 2016-9-16 10:10
上次说过,绝大多数的parsers对于谓词的 subcat 的表达都很简陋,伸展不开,多数不过把 subcat 当成一个代码,然后在相关的 subcat 规则中去确定 pattern。但是词驱动的文法 HPSG 却可以丝丝入扣,合情合理,可以直接在词典里面把 subcat 的 pattern 细致地描述,并对其句法语义的输入(pattern的条件)和输出(逻辑语义)之间的映射和解构,做出一个符合语言学原则的表达(representation)。 简陋有简陋的工程考量和理由,叠床架屋有叠床架屋的逻辑优美。鱼与熊掌不可兼得,我们最终还是更加倾向于简陋之法。尽管如此,走简陋快捷的路线的人,如果对结构表达的优美有所体验,还是有莫大的好处,至少不会被简陋的表象所迷惑,对于复杂的语言现象,逐渐摆脱简陋的捉襟见肘。 最近回看当年博士阶段的 涂鸦文章 ,虽然其中反映出的对汉语句法的见识并不出彩,但是得力于 HPSG 的结构丰富性,还是把 subcat 在汉语文法中应用,表现得有条不紊,经得起时间的检验。当年钻研 HPSG 还是很专心的,吃得蛮透。正因为吃得透了,后来扬弃的时候就没有拖泥带水的牵挂。 譬如,在论及汉语NP带坑的现象的时候,是这样模型的: 11a) 桌子坏了。 11b) 腿坏了。 11c) 桌子的腿坏了。 12a) 他好。 12b) 身体好。 12c) 他的身体好。 When people say 11b) tui huai le (leg went wrong), we know something (the possessor) is omitted. For 11a), however, we have no such feel of incompleteness. Although we may also ask whose table, this possessive relation between who and table is by no means innate. Similarly, ta (he) in 12a) is a complete notion denoting someone while shenti (body) in 12b) is not. In 11c) and 12c), the possessor appears in the possessive structure DE-construction, the expectation of tui (leg) and shenti (body) is realized. These examples show that some words (concepts) have conceptual expectation for some other words (concepts) although the expected words do not necessarily show up in a sentence and the expectation might not be satisfied. In fact, this type of expectation forms part of our knowledge (common sense). One way to represent the knowledge is to encode it with the related word in the lexicon. Therefore we propose an underlying SYNSEM feature KNOWLEDGE to store some of our common sense knowledge by capturing the internal relation between concepts. KNOWLEDGE parallels to syntactic SUBCAT and semantic RELATION. KNOWLEDGE imposes semantic constraints on their expected arguments no matter what syntactic forms the arguments will take (they may take null form, i.e. the underlying arguments are not realized). In contrast, SUBCAT only defines syntactic requirement for the complements and gets interpreted in RELATION. Following this design, syntactic form and semantic constraints are kept apart. When necessary, the interaction between them can be implemented by lexical rules, or directly coindexed in the lexicon. For example, the following KNOWLEDGE information will be enforced as the necessary semantic constraints when we handle Chinese NP predicates by a lexical rule (see 3.3). 把常识暗度陈仓从后门带入文法,就是从那时候开始的。这个做法在欧洲语言的形式文法中不多见,因为句法形式大体够用了,通常不需要常识的帮忙。但是对于汉语,没有某种常识的引入,想做一个成熟的深度分析系统,则很难。当年带常识的的句法结构模型是这样定义的: PHON shenti SYNSEM | KNOWLEDGE | PRED possess SYNSEM | KNOWLEDGE | POSSESSOR human SYNSEM | KNOWLEDGE | POSSESSED SYNSEM | LOCAL | CONTENT | INDEX SYNSEM | LOCAL | CONTENT | RESTRICTION { RELATION body } SYNSEM | LOCAL | CONTENT | RESTRICTION { INSTANCE } 最后,汉语文法中常识的引入被认为是对欧洲语言利用性数格的 agreement 的一个自然延伸。句法手段到语义限制的延伸。 Agreement revisited This section relates semantic constraints which embody common sense to the conventional linguistic notion of agreement. We will show that they are essentially the same thing from different perspectives. We only need slight expansion for the definition of agreement to accommodate some of our basic knowledge. This is important as it accounts for the feasibility of coding knowledge in linguistic ways. Linguistic lexicon seems to be good enough to house some general knowledge in addition to linguistic knowledge. 为 parse“我鸡吃“ 和“鸡我吃”, 常识进入了文法(现在也可以利用大数据把常识代入): A typical example of how concepts are linked in a network (a sophisticated concept lexicon) is seen in the representation of drink ((*ANI SUBJ) (((FLOW STUFF) OBJE) ((SELF IN) (((*ANI (THRU PART)) TO) (BE CAUSE))))) in Wilks 1975b. While for various reasons we will not go as far as Wilks, we can gain enlightenment from this type of AI approach to knowledge. Lexicon-driven systems like the one in HPSG can, of course, make use of this possibility. Take the Chinese role-assignment problem, for example, the common sense that ANIMATE being eats FOOD can be seamlessly incorporated in the lexical entry chi (eat) as a semantic agreement requirement. PHON chi SYNSEM | KNOWLEDGE | PRED eat SYNSEM | KNOWLEDGE | AGENT animate SYNSEM | KNOWLEDGE | PATIENT food SYNSEM | LOCAL | CATEGORY | SUBCAT | EXTERNAL_ARGUMENT ] SYNSEM | LOCAL | CATEGORY | SUBCAT | INTERNAL_ARGUMENTS ] SYNSEM | LOCAL | CONTENT | RELATION SYNSEM | LOCAL | CONTENT | EATER | INDEX | ROGET SYNSEM | LOCAL | CONTENT | EATEN | INDEX | ROGET 可见,看上去不过是 POS 细分后的一个 subcat 的代码,里面其实包含了多少结构及其蕴含其内的知识。在 unification grammars 几乎成为历史陈迹的今天,我还是认为 HPSG 这样的表达是最优美的语言学的逻辑表达之一,论逻辑的清晰和美,后来的文法很难超越。 Handling Chinese NP predicate in HPSG (old paper) Notes for An HPSG-style Chinese Reversible Grammar Outline of an HPSG-style Chinese reversible grammar PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) Overview of Natural Language Processing Dr. Wei Li’s English Blog on NLP
个人分类: 立委科普|3878 次阅读|0 个评论
【一日一parsing:从“见面”的subcat谈起】
liwei999 2016-9-12 23:50
白: “三两面”和“两三面”很不一样啊…… 我借过他三两面。我见过他两三面。 我: 三两面 两三面 我见过他三两面 ditransitive, no problem, but: separable verb jian-mian is still not connected 还有: (0)我见过他两三面。 (1)我见过他。 (2)我与他见过面。 (3)* 我见过面 (4)我们见过面。 (5)我与他,见面过。 “见面” 要求或者主语是复数(4),或者主语是并列结构(5),或者带有介词短语“与(with)”(PP或并列在汉语界限不清,(2)),或者动量词疑似的“两三面”前必须有定语【human】。所有的这些句法subcat要求都是满足语义(或常识)的一个【human】的坑:常识是,“见面“”必须在两个或以上的 human entities 之间进行。 HPSG 这类极端依赖subcat数据结构的词驱动的理论和语言学表达,尽管繁缛,但有一个亮点, 就是把上述的句法要求作为 input 的匹配条件描述,与内在的语义要求(类似于 HowNet 的描述)作为语义的 output,一条一条形式化,细致入微,丝丝入扣。用的是 label 的unification(就是 label 所代表的子结构的 sharing)机制。多数系统对于 subcat 的内部结构,input到output的映射,以及背后的句法与语义的关系(语义是句法的动因,同时也是句法的目标:句法匹配,语义实现),都显得太简陋了。 过犹不及,不及犹过。我们一直在探索在 subcat 的表达和实现中,如何做到中庸而不平庸,简约而不简陋。 白: 他我见过几面 我: 简陋之极的一个例证是给人用的 Oxford 高级词典和朗曼词典的那些 subcat codes,类似 v1,。。。v23 之类。后来纽约大学专门组织CL的研究生做 CompLex 和 NomLex 等 subcat 词典。中文方面,社科院语言所的【现代汉语800词】开 subcat 先河,【动词用法词典】等系列辞典,开始试图把 subcat 用某种编码加例句予以表达。所有这些工作,从数据表达和关系看,都显得有些简陋。其根子是,句法和语义没有厘清。 对于一个 NLP practitioner,拿来这些资源,必须在肚子里做这个句法语义的连接和消化,然后确定数据结构,找寻自己的实现途径。实现的时候,很难达到 unification 文法的漂亮,大多是凑合事儿,为的是避免 HPSG 这类的实现起来的低效率和数据结构的难维护。 董老师的 HowNet 对于汉语和英语的 subcat,语义上登峰造极了,但是句法方面还是显得不够细致周全。譬如“见面”这类的上述6-7种句法规定,好像就没有一一描述(董老师指正:也许我没吃透),也没见哪家描述清楚过。也都需要一个重新咀嚼消化,然后去实现。 (3)的 generation 不合法(*),但对于 parsing,鲁棒性要求这样parsing,没错。 没调试,居然出来了,912 的狗屎运吧。(911恐袭,913林跑,都不是好日子。)只剩下 “我见过他两三面” 这个 case 了。这个类似动量补语的东西其实仅限于:“一面”,“几面”,“两三面”,“三两面”,等少数几个。起码,100+ 面 基本不可能 除非是恋人。 张: 崇拜严重中 我: 张老师谬赞。清谈误国,我只要不误“人”子弟就好了,一辈子没当过教授,要误也都是人家子弟,哈。 张: 白求恩 我: 认真说,其实真地涉嫌误人子弟,因为凡事都有一个大环境和背景,我说的这些个多少有些异类,结果是,主流学生雾里看花。雾里看花也算增加视野,最误人的是,看到花,却够不着。这就好比鲁老爷子说的,本来人家黑屋子里面睡得蛮香甜,你非要去【呐喊】,唤醒了,可屋子还是黑屋子,这就不仅仅是残忍了。不残忍的法子就是,等以后退休了,开一个 Deep Parsing 开源公园,每条代码,每个词条,每段规则,全部公开,然后看看能不能靠众人的力量,弄一个无敌系统来。大家一起玩符号逻辑,让两条路线永远。 【相关】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3356 次阅读|0 个评论
【语义计算沙龙:三角关系的 chemistry 种种】
liwei999 2016-9-6 23:25
白: 朴泰恒小组成绩不好,今天不一定能进决赛 上面例子,“小组”怎么摆,是个考验。 原意是“在小组赛阶段的” 梁: 朴泰恒今天小组成绩不好。 孙杨小组第一。 白: 以人命名的小组也是存在的 梁: 是啊,感觉“小组成绩不好”是谓语。这里小组也不是“朴泰恒的小组“,考验来了。 我: 不是说大数据吗 看 某某某小组 是不是够资格 梁: @wei 很棒! 有个 Topic. 宋: @wei 确实很好。但是确实能区分两种“小组”,还是只顾一头? 我: 没有大数据,应该是只顾一头吧,可以试试另一头的典型案例 宋: 即使有大数据,还得区分时代、地域、行业等,不好办。 而且,这就成了有监督的学习了,需要做语料标注。 白: 不一定宋老师。可以词典里离线加标签,目标文本在线只需计算标签密度,不涉及监督学习。 宋: 具体解释一下吗? 我: 词典习得本质上是无监督的 ngram 频率做底。假设北京大学不在词典 应该可以学出来,某某某小组 亦然。白老师说的是在线词典化 通过现场计算。 宋: @wei 就这个例子而言,对比“朴泰恒小组”和“朴泰恒……小组”的频率,是吗? 我: 能不能解决这个问题:北京大学、中学、小学要立刻全部动员起来 xyz 相交切分的通则:xy 强 还是 yz 强,这个道理上可以在线检索计算 “北京大学” 还是 “大学、中学” 强 宋: 如果看作交搭型歧义问题,那么在大数据中,肯定是“小组成绩”频率高过“朴泰恒”的频率,除非朴泰恒这个人太红。因此,以此决定句法结构,似乎理由不足。 我: 人是怎么决策的呢? 这里可能涉及大数据的范围问题。 数据不是越大越好 尤其不能杂 大而杂 就把领域抹平了,而很可能这是领域知识 宋: 对,我糊涂了。 白: 其实,和人名结合是兜底的,要学的只是不和人名结合的高频词串。 向右结合的条件不满足,就默认向左好了。 大数据不是这么用的。 宋: 不过无论如何,一般来说,X小组 比不上 小组成绩。这里是领域知识问题,不大好用词频去处理。 我: 先说一下篇章现象 one sense per discourse. 如果同一篇中 还有 某某某小组 再现。那个原则是过硬的 可以 在篇章内搞定,这时候大数据认输。 宋: 张三小组第一,李四小组第二。 白: @宋柔 这个是歧义 我: 分为四级 第一级 是词典绑架 北京大学基本如此 第二级 是篇章原则 第三级 是领域数据 第四级 才是大数据 超领域的 涉及到专名 术语的 走不到超领域的大数据,大数据抹平了领域知识 反而不妙 白: 词例级如此,特征级未必 特征级可以把xx小组一起拿上来统计。 我: 明白。不过具体操作起来,还是一笔糊涂账。xxx 小组 与 小组成绩 打架,要赢多少 算赢?在多大的数据里?如果特别悬殊 好说,稍微有些接近 就是烂帐,or 烂仗。 白: 另外,针对篇章可以计算特征密度,如果某种特征密度显著比其他特征高,也可用。比如体育特征显著,“小组”做前缀就优先级较高。 宋: 我在11年人民日报中检索,“小组赛”1013次,“小组成绩”4次,“小组赛成绩”两次,人名+小组3次。对于一个毫无体育比赛知识的人,如果有一般的比赛知识,知道比赛会出成绩,就能推知“小组比赛”是一个短语。首先是从黏着的“赛”黏着到“小组赛”,知道有“小组赛”这个术语,并能理解这是分小组而比赛。由于知道比赛会出成绩,就能推知“小组成绩”是一个短语,指某人在小组赛中的成绩。人名+小组7次,但都与体育无关:赵梦桃小组,郝建秀小组等,都是棉纺厂的。一个人,没有体育比赛知识,但有一般的比赛知识,又有语言知识,就可以有这样的推理 我: “周恩来思想深刻 谈吐幽默”,vs. “毛泽东思想深刻” “思想” 与 “小组” 类似 宋: 1940年代以前,汉语中好像没有“人名+思想”作为一个词的。此后,“毛泽东思想”频率越来越高。但其他人名+思想就不能成词。 我: 这个政治有意思:从此 其他 人名+思想 成为禁忌:我花开来百花杀啊。 白: @宋 “小组循环赛”“小组出线”“小组第一”……等各种组合均以“小组”为前缀,如果只对实例,其实比“朴泰恒小组”好不到哪里去。统计频度多一点少一点都做不得结构优选的依据。但是如果抽象地考察“前缀模式”和“后缀模式”的优先程度受什么影响,必然会追溯到特征以及特征在篇章中的密度分布。如果“体育”或“竞赛”特征及其密度优势显著,“小组”倾向于做前缀,否则倾向于做后缀。如果前缀所带的实例碰巧在大数据里固然好,不在,也可通过特征及特征密度间接获得友军的支持。同样,如果“人名”“任务名”特征或特征密度显著,“小组”倾向于做后缀。 【相关】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|1963 次阅读|0 个评论
PhD Thesis: Chapter V Chinese Separable Verbs
liwei999 2016-8-28 20:24
5.0. Introduction This chapter investigates the phenomena usually referred to as separable verbs (离合动词 lihe dongci ) in the form V+X. Separable verbs constitute a significant portion of Chinese verb vocabulary. These idiomatic combinations seem to show dual status (Z. Lu 1957; L. Li 1990). When V+X is not separated, it is like an ordinary verb. When V is separated from X, it seems to be more like a phrasal combination. The co-existence of both the separated use and contiguous use for these constructions is recognized as a long-standing problem at the interface of Chinese morphology and syntax (L. Wang 1955; Z. Lu 1957; Chao 1968; Lü 1989; Lin 1983; Q. Li 1983; L. Li 1990; Shi 1992; Dai 1993; Zhao and Zhang 1996). Some linguists (e.g. L. Li 1990; Zhao and Zhang 1996) have made efforts to classify different types of separable verbs and demonstrated different linguistic facts about these types. There are two major types of separable verbs: V+N idioms with the verb-object relation and V+A/V idioms with the verb-modifier relation - when X is A or non-conjunctive V. The V+N idiom is a typical case which demonstrates the mismatch between a vocabulary word and grammar word. There have been three different views on whether V+N idioms are words or phrases in Chinese grammar. Given the fact that the V and the N can be separated in usage, the most popular view (e.g. Z. Lu 1957; L. Li 1990; Shi 1992) is that they are words when V+N are contiguous and they are phrases otherwise. This analysis fails to account for the link between the separated use and the contiguous use of the idioms. In terms of the type of V+N idioms like 洗澡 xi zao (wash-bath: take a bath), this analysis also fails to explain why a different structural analysis should be given to this type of contiguous V+N idioms listed in the lexicon than the analysis to the also contiguous but non-listable combination of V and N (e.g. 洗碗 xi wan 'wash dishes'). As will be shown in Section 5.1, the structural distribution for this type of V+N idioms and the distribution for the corresponding non-listable combinations are identical. Other grammarians argue that V+N idioms are not phrases (Lin 1983; Q. Li 1983; Zhao and Zhang 1996). They insist that they are words, or a special type of words. This argument cannot explain the demonstrated variety of separated uses. There are scholars (e.g. Lü 1989; Dai 1993) who indicate that idioms like 洗澡 xi zao are phrases. Their judgment is based on their observation of the linguistic variations demonstrated by such idioms. But they have not given detailed formal analyses which account for the difference between these V+N idioms and the non-listable V+NP constructions in the semantic compositionality. That seems to be the major reason why this insightful argument has not convinced people with different views. As for V+A/V idioms, Lü (1989) offers a theory that these idioms are words and the insertable signs between V and A/V are Chinese infixes. This is an insightful hypothesis. But as in the case of the analyses proposed for V+N idioms, no formal solutions have been proposed based on the analyses in the context of phrase structure grammars. As a general goal, a good solution should not only be implementable, but also offer an analysis which captures the linguistic link, both structural and semantic, between the separated use and the contiguous use of separable verbs. It is felt that there is still a distance between the proposed analyses reported in literature and achieving this goal of formally capturing the linguistic generality. Three types of V+X idioms can be classified based on their different degrees of 'separability' between V and X, to be explored in three major sections of this chapter. Section 5.1 studies the first type of V+N idioms like 洗澡 xi zao (wash-bath: take a bath). These idioms are freely separable. It is a relatively easy case. Section 5.2 investigates the second type of the V+N idioms represented by 伤心 shang xin (hurt-heart: sad or heartbroken). These idioms are less separable. This category constitutes the largest part of the V+N phenomena. It is a more difficult borderline case. Section 5.3 studies the V+A/V idioms. These idioms are least separable: only the two modal signs 得 de3 (can) and 不 bu (cannot) can be inserted inside them, and nothing else. For all these problems, arguments for the wordhood judgment will be presented first. A corresponding morphological or syntactic analysis will be proposed, together with the formulation of the solution in CPSG95 based on the given analysis. 5.1. Verb-object Idioms: V+N I The purpose of this section is to analyze the first type of V+N idioms, represented by 洗澡 xi zao (wash‑bath: take a bath). The basic arguments to be presented are that they are verb phrases in Chinese syntax and the relationship between the V and the N is syntactic. Based on these arguments, formal solutions to the problems involved in this construction will be presented. The idioms like 洗澡 xi zao are classified as V+N I, to be distinguished from another type of idioms V+N II (see 5.2). The following is a sample list of this type of idioms. (5-1.) V+N I: xi zao type 洗澡 xi (wash) zao (bath #) take a bath 擦澡 ca (scrub) zao (bath #) clean one's body by scrubbing 吃亏 chi (eat) kui (loss #) get the worst 走路 zou (go) lu (way $) walk 吃饭 chi (eat) fan (rice $) have a meal 睡觉 shui (V:sleep) jiao (N:sleep #) sleep 做梦 zuo (make) meng (N:dream) dream (a dream) 吵架 chao (quarrel) jia (N:fight #) quarrel (or have a row) 打仗 da (beat) zhang (battle) fight a battle 上当 shang (get) dang (cheating #) be taken in 拆台 chai (pull down) tai (platform #) pull away a prop 见面 jian (see) mian (face #) meet (face to face) 磕头 ke (knock) tou (head) kowtow 带头 dai (lead) tou (head $) take the lead 帮忙 bang (help) mang (business #) give a hand 告状 gao (sue) zhuang (complaint #) lodge a complaint Note: Many nouns (marked with # or $) in this type of constructions cannot be used independently of the corresponding V. But those with the mark $ have no such restriction in their literal sense. For example, when the sign fan means 'meal', as it does in the idiom, it cannot be used in a context other than the idiom chi-fan (have a meal). Only when it stands for the literal meaning ‘rice’, it does not have to co-occur with chi . There is ample evidence for the phrasal status of the combinations like 洗澡 xi zao . The evidence is of three types. The first comes from the free insertion of some syntactic constituent X between the idioms in the form V+X+N: this involves keyword-based judgment patterns and other X‑insertion tests proposed in Chapter IV. The second type of evidence resorts to some syntactic processes for the transitive VP, namely passivization and long-distance topicalization. The V+N I idioms can be topicalized and passivized in the same way as ordinary transitive VP structures do. The last piece of evidence comes from the reduplication process associated with this type of idiom. All the evidence leads to the conclusion that V+N I idioms are syntactic in nature. The first evidence comes from using the wordhood judgment pattern: V(X)+zhe/guo à word(X). It is a well observed syntactic fact that Chinese aspectual markers appear right after a lexical verb (and before the direct object). If 洗澡 xi zao were a lexical verb, the aspectual markers would appear after the combinations, not inside them. But that is not the case, shown by the ungrammaticality of the example in (5-2b). A productive transitive VP example is given in (5-3) to show its syntactic similarity (parallelness) with V+N I idioms. (5-2.) (a) 他正在洗着澡 ta zheng-zai xi zhe zao . he right-now wash ZHE bath He is taking a bath right now. (b) * 他正在洗澡着。 ta zheng-zai xi - zao zhe. he right-now wash-bath ZHE (5-3.) (a) 他正在洗着衣服。 ta zheng-zai xi zhe yi-fu . he right-now wash ZHE clothes He is washing the clothes right now. (b) * 他正在洗衣服着。 ta zheng-zai xi yi-fu zhe. he right-now wash clothes ZHE The above examples show that the aspectual marker 着 zhe (ZHE) should be inserted in the V+N idiom, just as it does in an ordinary transitive VP structure. Further evidence for X-insertion is given below. This comes from the post-verbal modifier of ‘action-times’ (动量补语 dongliang buyu ) like 'once', 'twice', etc. In Chinese, action-times modifiers appear after the lexical verb and aspectual marker (but before the object), as shown in (5-4a) and (5-5a). (5-4.) (a) 他洗了两次澡。 ta xi le liang ci zao . he wash LE two time bath He has taken a bath twice. (b) * 他洗澡了两次。 ta xi - zao le liang ci. he wash-bath LE two time (5-5.) (a) 他洗了两次衣服。 ta xi le liang ci yi-fu . he wash LE two time clothes He has washed the clothes twice. (b) * 他洗衣服了两次。 ta xi yi-fu le liang ci. he wash clothes LE two time So far, evidence has been provided of syntactic constituents which are attached to the verb in the V+N I idioms. To further argue for the VP status of the whole idiom, it will be demonstrated that the N in the V+N I idioms in fact fills the syntactic NP position in the same way as all other objects do in Chinese transitive VP structures. In fact, N in the V+N I does not have to be a bare N: it can be legitimately expanded to a full-fledged NP (although it does not normally do so). A full-fledged NP in Chinese typically consists of a classifier phrase (and modifiers like de- construction) before the noun. Compare the following pair of examples. Just like an ordinary NP 一件崭新的衣服 yi jian zan-xin de yi-fu (one piece of brand-new clothes), 一个痛快的澡 yi ge tong-kuai de zao (a comfortable bath) is a full-fledged NP. (5-6.) 他洗了一个痛快的澡。 ta xi le yi ge tong-kuai de zao . he wash LE one CLA comfortable DE bath He has taken a comfortable bath. (5-7.) 他洗了一件崭新的衣服。 ta xi le yi jian zan-xin de yi-fu . he wash LE one CLA brand-new DE clothes He has washed one piece of brand-new clothes. It requires attention that the above evidence is directly against the following widespread view, i.e. signs like 澡 zao , marked with # in (5-1), are 'bound morphemes' or ‘bound stems’ (e.g. L. Li 1990; Zhao and Zhang 1996). As shown, like every other free morpheme noun (e.g. yi-fu ), zao holds a lexical position in the typical Chinese NP sequence 'determiner + classifier + ( de -construction) + N', e.g. 一个澡 yi ge zao (a bath), 一个痛快的澡 yi ge tong-kuai de zao (a comfortable bath). In fact, as long as the ‘V+N I phrase’ arguments are accepted (further evidence to come), by definition ‘bound morpheme’ is a misnomer for 澡 zao . As a part of morphology, a bound morpheme cannot play a syntactic role: it is inside a word and cannot be seen in syntax. The analysis of 洗 xi (...) 澡 zao as a phrase entails the syntactic roles played by 澡 zao : (i) 澡 zao is a free morpheme noun which fills the lexical position as the final N inside the possibly full-fledged NP; (ii) 澡 zao plays the object role in the syntactic transitive structure 洗澡 xi zao . This bound morpheme view is an argument used for demonstrating the relevant V+N idioms to be words rather than phrases (e.g. L. Li 1990). Further examination of this widely accepted view will help to strengthen the counter-arguments that all V+N I idioms are phrases. Labeling signs like 澡 zao (bath) as bound morphemes seem to come from an inappropriate interpretation of the statement that bound morphemes cannot be ‘freely’, or ‘independently’, used in syntax. This interpretation places an equal sign between the idiomatic co-occurrence constraint and ‘not being freely used’. It is true that 澡 zao is not an ordinary noun to be used in isolation. There is a co-occurrence constraint in effect: 澡 zao cannot be used without the appearance of 洗 xi (or 擦 ca ). However, the syntactic role played by 澡 zao, the object in the syntactic VP structure, has full potential of being ‘freely’ used as any other Chinese NP object: it can even be placed before the verb in long-distance constructions as shall be shown shortly. A more proper interpretation of ‘not being freely used’ in terms of defining bound morphemes should be that a genuine bound morpheme, e.g. the suffix 性 -xing ‘-ness’, has to attach to another sign contiguously to form a word. A comparison with similar phenomena in English may be helpful. English also has similar idiomatic VPs, such as kick the bucket . For the same reason, it cannot be concluded that bucket (or the bucket ) is a bound morpheme only because it demonstrates necessary co-occurrence with the verb literal kick . Signs like bucket, 澡 zao (bath) are not of the same nature as bound morphemes like –less, -ly, un-, ‑xing (-ness), etc The second type of evidence shows some pattern variations for the V+N I idioms. These variations are typical syntactic patterns for the transitive V+NP structure in Chinese. One of most frequently used patterns for transitive structures is the topical pattern of long distance dependency. This provides strong evidence for judging the V+N I idioms as syntactic rather than morphological. For, with the exception of clitics, morphological theories in general conceive of the parts of a word as being contiguous. Both the V+N I idiom and the normal V+NP structure can be topicalized, as shown in (5-8b) and (5-9b) below. (5-8.) (a) 我认为他应该洗澡。 wo ren-wei ta ying-gai xi zao . I think he should wash-bath I think that he should take a bath. (b) 澡我认为他应该洗 zao wo ren-wei ta ying-gai xi . bath I think he should wash The bath I think that he should take. (5-9.) (a) 我认为他应该洗衣服。 wo ren-wei ta ying-gai xi yi-fu . I think he should wash clothes I think that he should wash the clothes. (b) 衣服我认为他应该洗。 yi-fu wo ren-wei ta ying-gai xi . clothes I think he should wash The clothes I think that he should wash. The minimal pair of passive sentences in (5-10) and (5‑11) further demonstrates the syntactic nature of the V+N I structure. (5-10.) 澡洗得很干净。 zao xi de3 hen gan-jing. bath wash DE3 very clean A good bath was taken so that one was very clean. (5-11.) 衣服洗得很干净。 yi-fu xi de3 hen gan-jing. clothes wash DE3 very clean The clothes were washed clean. The third type of evidence involves the nature of reduplication associated with such idioms. For idioms like 洗澡 xi zao (take a bath), the first sign can be reduplicated to denote the shortness of the action: 洗澡 xi zao (take a bath) -- 洗洗澡 xi xi zao (take a short bath). If 洗澡 xi zao is a word, by definition, 洗 xi is a morpheme inside the word and 洗洗澡 xi-xi-zao belongs to morphological reduplication (AB--AAB type). However, this analysis fails to account for the generality of such reduplication: it is a general rule in Chinese grammar that a verb reduplicates itself contiguously to denote the shortness of the action. For example, 听音乐 ting (listen to) yin-yue (music) -- 听听音乐 ting ting yin-yue (listen to music for a while); 休息 xiu-xi (rest) -- 休息休息 xiu-xi xiu-xi (have a short rest), etc. On the other hand, when we accept that 洗澡 xi zao is a verb-object phrase in syntax and the nature of this reduplication is accordingly judged as syntactic, we come to a satisfactory and unified account for all the related data. As a result, only one reduplication rule is required in CPSG95 to capture the general phenomena; there is no need to do anything special for V+N idioms. This AB ‑‑ AAB type reduplication problem for the V+N idioms poses a big challenge to traditional word segmenters (Sun and Huang 1996). Moreover, even when a word segmenter successfully incorporates some procedure to cope with this problem, the essentially same rule has to be repeated in the grammar for the general VV reduplication. This is not desirable in terms of capturing the linguistic generality. All the evidence presented above indicates that idioms like 洗澡 xi zao , no matter whether V and N are used contiguously or not, are not words, but phrases. The idiomatic nature of such combinations seems to be the reason why most native speakers, including some linguists, regard them as words. Lü (1989: 113-114) suggests that vocabulary words like 洗澡 xi zao should be distinguished from grammar words. He was one of the first Chinese grammarians who found that the V+N relation in the idioms like 洗澡 xi zao is a syntactic verb object relation. But he did not provide full arguments for his view, neither did he offer a precise formalized analysis of this problem. As shown in the previous examples, the V+N I idioms do not differ from other transitive verb phrases in all major syntactic behaviors. However, due to their idiomatic nature, the V+N I idioms are different from ordinary transitive VPs in the following two major aspects. These differences need to be kept in mind when formulating the grammar to capture the phenomena. Semantics: the semantics of the idiom should be given directly in the lexicon, not as a result of the computation of the semantics of the parts based on some general principle of compositionality. Co-occurrence requirement: 洗 xi (or 擦 ca ) and 澡 zao must co-occur with each other; 走 zou (go) and 路 lu (way) must co-occur; etc. This is a requirement specific to the idioms at issue. For example, 洗 xi and 澡 zao must co-occur in order to stand as an idiom to mean ‘take a bath’. Based on the study above, the CPSG95 solution to this problem is described below. In order to enforce the co-occurrence of the V+N I idioms, it is specified in the CPSG95 lexicon that the head V obligatorily expects as its object an NP headed by a specific literal. This treatment originates from the practice of handling collocations in HPSG. In HPSG, there are features designed to enable the subcategorization for particular words, or phrases headed by particular words. For example, the feature and refer to the expletive there and it respectively for the special treatment of existential constructions, cleft constructions, etc. (Pollard and Sag 1987:62). The values of the feature PFORM distinguish individual prepositions like for, on , etc. They are used in phrasal verbs like rely on NP , look for NP , etc. In CPSG95, this approach is being generalized, as described below. As presented before, the feature for orthography records the Chinese character string for each lexical sign. When a specific lexical literal is required in an idiomatic expectation, the constraint is directly placed on the value of the feature of the expected sign, in addition to possible other constraints. It is standard practice in a lexicalized grammar that the expected complement (object) for the transitive structure be coded directly in the entry of the head V in the lexicon. Usually, the expected sign is just an ordinary NP. In the idiomatic VP like 洗 xi (...) 澡 zao , one further constraint is placed: the expected NP must be headed by the literal character 澡 zao . This treatment ensures that all pattern variations for transitive VP such as passive constructions, topicalized constructions, etc. in Chinese syntax will equally apply to the V+N I idioms. The difference in semantics is accommodated in the feature of the head V with proper co-indexing. In ordinary cases like 洗衣服 xi yi-fu (wash clothes), the argument structure is which requires two arguments, with the role filled by the semantics of the object NP. In the idiomatic case 洗澡 xi zao (take a bath), the V and N form a semantic whole, coded as . The V+N I idioms are formulated like intransitive verbs in terms of composing the semantics - hence coded as , with only one argument to be co-indexed with the subject NP. Note that there are two lexical entries in the lexicon for the verb 洗 xi (wash), one for the ordinary use and the other for the idiom, shown in (5-12) and (5-13). The above solution takes care of the syntactic similarity of the V+N I idioms and ordinary V+NP structures. It is also detailed enough to address their major differences. In addition, the associated reduplication process (i.e. V+N -- V+V+N) is no longer a problem once this solution is adopted. As the V in the V+N idioms is judged and coded as a lexical V (word) in this proposal, the reduplication rule which handles V -- VV will equally apply here. 5.2. Verb-object Idioms: V+N II The purpose of this section is to provide an analysis of another type of V+N idiom and present the solution implemented in CPSG95 based on the analysis. Examples like 洗澡 xi zao (take a bath) are in fact easy cases to judge. There are more marginal cases. When discussing Chinese verb-object idioms, L. Li (1990) and Shi (1992) indicate that the boundary between a word and a phrase in Chinese is far from clear-cut. There is a remarkable “gray area” in between. Examples in (5-14) are V+N II idioms, in contrast to the V+N I type, classified by L. Li (1990). (5-14.) V+N II: 伤心 shang xin type 伤心 shang (hurt) xin (heart) sad or break one's heart 担心 dan (carry) xin (heart) worry 留神 liu (pay) shen (attention) pay attention to 冒险 mao (take) xian (risk) take the risk 借光 jie (borrow) guang (light) benefit from 劳驾 lao (bother) jia (vehicle) beg the pardon 革命 ge (change) ming (life) make revolution 落后 luo (lag) hou (back) lag behind 放手 fang (release) shou (hand) release one's hold Compared with V+N I (洗澡 xi zao type), V+N II has more characteristics of a word. The lists below given by L. Li (1990) contrast their respective characteristics. (5-15.) V+N I (based on L. Li 1990:115-116) as a word V-N (a1) corresponds to one generalized sense (concept) (a2) usually contains ‘bound morpheme(s)’ as a phrase V X N (b1) may insert an aspectual particle (X= le/zhe / guo ) (b2) may insert all types of post-verbal modifiers (X=BUYU) (b3) may insert a pre-nominal modifier de -construction (X=DEP) (5-16.) V+N II (based on L. Li 1990:115) as a word V-N X (a1) corresponds to one generalized sense (concept) (a2) usually contains ‘bound morpheme(s)’ (a3) (some) may be followed by an aspectual particle (X= le/zhe/guo ) (a4) (some) may be followed by a post-verbal modifier of duration or number of times (X=BUYU) (a5) (some) may take an object (X=BINYU) as a phrase V X N (b1) may insert an aspectual particle (X= le/zhe / guo ) (b2) may insert all types of post-verbal modifiers (X=BUYU) (b3) may insert a pre-nominal modifier de -construction (X=DEP) For V+N I, the previous text has already given detailed analysis and evidence and decided that such idioms are phrases, not words. This position is not affected by the demonstrated features (a1) and (a2) in (5‑15); as argued before, (a1) and (a2) do not contribute to the definition of a grammar word. However, (a3), (a4) and (a5) are all syntactic evidence showing that V+N II idioms can be inserted in lexical positions. On the other hand, these idioms also show the similarity with V+N I idioms in the features (b1), (b2) and (b3) as a phrase. In particular, (a3) versus (b1) and (a4) versus (b2) demonstrate a 'minimal pair' of phrase features and word features. The following is such a minimal pair example (with the same meaning as well) based on the feature pairs (a3) versus (b1), with a post-verbal modifier 透 tou (thorough) and aspectual particle 了 le (LE). It demonstrates the borderline status of such idioms. As before, a similar example of an ordinary transitive VP is also given below for comparison. (5-17.) V+N II: word or phrase? 伤心:sad; heart-broken shang xin hurt heart (a) 我伤心透了 wo shang-xin tou le. I sad thorough LE I was extremely sad. (b) 我伤透了心 wo shang tou le xin . I break thorough LE heart I was extremely sad. (5-18.) Ordinary V+NP phrase: 恨 hen (hate) 他 ta (he) (a) * 我恨他透了 wo hen ta tou le. I hate he thorough LE (b) 我恨透了他 wo hen tou le ta . I hate thorough LE he I thoroughly hate him. As shown in (5-18), in the common V+NP structure, the post-verbal modifier 透 tou (thorough) and the aspectual particle 了 le (perfect aspect) can only occur between the lexical V and NP. But in many V+N II idioms, they may occur either after the V+N combination or in between. In (5‑17a), 伤心 shang xin is in the lexical position because Chinese syntax requires that the post-verbal modifier attach to the lexical V, not to a VP as indicated in (5-18a). Following the same argument, 伤 shang (hurt) alone in (5-17b) must be a lexical V as well. The sign 心 xin (heart) in (5‑17b) establishes itself in syntax as object of the V, playing the same role as 他 ta (he) in (5-18b). These facts show clearly that V+N II idioms can be used both as lexical verbs and as transitive verb phrases. In other words, before entering a context, while still in the lexicon, one can not rule out either possibility. However, there is a clear cut condition for distinguishing its use as a word and its use as a phrase once a V+N II idiom is placed in a context. It is observed that the only time a V+N II idiom assumes the lexical status is when V and N are contiguous . In all other cases, i.e. when V and N are not contiguous, they behave essentially similar to the V+N I type. In addition to the examples in (5-17) above, two more examples are given below to demonstrate the separated phrasal use of V+N II. The first is the case V+X+N where X is a possessive modifier attached to the head N. Note also the post-verbal position of 透 tou (thorough) and 了 le (LE). The second is an example of passivization when N occurs before V. These examples provide strong evidence for the syntactic nature of V+N II idioms when V and N are not used contiguously. (5-19.) (a) * 你伤他的心透了 ni shang ta de xin tou le. you hurt she DE heart thorough LE (b) 你伤透了他的心 ni shang tou le ta de xin . you hurt thorough LE she DE heart You broke her heart. (5-20.) V+N II: instance of passive with or without 被 bei (BEI) 心(被)伤透了 xin (bei) shang tou le. heart BEI break thorough LE The heart was completely broken. or: (Someone) was extremely sad. Based on the above investigation, it is proposed in CPSG95 that two distinct entries be constructed for each such idiom, one as an inseparable lexical V, and the other as a transitive VP just like that of V+N I. Each entry covers its own part of the phenomena. In order to capture the semantic link between the two entries, a lexical rule called V_N_II Rule is formulated in CPSG95, shown in (5-21). The input to the V_N_II Lexical Rule is an entry with where is a given sub-category in the lexicon for V+N II type verbs. The output is another entry with the same information except for three features , and . The new value for is a list concatenating the old and the for the expected . The new value is simply . The value for becomes . The outline of the two entries captured by this lexical rule are shown in (5-22) and (5-23). It needs to be pointed out that the definition of in CPSG95 is narrower than L. Li’s definition of V+N II type idioms. As indicated by L. Li (1990), not all V+N II idioms share the same set of lexical features (a3), (a4) and (a5) as a word. The definition in CPSG95 does not include the idioms which share the lexical feature (a5), i.e. taking a syntactic object. These are idioms like 担心 dan - xin (carry-heart: worry about). For such idioms, when they are used as inseparable compound words, they can take a syntactic object. This is not possible for all other V+N idioms, as shown below. (5-24.) (a) 她很担心你 ta hen dan-xin ni. he very worry (about) you He is very concerned about you. (b) * 他很伤心你 ta hen shang-xin ni. he very sad you In addition, these idioms do not demonstrate the full distributional potential of transitive VP constructions. The separated uses of these idioms are far more limited than other V+N idioms. For example, they can hardly be passivized or topicalized as other V+N idioms can, as shown by the following minimal pair of passive constructions. (5-25.)(a) * 心(被)担透了 xin (bei) dan tou le. heart BEI carry thorough LE (b) 心(被)伤透了 xin (bei) shang tou le. heart BEI break thorough LE The heart was completely broken. or: (Someone) was extremely sad. In fact, the separated use ('phrasal use') for such V+N idioms seems only limited to some type of X-insertion, typically the appearance of aspect signs between V and N. Such separated use is the only thing shared by all V+N idioms, as shown below. (5-26.)(a) 他担过心 ta dan guo xin he carry GUO heart He (once) was worried. (b) 他伤过心 ta shang guo xin he break GUO heart He (once) was heart-broken. To summarize, the V+N idioms like 担心 dan-xin which can take a syntactic object do not share sufficient generality with other V+N II idioms for a lexical rule to capture. Therefore, such idioms are excluded from the type. This makes these idioms not subject to the lexical rule proposed above. It is left for future research to answer the question whether there is enough generality among this set of idioms to justify some general approach to this problem, say, another lexical rule or some other ways of generalization of the phenomena. For time being, CPSG95 simply lists both the contiguous and separated uses of these idioms in the lexicon. It is worth noticing that leaving such idioms aside, this lexical rule still covers large parts of V+N II phenomena. The idioms like 担心 dan-xin only form a very small set which are in the state of transition to words per se (from the angle of language development) but which still retain some (but not complete) characteristics of a phrase. 5.3. Verb-modifier Idioms: V+A/V This section investigates the V+X idioms in the form of V+A/V. The data for the interaction of V+A/V idioms and the modal insertion are presented first. The subsequent text will argue for Lü's infix hypothesis for the modal insertion and accordingly propose a lexical rule to capture the idioms with or without modal insertion. The following is a sample list of V+A/V idioms, represented by kan jian (look-see: have seen). (5-27.) V+A/V: kan jian type 看见 kan (look) jian (see) have seen 看穿 kan (look) chuan (through) see through 离开 li (leave) kai (off) leave 打倒 da (beat) dao (fall) down with 打败 da (beat) bai (fail) defeat 打赢 da (beat) ying (win) fight and win 睡着 shui (sleep) zhao (asleep) fall asleep 进来 jin (enter) lai (come) enter 走开 zou (go) kai (off) go away 关上 guan (close) shang (up) close In the V+A/V idiom kan jian (have-seen), the first sign kan (look) is the head of the combination while the second jian (see) denotes the result. So when we say, wo (I) kan-jian (see) ta (he), even without the aspectual marker le (LE) or guo (GUO), we know that it is a completed action: 'I have seen him' or 'I saw him'. Idioms like kan-jian (have-seen) function just as a lexical whole (transitive verb). When there is an aspect marker, it is attached immediately after the idioms as shown in (5‑28). This is strong evidence for judging V+A/V idioms as words, not as syntactic constructions. (5-28.) 我看见了他 wo kan jian le ta. I look-see LE he I have seen him. The only observed separated use is that such idioms allow for two modal signs 得 de3 (can) and 不 bu (cannot) in between, shown by (5-29a) and (5-29b). But no other signs, operations or processes can enter the internal structure of these idioms. (5-29.) (a) 我看不见他 wo kan bu jian ta. I look cannot see he I cannot see him. (c) 你看得见他吗? ni kan de3 jian ta me? you look can see he ME Can you see him? Note that English modal verbs ‘can’ and ‘cannot’ are used to translate these two modal signs. In fact, Contemporary Mandarin also has corresponding modal verbs (能愿动词 neng-yuan dong-ci ): 能 neng (can) and 不能 bu neng (cannot). The major difference between Chinese modal verbs 能 neng / 不能 bu neng and the modal signs 得 de3 / 不 bu lies in their different distribution in syntax. The use of modal signs 得 de3 (can) and 不 bu (cannot) is extremely restrictive: they have to be inserted into V+BUYU combinations. But Chinese modal verbs can be used before any VP structures. It is interesting to see the cases when they are used together in one sentence, as shown in (5-30 a+b) below. Note that the meaning difference between the two types of modal signs is subtle, as shown in the examples. (5-30.)(a) 你看得见他吗? ni kan de3 jian ta me? you look can see he ME Can you see him? (Is your eye-sight good enough?) (b) 你能看见他吗? ni neng kan jian ta me? you can see he ME Can you see him? (Note: This is used in more general sense. It covers (a) and more.) (a+b) 你能看得见他吗? ni neng kan de3 jian ta me? you can look can see he ME Can you see him? (Is your eye-sight good enough?) (5-31.)(a) 我看不见他 wo kan bu jian ta I look cannot see he I cannot see him. (My eye-sight is too poor.) (b) 我不能看见他 wo bu neng kan jian ta I not can see he I cannot see him. (Otherwise, I will go crazy.) (a+b) 我不能看不见他 wo bu neng kan bu jian ta. I not can look cannot see he I cannot stand not being able to see him. (I have to keep him always within the reach of my sight.) Lü (1989:127) indicates that the modal signs are in fact the only two infixes in Contemporary Chinese. Following this infix hypothesis, there is a good account for all the data above. In other words, the V+A/V idioms are V+BUYU compound words subject to the modal infixation. The phenomena of 看得见 kan-de3-jian (can see) and 看不见 kan-bu-jian (cannot see) are therefore morphological by nature. But Lü did not offer formal analysis for these idioms. Thompson (1973) first proposed a lexical rule to derive the potential forms V+ de3/bu +A/V from the V+A/V idioms. The lexical rule approach seems to be most suitable for capturing the regularity of the V+A/V idioms and their infixation variants V+ de3/bu +A/V. The approach taken in CPSG95 is similar to Thompson’s proposal. More precisely, two lexical rules are formulated in CPSG95 to handle the infixation in V+A/V idioms. This way, CPSG95 simply lists all V+A/V idioms in the lexicon as V+A/V type compound words, coded as . Such entries cover all the contiguous uses of the idioms. It is up to the two lexical rules to produce two infixed entries to cover the separated uses of the idioms. The change of the infixed entries from the original entry lies in the semantic contribution of the modal signs. This is captured in the lexical rules in (5-32) and (5-33). In case of V+ de3 +A/V, the Modal Infixation Lexical Rule I in (5-32) assigns the value to the feature in the semantics. As for V+ bu +A/V, there is a setting used to represent the negation in the semantics, shown in (5-33). The following lexical entry shows the idiomatic compound 看见 kan-jian as coded in the CPSG95 lexicon (leaving some irrelevant details aside). This entry satisfies the necessary condition for the proposed infixation lexical rules. The modal infixation lexical rules will take this type compound as input and produce two V+MODAL+BUYU entries. As a result, new entries 看得见 kan-de3-jian (can see) and 看不见 kan-bu-jian (cannot see) as shown below are added to the lexicon. The above proposal offers a simple, effective way of capturing the linguistic data of the interaction of V+A/V idioms and the modal insertion, since it eliminates the need for any change of the general grammar in order to accommodate this type of separable verbs interacting with 得 de3 / 不 bu , the only two infixes in Chinese. 5.4. Summary This chapter has conducted an inquiry into the linguistic phenomena of Chinese separable verbs, a long-standing difficult problem at the interface of Chinese compounding and syntax. For each type of separable verb, arguments for the wordhood judgment have been presented. Based on this judgment, CPSG95 provides analyses which capture both structural and semantic aspects of the constructions at issue. The proposed solutions are formal and implementable. All the solutions provide a way of capturing the link between the separated use and contiguous use of the V+X idioms. The proposals presented in this chapter cover the vast majority of separable verbs. Some unsolved rare cases or potential problems are also identified for further research. ---------------------------------------------------------------------- They are also called phrasal verbs ( duanyu dongci ) or compound verbs ( fuhe dongci ) among Chinese grammarians. For linguists who believe that they are compounds, the V+N separable verbs are often called verb object compounds and the V+A/V separable verbs resultative compounds . The want of a uniform term for such phenomena reflects the borderline nature of these cases. According to Zhao and Zhang (1996), out of the 3590 entries in the frequently used verb vocabulary, there are 355 separable V+N idioms. As the term 'separable verbs' gives people an impression that these verbs are words (which is not necessarily true), they are better called V+X (or V+N or V+A/V) idioms. There is no disagreement among Chinese grammarians for the verb-object combinations like xi wan : they are analyzed as transitive verb phrases in all analyses, no matter whether the head V and the N is contiguous (e.g. xi wan 'wash dishes') or not (e.g. xi san ge wan 'wash three dishes'). Such signs as zao (bath), which are marked with # in (5-1), are often labeled as 'bound morphemes' among Chinese grammarians, appearing only in idiomatic combinations like xi zao (take a bath), ca zao (clean one's body by scrubbing). As will be shown shortly, bound morpheme is an inappropriate classification for these signs. It is widely acknowledged that the sequence num+classifier+noun is one typical form of Chinese NP in syntax. The argument that zao is not a bound morpheme does not rely on any particular analysis of such Chinese NPs. The fact that such a combination is generally regarded as syntactic ensures the validity of this argument. The notion ‘free’ or ‘freely’ is linked to the generally accepted view of regarding word as a minimal ‘free’ form, which can be traced back to classical linguistics works such as Bloomfield (1933). It is generally agreed that idioms like kick the bucket are not compounds but phrases (Zwicky 1989). That is the rationale behind the proposal of inseparability as important criterion for wordhood judgment in Lü (1989). In Chinese, reduplication is a general mechanism used both in morphology and syntax. This thesis only addresses certain reduplication issues when they are linked to the morpho-syntactic problems under examination, but cannot elaborate on the Chinese reduplication phenomena in general. The topic of Chinese reduplication deserves the study of a full-length dissertation. In the ALE implementation of CPSG95, there is a VV Diminutive Reduplication Lexical Rule in place for phenomena like xi zao (take a bath) à xi xi zao (take a short bath) ; ting yin-yue (listen to music) à ting ting yin-yue (listen to music for a while) ; xiu-xi (rest) à xiu-xi xiu-xi (have a short rest). He observes that there are two distinct principles on wordhood. The vocabulary principle requires that a word represent an integrated concept, not the simple composition of its parts. Associated with the above is a tendency to regard as a word a relatively short string. The grammatical principle, however, emphasizes the inseparability of the internal parts of a combination. Based on the grammatical principle, xi zao is not a word, but a phrase. This view is very insightful. The pattern variations are captured in CPSG95 by lexical rules following the HPSG tradition. It is out of the scope of this thesis to present these rules in the CPSG95 syntax. See W. Li (1996) for details. In the rare cases when the noun zao is realized in a full-fledged phrase like yi ge tong-kuai de zao (a comfortable bath), we may need some complicated special treatment in the building of the semantics. Semantically, xi (wash) yi (one) ge (CLA) tong‑kuai (comfortable) de (DE) zao (bath): ‘take a comfortable bath’ actually means tong‑kuai (comfortable) de2 (DE2) xi (wash) yi (one) ci (time) zao (bath): ‘comfortably take a bath once’. The syntactic modifier of the N zao is semantically a modifier attached to the whole idiom. The classifier phrase of the N becomes the semantic 'action-times' modifier of the idiom. The elaboration of semantics in such cases is left for future research. The two groups classified by L. Li (1990) are not restricted to the V+N combinations. In order not to complicate the case, only the comparison of the two groups of V+N idioms are discussed here. Note also that in the tables, he used the term ‘bound morpheme’ (inappropriately) to refer to the co-occurrence constraint of the idioms. Another type of X-insertion is that N can occasionally be expanded by adding a de ‑phrase modifier. However, this use is really rare. Since they are only a small, easily listable set of verbs, and they only demonstrate limited separated uses (instead of full pattern variations of a transitive VP construction), to list these words and all their separated uses in the lexicon seems to be a better way than, say, trying to come up with another lexical rule just for this small set. Listing such idiosyncratic use of language in the lexicon is common practice in NLP. In fact, this set has been becoming smaller because some idioms, say zhu-yi 'focus-attention: pay attention to', which used to be in this set, have already lost all separated phrasal uses and have become words per se. Other idioms including dan-xin (worry about) are in the process of transition (called ionization by Chao 1968) with their increasing frequency of being used as words. There is a fairly obvious tendency that they combine more and more closely as words, and become transparent to syntax. It is expected that some, or all, of them will ultimately become words proper in future, just as zhu-yi did. In general, one cannot use kan-jian to translate English future tense 'will see', instead one should use the single-morpheme word kan : I will see him -- wo (I) jiang (will) kan (see) ta (he). Of course, is a sub-type of verb . The use of this feature for representing negation was suggested in Footnote 18 in Pollard and Sag (1994:25) This is the procedural perspective of viewing the lexical rules. As pointed out by Pollard and Sag (1987:209), “Lexical rules can be viewed from either a declarative or a procedural perspective: on the former view, they capture generalizations about static relationships between members of two or more word classes; on the latter view, they describe processes which produce the output from the input form.” PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) PhD Thesis: Chapter I Introduction PhD Thesis: Chapter II Role of Grammar PhD Thesis: Chapter III Design of CPSG95 PhD Thesis: Chapter IV Defining the Chinese Word Overview of Natural Language Processing Dr. Wei Li’s English Blog on NLP
个人分类: 立委科普|4428 次阅读|0 个评论
【语义计算沙龙:语序自由度之辩】
热度 1 liwei999 2016-8-18 00:10
刘: WMT2016上有一篇文章,讨论了语言的语序自由度,结论很有趣,见附图。根据这篇论文统计,汉语和英语之间语序关系是最稳定的(注意:语序关系稳定与语序一致不是一回事),比其他语言稳定度都高出许多。日语虽然是粘着语,但跟英语的语序关系也是相当稳定的。相反,德语虽然跟英语亲缘关系很近,但其相对语序的自由(不稳定)程度相当高。 论文链接 http://www.statmt.org/wmt16/pdf/W16-2213.pdf 我: 这个研究是说,如果这些语言要与英语做自动翻译,语序需要调整多少? 英语相对语序很固定,加上是最流行的语言,拿它做底来比较,对于各语言的相对语序自由度应该是不离谱的。但是,从(平行)大数据来的这些计算,与这些语言的语言学意义上的语序自由度,有差别: 譬如 Esperanto 的语序自由度应该很大,怎么排列,意思都不变,但是由于很多人可能思想是用英语的,写出来的时候下意识在头脑里面翻译成了世界语,结果跟机器翻译一样,人的懒惰使得表达出来的语序照着英语的样子相对固定起来,并没有充分利用语言本身本来有的那么大自由度。 汉语的语序自由度,语感上,比图示出来的,要大。但是,做这项研究的双英对照数据也许大多是正规文体(譬如新闻),而不是自由度更大的口语,因此出现这样的结论也不奇怪。虽然汉语是所谓孤立语,英语接近汉语,但没有那么“孤立”,汉语的语序自由度比英语要大。做英汉MT的 generation 的时候,需要调整词序的时候并不很多,多数情况,保留原词序,基本就凑合了,这是利用了汉语语序有弹性,相对自由度大的特点。汉英MT没亲手做过(除了博士项目在Prolog平台上做过的一个英汉双向MT的玩具),感觉上应该比英汉MT,需要做调序的时候更多。调序多容易乱套,特别是结构分析不到位的时候更容易出乱子,是 MT 的痛点之一。尽量少调序,警惕调序过度弄巧成拙,是实践中常常采取的策略。包括英语的定语从句,多数时候不调序比调序好,用的技巧就是把定语从句当成一个插入语似的,前面加个逗号或括号,适当把 which 翻译成“它”等等。 刘: 你说的有道理,这个研究是以英语为基准的,虽然严格说不是很合理,但还是靠谱的,英文英语语序是比较固定的。我们说汉语语序自由,我觉得是错觉。汉语语序是很不自由的。实际上,对一个语言来说,形态的复杂程度和语序的自由程度是成正比的。形态越复杂的语言,语序越自由。汉语没有形态,只能用语序来表示句法关系。因此是严格语序语言。不可能说一种语言既没有形态,又语序自由,那么这种语言基本上没法表达意义了。 白: 这个,需要分开说。一是subcat算不算形态,因为不是显性的标记,很可能不算。二是subcat是否提供了冗余信息使得一定范围内的语序变化不影响语义的表达,这是肯定的。 Jiang: 嗯!subcat这里指的是什么? 白: 比如“司机、厨师、出纳……”都携带human这个subcat,但是human并不是一个显示的形式标记。 我: 虽然大而言之形态丰富的语言语序自由度就大、形态贫乏的语言语序相对固定是对的,但汉语并不是持孤立语语序固定论者说的那样语序死板,其语序的自由度超出我们一般人的想象:拿最典型的 SVO patterns 的变式来看,SVO 三个元素,排列的极限是6种词序的组合。Esperanto 形态并不丰富,只有一个宾格 -n 的形态(比较 俄语有6个格变):主格是零形式(零词尾也是形式),它可以采用六种变式的任意一个,而不改变 SVO 的句法语义: SVO Mi manĝas fiŝon (I eat fish) SOV: Mi fiŝon manĝas VOS: Manĝas fiŝon mi VSO: Manĝas mi fiŝon OVS: Fiŝon manĝas mi. OSV: Fiŝon mi manĝas. 比较一下形态贫乏的英语(名词没有格变,但是代词有)和缺乏形态的汉语(名词代词都没有格变)的SVO自由度,很有意思: 1. SVO 是默认的语序,没有问题: I eat fish 我吃鱼 2. SOV: * I fish eat (英语不允许这个语序) 我鱼吃 【了】(汉语基本上是允许的,尤其是后面有时态小词的时候,听起来很自然) 虽然英语有代词的格变(小词直接量:I vs me), 而汉语没有格变,英语在这个变式上的语序反而不如汉语。可见形态的丰富性指标不是语序自由度的必然对应。 3. VOS: * Eat fish I (英语不允许这个语序) ?吃鱼我(汉语似乎处于灰色地带,不像英语那样绝对不行,设想飞机空姐问餐:“吃鱼还是吃肉?”你可以回答:“吃鱼,我”) 4. VSO: * Eat I fish (不允许) * 吃我鱼 (作为 VSO 是不允许的,但可以存在,表示另外一种句法语义:吃我的鱼) 做VSO不合法,但有些灰色的意思,至少不像英语那样绝对不允许。 5. OVS: * Fish eat I (不允许,尽管 I 有主格标记) * 鱼吃我 (句子是合法的,但句法语义正好相反了 , 是 SVO 不是 OVS。句子本身合法,但做OVS非法。) 6 OSV: fish I eat (合法,除了表达 OSV 的逻辑语义 这个语序,还表达定语从句的关系) 鱼我吃(合法,常听到,鱼是所谓 Topic 我是 S,逻辑语义不变) 总结一下,汉语在 6 个语序中,有 3 个是合法的,1 个灰色地带,2 个非法。英语呢,只有两个合法,其余皆非法。可见汉语的语序自由度在最常见的SVO句式中,比英语要大。 白: 不考虑加不加零碎的语序研究都是那啥。“鱼吃我”不行,“鱼吃得我直恶心”就行 我: 不管那啥,这个 illustration 说明,语序自由度不是与形态丰富性线性相关。也说明了,汉语往往比我们想象的,比很多人(包括语言学家)想象的具有更大的自由度和弹性。白老师的例子也是后者的一个例示。其实,如果加上其他因素和tokens,这种弹性和自由,简直有点让人瞠目结舌。 汉语不仅是裸奔的语言 ,也是有相当程度随心所欲语序的语言。超出想象的语序弹性其实是裸奔的表现之一,思维里什么概念先出现,就直接蹦出来。而且汉语不仅没有(严格意义的)形态,小词这种形式也常常省略,是一种不研究它会觉得不可思议的语言。 它依赖隐性形式比依赖显性形式更多 ,来达到交流。这对 NLP 和 parsing 自然很不利,但是对人并不构成大负担。 刘: 首先,语序变化以后意义发生变化,不说明语序自由,相反,正说明语序不自由。语序传达了意义。其次,语序变化以后要加词才能成立(鱼我吃了)也正好说明语序不自由。再者,这种简单的句子不说明汉语普遍语序自由。在绝大部分清晰下,汉语都是svo结构,个别情况下需要特别强调o的时候,可以把o放到最前面。语序自由的前提,是通过词尾变化明确了词在句子中的功能,这样的话,主谓宾不管怎么交换顺序,都不会搞混,所以语序自由。没有形态变化,不可能真正语序自由。 “小王打小张”,语序就不能随便调整。 “我爱思考”,“我思考爱”,意思完全不一样 我: 这要看你怎么定义语序自由了。你给的定义是针对格变语言做的,有宾格的语言,等于是把句法关系浓缩了标给了充当角色的词,它跑到哪里都是宾语是题中应有之意。但语序自由的更标准和开放的定义不是这样的,如果 SVO 是基本的语序,凡是与它相左的语序的可能性,就是语序自由,研究的是其自由度。这种可能性的存在就证实了我们在理解语言的时候,或者机器在做 parse 的时候,必须要照顾这种 linear order 的不同,否则就 parse 不了,就抓不住语序自由的表达。不能因为一种相左的语序,由于词选的不同,某个可能语序不能实现,来否定那种语序自由的可能性和现实性。 退一步说,你的语序自由是 narrow definition, 我们也可以从广义来看语序自由,因为这种广义是客观的存在,这种存在你不对付它就不能理解它。就说 “小王打小张”,SVO 似乎不能变化。但是 “小张小王打不过” 就是 OSV,不能因为这个变式有一个补语的触发因素,来否定语序的确改变了。pattern 必须变换才能应对这种词序的改变。 最后,汉语与英语的对比,更说明了汉语的语序自由度大于英语,否则不能解释为什么汉语缺乏形态,反而比形态虽然贫乏但是比汉语多一些形态的英语,表现出更多的语序自由。“鱼我吃了” 和 “我鱼吃了” 是一个 minimal pair,它所标示的语序自由的可能性,是如此显然。人在语序自由的时候仍然可以做句法语义的理解,说明了形态虽然是促进自由的一个重要因素,但不会是唯一的因素。 隐性形式 乃至常识也可以帮助语序变得自由。 “打小张小王不给力。”(这是VOS。。。) “打老张小王还行。” 刘: 这两个句子里面“打”都是小句谓语,不是主句谓语。主句谓语是“给力”和“还行”。例子不成立。 我: 影响语序自由的,形态肯定是重要因素,其他的语言形式也有作用。小句也不好 主句也好,SVO 的逻辑语义在那里,谁打谁?我们在说SVO语序自由这个概念的时候,出发点是思维里的逻辑语义,就是谁打谁,然后考察这个谁1 和 谁2,在语言的 surface form 里面是怎样表达的,它们之间的次序是怎样的。。 刘: 这就强拧了。这么说the apple he ate is red. 也是osv了?apple he ate的逻辑关系在哪里。这么说英语也可以osv了? 我: 不错,那就是地地道道的 OSV:谁吃什么,现在这个【什么】 跑到 【谁】 和 “ate” 的前面去了,底层的逻辑语义不变,表层次序不同了。 说英语是 svo 语言,这种说法只是一种标签,并不代表英语只允许这个词序。英语的SVO 6 种 语序中, 前面说了,有两种合法常见 。 刘: 如果你对语序自由是这样定义的话,那英语也是语序自由了。 我: 不是的。只能说语序自由度。英语的语序自由度还是不如汉语。汉语的语序自由度不如世界语,也不如俄语。世界语的语序自由度不亚于俄语,虽然俄语的形态比世界语丰富。 刘: 那我们不必争论了,我们对语序自由这个概念的定义不一样。 我: 不错,这是定义的问题。我的定义是广义一些。你的定义窄。 刘: 按照你的定义:Eating the apple he smiled. 英语还可以VOS 白: beat him as much as I can 总而言之S是从相反方向填它的坑 禹: 俄语的我吃鱼这么多种语序也可以?当真现实就是这么用吗? 易: @禹 俄语的语序确实很灵活,尤其在口语体中,但意思不会变,因为名词有六个格,施受关系基本不会乱。 白: 日语里面有个名句:きしやのきしやはきしやにきしやできしやえきしやした 除了动词,其他成分的位置也是各种挪来挪去 刘: @白硕 这个日语句子什么意思啊? 白: 贵社的记者坐火车朝着贵社打道回府了 考验日语输入法的经典例子,流传了将近百年 据说是电报引入日本不久的事情 这么个拼音电文,没人知道啥意思 跟赵元任发明一音节文,有得一拼 格标记本来就是给语序重定向的,所以不在乎原来语序也是情理之中。 如果汉语的“把”“被”“给”“用”“往”一起招呼,也可以不在乎语序的。 被张三 把李四 在胡同里 打了个半死…… 我: 广义说 介词也是格 也是形态,格通常是词尾形式,介词的本质却是一样的。 “被” 是主格,“给” 是与格,“用” 是工具格。 禹: 俄语格的问题,有没有需要三四阶语法模型才能确定的还是基本上就是看之前的动词或名词的类别 我: 格就是parsing依赖的形式条件之一。形态丰富一些的语言 parsing 难度降低 不需要过多依赖上下文条件。 【相关】 泥沙龙笔记:汉语就是一种“裸奔” 的语言 泥沙龙笔记:漫谈语言形式 【 关于 parsing 】 【关于中文NLP】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4641 次阅读|1 个评论
【关于 parsing】
liwei999 2016-6-30 15:46
泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(1/2) 泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2) 【语义计算沙龙:巨头谷歌昨天称句法分析极难,但他们最强】 【 语义计算沙龙 :parsing 的鲁棒比精准更重要】 《 语义计算沙龙 :基本短语是浅层和深层parsing的重要接口》 【做 parsing 还是要靠语言学家,机器学习不给力】 《泥沙龙笔记:狗血的语言学》 【deep parsing 小品:天涯若比邻的远距离关系】 《有了deep parsing,信息抽取就是个玩儿》 【 语义计算沙龙 :关于汉语介词的兼语句型,兼论POS】 泥沙龙笔记:在知识处理中,很多时候,人不如机 《立委科普:机器可以揭开双关语神秘的面纱》 《泥沙龙笔记:漫谈自动句法分析和树形图表达》 泥沙龙笔记:语言处理没有文法就不好玩了 泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器 【立委科普:NLP核武器的奥秘】 【立委科普:语法结构树之美】 【立委科普:语法结构树之美(之二)】 【立委科普:自然语言理解当然是文法为主,常识为辅】 【 语义计算沙龙 :从《知网》抽取逻辑动宾的关系】 【立委科普:教机器识英文】 【立委科普:及物、不及物 与 动词 subcat 及句型】 泥沙龙笔记:再聊乔老爷的递归陷阱 【泥沙龙笔记:人脑就是豆腐,别扯什么递归了】 泥沙龙笔记:儿童语言没有文法的问题 《自然语言是递归的么?》 【 从 colorless green ideas sleep furiously 说开去 】 Parsing nonsense with a sense of humor 【科普小品:文法里的父子原则】 Parent-child Principle in Dependency Grammar 乔氏 X 杠杠理论 以及各式树形图表达法 【泥沙龙笔记:依存语言学的怪圈】 【没有语言结构可以解析语义么?浅论 LSA】 【没有语言结构可以解析语义么?(之二)】 自然语言中,约定俗成大于文法教条和逻辑 泥沙龙笔记:三论世界语 泥沙龙笔记:再聊世界语及其文化 泥沙龙笔记:聊一聊世界语及老柴老乔以及老马老恩 《泥沙龙笔记:NLP component technology 的市场问题》 【泥沙龙笔记:没有结构树,万古如长夜】 Deep parsing:每日一析 Deep parsing 每日一析:内情曝光 vs 假货曝光 Deep parsing 每日一析 半垃圾进 半垃圾出 【研发随笔:植树为林自成景(10/n)】 【deep parsing:植树为林自成景(20/n)】 【deep parsing:植树为林自成景(30/n)】 【 语义计算沙龙 :植树为林自成景(40/n)】 【deep parsing 吃文化:植树为林自成景(60/n)】 【deep parsing (70/n):离合词与定语从句的纠缠】 【deep parsing (80/n):植树成林自成景】 【deep parsing (90/n):“雨是好雨,但风不正经”】 【deep parsing (100/n):其实 NLP 也没那么容易气死】 【 关于 NLP 以及杂谈 】 【 关于NLP体系和设计哲学 】 【 关于NLP方法论以及两条路线之争 】 【 关于 parsing 】 【关于中文NLP】 【关于信息抽取】 【关于舆情挖掘】 【关于大数 据挖掘】 【关于NLP应用】 【关于人工智能】 【关于我与NLP】 【关于NLP掌故】 《朝华午拾》总目录 【关于立委NLP的《关于系列》】 【置顶:立委NLP博文一览(定期更新版)】 【 立委NLP频道 】
个人分类: 立委科普|2187 次阅读|0 个评论
【deep parsing (70/n):离合词与定语从句的纠缠】
liwei999 2016-6-7 03:39
一觉醒来,白老师主持的【语义计算群】已经给我的中文深度分析器(deep parser)布置好了一批作业: “他洗脏衣服用了一小时”“他洗干净衣服用了一小时” 他洗白衣服用了一小时。 他画花蛤蟆用了一个小时 她涂红嘴唇用了一个小时 (白:“画画蛤蟆“”涂红嘴唇“对内有歧义,对外无所谓。一般来说,涂红嘴唇不是把红嘴唇涂成别的颜色。 也就是说,从纯句法角度,述补结构和不带的的定中结构争抢形容词时,哪一方都没有绝对的优先级,可以认为是同层的。具体选择哪一个结构,与述语动词的“标配出口”有关。 对于“洗”,“干净”和“白”都是标配出口,而“脏”不是。 中间的形容词到底与动词结合还是与名词结合,固然同动词的性质有关,也与句型有关。 看伟哥的分析器咋处理。) “接待好领导是我的本职工作” “接待坏领导呢?” 晾干毛巾用了一个小时。这根绳子晾干毛巾。这根绳子用来晾干毛巾。 她吃好餐馆了。 她吃好饭 很多年前,我出过一个醉酒男子打人的警。 开过一个阑尾炎的刀 拉了一个角度刁钻的弧圈 雷: @wei 为什么会这样 我: 不对吗? 白: 洗干净,绑架了 我: 形容词的三角恋爱的确不好谈:也许以后还是输出两条路径留待语义落地语用的时候选择较妥,现如今修饰语压了补语一头。 白: 花当动词了,花钱,花时间 我: 恩 这个对了: 我: 下面错了,而且是一串bugs: (1)出警 : 这个VN离合动词罕见一些 (2)醉酒 应该当修饰语 (3)打人 已经 saturated 不能带逻辑宾语 O 了 我看看怎么 debug 一哈,应该不难,(1) 也许难一些? 白: 有逻辑主语空着 我: 其他都是小菜,离合动词与定语从句的纠缠稍微难一些,需要谨慎: (1a)很多年前,我开过一个醉酒男子打人的刀; (1b) 很多年前,我出过一个醉酒男子打人的警。 为啥前一句(1a)不成句,后一句(1b)就成句呢? 白: 出警有“事由”的坑。开刀有“病名”的坑。事由可以是谓词性成分,病名一定是体词性成分。 我: 说得有理,可是,这个纠缠真够复杂的。 宋: 肚子疼的病原因很复杂。 我: 如履薄冰地似乎搞定了 unit test,希望没有副作用。 “出警”有主谓的坑,可“出” 并没有。先得远距离勾搭上,然后坑才合理。当然,我其实也没管它合理不合理,就大体齐先让勾搭上,几万句里面没找着反例:虽然不是很踏实,也不是很担心。换句话说,我赌的是此类句子不会出现:“很多年前,我开过一个醉酒男子打人的刀”。万一出现了,我赌的是句法压了语义一头,我的分析仍是对的,不是吗? 宋: 我开过阑尾发炎的刀。 我: 宋老师不仅眼毒,思维也“毒”啊,总可以找到反例。 我: 拉弧圈 = 拉弧圈球? 【相关】 【立委科普:美梦成真的通俗版解说】 【立委随笔:中文之心,如在吾庐】 【新智元:parsing 在希望的田野上】 【 坚持四项基本原则,开发鲁棒性NLP系统 】 【立委科普:语法结构树之美】 【立委科普:语法结构树之美(之二)】 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|5358 次阅读|0 个评论
【泥沙龙笔记:语义可以绕过句法吗】
liwei999 2016-6-3 08:01
雷晓军: 可以直接语意吗?绕过句法。 我: 直接语义绕过句法是绝对错误的 雷: 愿闻其详 我: 这个以前谈过多次,也有历史案例(Wilks),董老师也一再教导,那是死路。但是对于pure research,是个可以探索的方向。 这里有其详:《 泥沙龙李白对话录:关于纯语义系统 》; 【 没有语言结构可以解析语义么?(之二) 】。 我的 NLP University 跟洪诗人的打油八宝盆似的,只要事关 NLP,里面啥都有 -- 除了深度神经算法。 雷: @wei 是没有走通,还是死路? 我: 从 scale up 和 real life 而言,没有走通,出不了实验室,因此是死路。更关键的是,句法tractable,更靠谱,多数情况下已经可以支持应用,不用白不用。句法多漂亮清晰 tractable 啊,语义多 dirty 混乱不讲道理不可收拾啊。舍此而求彼,殆也。舍近求远,是本末倒置。 雷: 动词的坑框架不是很清晰吗? 我: 动词的坑框架大多属于句法 subcat 的范畴。即便可以暗度陈仓地走私语义和常识进来,也不改句法制导的总体路线。 雷: 什么是语义?什么是句法? 我: 纯语义的模板是概念层的 “subcat”,基本上就是一个常识系统,HowNet 那一类。 雷: case theory是句法? 我: 对 费尔默的格语法是句法里面的语义派。 白: 没有明显形式标记的case不算 我: 不是纯语义。 雷: 什么是纯语义? 白: 我关心搭配,尤其是多对多的搭配算不算句法 雷: 对呀,搭配是语义搭配吧? 我: 譬如为了parse “我吃鸡” 或 “鸡我吃”,你不做 xp,也不做 主谓宾,你只用 Animal EAT Food 这样的语义模板,这就叫绕过了句法的纯语义路线。 雷: 主谓宾是什么?要主谓宾有什么用? 我: 主谓宾是句法关系啊。逻辑主谓宾是深度句法关系,反映深层结构,董老师叫做逻辑语义。 纯语义系统有两个组成部分:对应于词汇的概念本体(ontology),对应于句法的语义常识模板。 雷: 语义中有agent,object等不就可以了吗?为什么要主谓宾?我越来越糊涂了 我: 乔姆斯基你是怎么学的啊?乔姆斯基 50 年代不就说了吗,光深层结构不行,因为看不见,需要表层结构作为桥梁走到深层结构,这是 parsing。如果生成(generation),就需要深层结构走到表层结构。这个原理是亘古不变的。 雷司令是装糊涂。 雷: 乔姆斯基不讲语义的,只是偷用语义。 我: 乔姆斯基强调句法与语义分开,并不是说乔姆斯基不讲语义。不讲语义做什么语言呢?语言成为完全的积木。 雷: 乔姆斯基真的不讲语义,他只关心句法,而且认为句法就够了 我: 即便是积木,怎样搭建成一个目标建筑,那也是语义啊。 雷: 句法是innate的 我: 句法不能吃饭,只有落地为语义才能。 白: 如果想得到去伪歧义的句法分析结果,就要明里暗里使用各种盘外招。伟哥在分析器里内嵌了一部分盘外招,留了一部分盘外招给语义中间件。我认为两种盘外招可以统一于大数据。 我: 说的极是。 不过,“ 我认为两种盘外招可以统一于大数据 ”,这个还需要看看。能不能高效地走通大数据的这条路,我有些怀疑。 雷: 他的学生Jerry Fodor更极端,人脑中就有句法的modularity,语义的加入是NLP的事情,是为了工程,同语言无关 我: 乔姆斯基的确想让句法自制,但是那是句法系统内部的事儿。最后的结果仍然是句法导向语义的接口。 雷: 语言学中语义学不是显学吧? 我: 我觉得你被quasi-Chomsky洗脑了。什么是语义:不外两个落脚点,一个是本体,一个是逻辑语义。 雷: 我在的学校乔姆斯基的学生云集,都是被Jerry Foder弄来的。 本体和逻辑语义都是计算机的人在弄吧 我: 不是,费尔默是语义巨人( 《语义三巨人》 ),逻辑语义就源于他的格语法(Case Grammar)。 至于本体,其实就是词典,概念词典。 雷: 他只是龟缩在西部,东部的人不认 我: 那是因为乔姆斯基光芒太甚,费尔默没法跟乔对抗。但是对 NLP 的影响,其实 费尔默 比 乔老爷可能更大,特别是后期的 NLP 规则派,董老师啊 日本长尾真啊,都是受到费尔默的深刻影响的 NLP 代表人物。当然到了统计学习派,什么乔姆斯基 费尔默 都不尿他们了 董:据已故汉语语法学家林杏光先生的著作称,汉语语言学家提出并对于所谓的“格关系”的研究,要比Fillmore的“Case for Case”早四分之一个世纪。所谓的“格”的领悟是操汉语的人们的天生的智慧。例如:吃饺子、吃馆子中”吃“的意义不变,而宾语的语义不同,这样就有了受事宾语、处所宾语等的分别。 雷: 费尔默的动词坑框架不是被伟哥批评为不接地气吗 我: 费尔默有两段学术生涯。第一段是格语法,董老师发展为逻辑语义。这一个理论和实践是接地气的,关键的。 白: 句法也有坑的 雷: 句法的坑不同于格吗? 白: 句法的坑,你可以想象成某种“正式语序”下的直接成分。而真实语言中,除了正式语序之外,还有若干“变种语序”。 我: 费尔默后期的 FrameNet 虽然是格语法的自然延伸,朝着语义语用的方向进一步深入,但是不接地气,因为没有必要这样来连接语义和语用,直接从格语法进入语用要方便得多。FrameNet 是有道理的东西,但是没有什么实用价值。 白: 建立变种语序与正式语序之间的关联,就是“填坑”, 句法意义上的 雷: 这个要建立在词法上? 我: 白老师说,没有明显形式标记的case不算,,这个实际场景是这样的: 形式标记的 case (就是我说的语言形式,见 《 泥沙龙笔记: 漫谈语言形式 》) 是输入,逻辑语义是输出。这个输入条件可以是显性的语言形式,包括词法的格标记、词序,也可以是隐性的语言形式,包括 POS,包括 ontology,所谓 subcat 就是这样一个编码在词典里面的输入与输出的潜在对应关系。然后句法分析器根据它来实现输入对输出的映射。也就是实现从表层结构的语言形式对深层结构的逻辑语义的求解。deep parsing 说到底就是这么个事儿。 subcat 总是词(老爷)驱动的,里面规定了在哪里(词序)找什么样的(节点条件)放到什么 arg (逻辑语义)去。 洪: 伟爷天天摆龙门, 语法语义跨越坑。 Deep Parser有锋刃, 庖丁解牛想找新。 【相关】 《 泥沙龙李白对话录:关于纯语义系统 【 没有语言结构可以解析语义么?(之二) 】 NLP University 泥沙龙笔记: 漫谈语言形式 《语义三巨人》 【立委科普:本体知识系统的发展历程】 《泥沙龙铿锵三人行:句法语义纠缠论》 【没有语言结构可以解析语义么?浅论 LSA】 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|3534 次阅读|0 个评论
【deep parsing 小品:天涯若比邻的远距离关系】
liwei999 2016-5-31 22:40
notes 一哈: 1. “这个” 应该跟“房间”,而不是“(房间)衣服” , 可是“个”是万能量词,这个区分来自什么知识? 2. Next 应该是 O between “穿” and first NP “....衣服”, 这个不难,是搭配,语义中间件可以搞定,利用 Next 桥梁。 3. 定语“穿” 目前逻辑语义的既是 S 又是 O 的结果在搞定 2 时候可以修正成 S: 人 S - 穿 - 衣服 O(主谓宾)。 4. 这句里面,进来“ 与 ”房间“ 的远距离关系是最难对付的, 这是白老师出此题的精到的所在。 最妙的是,即便挨着,我们一般也不说“进来房间”(是可以说,但有些勉强),而是句法词法搅合地说“进房间来”, 何况这个 arg “房间”隐藏在第一个 NP 的内部做定语 Mod 或 话题 Topic。 这几乎是考验NLU的句法极致了。赞一下白老师此句。 4 暂时不指望做了。其余的都是脉路清晰可见可达,一步之遥而已。 远距离的 4 的关系,如果一定想做,我们可以看看在线性语句转化为平面树图以后,语义中间件里面,其距离到底有多远? 第一步:“房间”通过 Mod 到达 “衣服” 第二步:通过 Next 到达 “不允许” 第三步: 通过 OPred (动词性宾语成分)到达 “进来” 可见,即便如此复杂深奥的远距离关系,到了句法以后,相互距离不过是三步之遥: 句法的 trigram 而已。 可见句法之结构化的厉害。 数一数这个远距离在线性中的距离: 房间 -- 1 衣服 -- 2 穿 -- 3 得 -- 4 过于 --5 暴露 -- 6 的 -- 7 人 -- 8 不 -- 9 允许 --10 进来 换句话说,线性序列的 10-gram 一结构化就成了 3-gram。 古话说:海内存知己,天涯若比邻,信然。 因此 4 虽然从句法语义上看,差不多是最典型繁难的远距离自然语言理解的挑战的一个实例了,但实际上在句法核武器上了以后,还是有路径有希望的。 不过是暂时放放,不强求立马去做而已。非不能也,是不为也,是语言学家的 fascinating 的例子,但不是NLU实用上最当紧的任务。 白老师出得如此绝妙好句,也是醉了。声称 NLU 的人有福了,or 有的做了。 【相关】 【新智元笔记:搭配面面观】 【新智元笔记:搭配二论】 《泥沙龙笔记:漫谈自动句法分析和树形图表达》 泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 【立委科普:语法结构树之美】 【立委科普:语法结构树之美(之二)】 【立委科普:deep parsing 小讲座】 【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4125 次阅读|0 个评论
【李白对话录:谁无知呢?】
热度 1 liwei999 2016-5-7 01:48
李: 文章无知,还是行为无知,还是行为的施事无知?人的理解从小句行为最后落实到小句里面的主语。 貌似涉及某种 reasoning,由行为延伸到施事。 白: 文章无知,是说文章体现了作者的无知 李: 是啊,“转文章无知”也是说的转文章的人无知。这个角色的转移有迹可循。 就是说,如果依存句法上的两个nodes语义不搭,那么可以深入到显性的或隐性的施事去找搭配。这是从 whole 到 part,合理合法,尤其是如果这个 part 是施事的话。 一个小句本来是由谓词代表的,从依存句法上看,所谓谓词中心论。但是从逻辑上看,施事和谓语实际上在小句的地位并非老子儿子的隶属关系,而是可以平起平坐的,这也是相当普遍接受的观点。因此,一旦小句谓语与其dependent不搭,平移到其施事是逻辑的自然。 关于主语谓语平起平坐论,这在结构主义的语法学界是老生常谈了。甚至在动词中心论的框架里,施事主语也处于一个特殊的地位,学名叫 external arg,不能混同于小字辈的宾语补语等 internal args,道理也蛮显然:internal args 是针对谓“词”的,而主语的对手则是谓“语”,不在一个层次,尽管依存树形图为省事,模糊了这种地位之别,在这一点上,反映出来的语义关系,的确不如乔姆斯基的 X bar 假说及其图示(当然 X bar 叠床架屋,似乎走火入魔到了另一个极端。见 乔氏 X 杠杠理论 以及各式树形图表达法 )。 昨天说过,人的自我中心在语言中表现极为明显,词汇中有约一半与人有关,大千世界加在一起分享另一半的词汇。细一点说,词汇中大约三分之一以上是专门与【人】有关的,不能用于非人,譬如“勤奋”、“支持”,否则就是不搭。另有三分之一的词汇,是【人】与非人都可以关联,譬如“好坏”、“支撑”。剩下的不到三分之一才专属于描述大千世界,不能用于【人】,譬如“凛冽”、“【狗】吠”。没做具体统计,毛姑姑,但应该是不离谱的,因为我整天就在词汇和语法的海洋里翻滚。 这个“无知”就是一个指向【人】的形容词。动作或小句本身不是【人】,但动作的施事常常是【人】,于是“无知”就这样自然而然在我们心目中转移了指向。 我们可以在句法后的语义模块模型这个语义平移,不过是增补一条“有向直接联系”(dag)罢了,易如反掌。但是对于句子中没有显式出现的施事(“文章”的隐式作者),自然语言理解要想模型人的这种平移,就要费一点周折。 白: “张三炒股票很疯狂,张三炒的股票很疯狂。” 同样语义不搭,寻找修辞性解释和寻找隐式候选解释的机会可能同时出现。 大数据往往支持修辞性解释 李: 寻找隐式候选解释是平移,语义约束不变。寻找修辞性解释更常发生,语义约束层层放宽。直到宽得自己都不确定是不是真地理解了,即便看成是修辞用法。 理解不理解修辞用法,与一个人的背景知识面有关。孤陋寡闻者不可理解的语义不搭,在经历丰富的人看来不是问题。 大数据也不是盲目支持修辞性解释。这种解释一定是呈某种正态分布,这是大数据的本性决定的。正态分布的峰值区间是正解或本解,是搭配圆满的语义,不是修辞性的解释。然后随着语义约束的步步放宽,语义不搭的直感越甚,各种修辞性的解释也随之而来,直到不知所云,跌入分布区间的边缘。 换句话说,语义不搭的程度在大数据上可以反映出来,大数据背后的语言共同体对于从本义延伸至修辞性意义的理解程度也随着社会阶层、知识经验的不同而分布不同,白老师这样的理解力应该是分布区间的尽头,普罗百姓撑不了太久,遇到不搭很可能一脸茫然。在这个时候,如果恰好有由此及彼的可能性,哪怕所及之物是隐含的(譬如明说的是“文章”,隐含的是文章的作者),理解者可能豁然开朗,把语义搭配投射到隐含者身上,不去深想那可能太深奥的修辞用法了。 白: 股票疯狂,说的是股票的整体走势离谱,而不是炒这只股票的人疯狂(实际上,单个个体散户的偶发疯狂根本奈何不了一个体量很大的股票。)在粗通股票的人群中,都知道股票疯狂的这个意思,这一点也可以从大数据中股票与疯狂的搭配统计中得到印证。并不需要高深的理解力。任何修辞用法,都有直接的或推断的流通度作为支撑基础,否则直接短命死掉。直接的流通度,就是AB虽不搭配,但AB在大数据中具有统计意义显著的共现。推断的流通度,就是AB既不搭配,在大数据中的共现频度在统计上也并不显著,但是,对于在某种向量投射下(比如word2vec)与A距离较近的C和与B距离较近的D,CD的共现频度在统计上显著,那么AB会被“推断”为与CD具有相当可比性的修辞现象。 李: 这种情形不能算是严格意义的“修辞”。可能是历时的词源意义的修辞,不是现时的修辞。大数据支持的是本义,不是修辞,不是引申。否则就没有什么优选语义的概念了。优选的隐含意义就是数据量。 白: 非词典义,非subcat规则义,剩下就是叫法问题。没有大数据时,优选语义就是画饼。 李: 我们不管怎么有人人平等的道德情怀,也不得不承认人与人的理解力之差别往往超过我们当初的想象。这就好比,人与人的工作能力和创造能力的不同一样。做过招聘经理的人都体会过人与人的差别之大。据说斯大林相信林彪一人值三个师,虽然是传言,但人与人的差别,与贫富悬殊的鸿沟几乎可以一比。 意识流,扯远了,打住。 回到正题:谁无知呢?首先是普罗,然后是精英中的专才,最后是精英中的通才。最不无知的是立委的老友镜子(mirror),有 【 镜子大全 】 为证。 声明一句(不是为了政治正确):以上闲扯绝对不是维护贫富悬殊的社会不公。只是指出了一点现代社会文明以后,为什么反人类反道德的贫富悬殊反而越来越大的成因之一。 凡事有多种角度,不能单从人的能力或贡献的角度看贫富差距,因为从那个角度,存在的都是合理的,无需改变。作为社会主义的信仰者,可以提供另一个角度。 地球是有限的,资源是有限的,这是一。人人平等是天定的,无需论证,这是二。在有限的资源上居住着人人平等的人类,这就必然得出下列结论:贫富鸿沟越来越大是罪恶的,必须通过税收(或革命)阻止这种趋向。 因为一切的聪明才智和创造力都是在耗费资源的基础上才得以施展或实现。而这个资源是公共的、全民的。因此不仅你我的成果必须共享,而且你我个人的收入都不能无限离谱。 一个“完全无用”的人,无论是残疾也好,还是健康但无能也好,只要他生存在这个世界,就必须保障他的社会福利,必须让他共享社会繁荣的成果。这里没有任何施舍。这是他生在这个世界作为一个平等人类一份子所应得的资源被社会或他人利用以后的合理报偿。 因此,我支持桑德斯。不过为了打败川普,我投票克林顿。只有社会主义庶几可救美国。只有真正的社会主义才能救中国,抑制住中国贫富大分裂的势头。如果共同富裕不现实,至少不能让贫富差距越来越大。不是说要消除贫富差别,是要设置一个比例,不能任这种趋势非理性非道德地无限鸿沟下去。社会主义设置了最低工资,这是一大进步。等到社会开始立法设置最高工资的时候,这个进步才完整。西方的做法是不设置限制,然后利用税收政策倾斜,诱使富翁成为“慈善家”。搞得每个富翁都像个菩萨一样被人尊崇,慈善的多少也没有制度的保障。第一,他们根本就不是慈善家,这些善款本来就应该是社会的。第二慈善的指向和规模带有太大的任意性,这实质是对社会财富的不负责任。 【相关】 乔氏 X 杠杠理论 以及各式树形图表达法 【科普小品:文法里的父子原则】 【新智元笔记:中文自动分析杂谈】 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|4706 次阅读|1 个评论
【新智元笔记:语法糖霜论不值得认真对待】
热度 1 liwei999 2016-5-2 06:14
董: 让我们记住 Benjio 的这段话:“【 Yoshua 】深度学习指向与乔姆斯基完全相反。深度学习几乎完全依赖通过数据进行的学习。当然,我们设计了神经网络的构架,但在大部分时候,它都依赖于数据、大量的数据。至于乔姆斯基,则是聚焦于固有语法和对逻辑的使用,而深度学习则关注意义。我们发现,语法只是像蛋糕上的糖霜一样的表层的东西。相反,真正重要的东西是我们的意图:我们对词的选择决定了我们要表达什么意义,而与词相联系的意义是可以被学习的。这些思想都与乔姆斯基学派的观点针锋相对。“ 看看 5 年以后还有什么话? 我查了查,上面Benjio的那段话的出处: Machines that dream Understanding intelligence: An interview with Yoshua Bengio. By David BeyerApril 19, 2016 引文原文如下:YB: It suggests the complete opposite. Deep learning relies almost completely on learning through data. We, of course, design the neural net’s architecture, but for the most part, it relies on data and a lot of it. And whereas Chomsky focused on an innate grammar and the use of logic, deep learning looks to meaning. Grammar, it turns out, is the icing on the cake. Instead, what really matters is our intention: it’s mostly the choice of words that determines what we mean, and the associated meaning can be learned. These ideas run counter to the Chomskyan school. 把原文的最后一句送进流行机译系统,看看什么结果:These ideas run counter to the Chomskyan school. Google的:这些想法背道而驰乔姆斯基学校。 Baidu的:这些想法背道而驰的乔姆斯基学派。 看起来,就是缺了那些“糖霜”! 白 : 他们对数据和学习的偏爱,掩盖了一个重要的因素:想要学到的东西长什么样。这个“长什么样”决定了学习的上限,再多数据也突不破这个上限。 多层,循环,记忆,都是“长什么样”的创新。 从某种意义上,都是在向 Chomsky 靠拢 董 : 还记得 SMT 刚兴起时,有两条宣称: 1. 不需要语言学家的知识; 2. 依靠标注的数据,主要是对齐的数据。随着数据的增加,翻译的能力将提高。那时是有监督的数据,这把该是无监督的数据了。这就连语言的句法也知识 糖霜”了。这回大概是真正的智能了。难怪李彦宏宣称人工翻译很快将被机器取代了。太狂了,就不是科学了。 白 : 他们把数据的作用夸大了,把模型长什么样的作用低估了。 马 : 公司的喜欢说大话炒作,媒体人又喜欢跟着他们吵 我 : 那段话不仅仅是大话, 而是让人怀疑他知道不知道自己在说啥。 智人说梦罢, 不值得认真对待, 我不管他 or 她是谁。 另一方面,在一个非常狭窄的领域,一个非常粗线条的“语义落地”的应用,也许“ 毛毛虫”长成啥样 的制约可以让位。 这时候,大量的数据,从数据中学习一个黑箱子出来,是可能达到可用甚至超过人工水平的“落地”应用的。 只有细线条的语义落地,对语言的机制和结构有较强的依赖,这时候白老师说的再多的数据也突不破这个上限才真正是盲目迷信学习者的紧箍咒。 就举这个我最近五年一直在做的 sentiment analysis 为例。 如果领域是 movie reviews ,语义落地的目标定为褒贬分类, 可以利用 movie review 中读者打星作为客观度量, 学出一个系统来与人工标注的打星看其吻合度。 褒分类定义为四星五星,贬分类定义为一星或二星。实践证明这是一个适合机器学习的任务,如果打了星的训练数据足够多的话,其结果不亚于人工。可以做双盲试验。可是要是语义落地都是如此粗线条的“语义”目标的话,我们语言学家就不要吃饭了。 一旦语义落地的实际需要是细线条的,语言长成啥样的乔姆斯基或 quasi-Chomsky 的毛毛虫的机制开始发力:顺之者昌,逆之者 stuck。 对于 sentiment 细线条,社会媒体舆情挖掘类应用大体是 这样的语义落地需求 : ( 1 ) 分类不够,还必须把类与 topic 相关联。 movie review 讨巧的地方是, topic 是外定的,在标题或 meta data 里;而社会媒体的大多数 topic 是在文本里的; ( 2 ) 不能是 movie review 这样的狭窄领域,而是领域独立 ; ( 3 )不能是 movie review 这样的成段落的文本,而是以绝大多数短消息为主的社会媒体; ( 4 ) 不能是简单的褒贬情绪分类,必须找到情绪背后的种种理由。 多方面的来源(种种独立的benchmarking,加上我们自己的实验探索)表明,面对这样一个任务,即便单就(1)(2)(3)而言,目前的机器学习 sentiment 死定了,突破不了大约 60% 的“与 topic 关联的褒贬”精准度瓶颈(且不说(4)细线条的情绪背后的原因等的抽取挖掘)。而语言学的路子可以轻易达到 80%+ ,这就是语义落地时的差别度量,至少 20% 精准度差距。 现在的问题变成,在实际应用中,到底多大比例的语义落地需求是粗线条就可以满足,多大比例的应用必须对“语义”有比较深入的分析? 当年 Autonomy 那家公司做得蛮成功,其中主打的 text analytics 应该就是依赖粗线条的语义,分类聚类(classfication or clustering)之类,被倒霉的 HP 并购后,现在也不大听说了。否则还可以关注一下他们在粗线条落地的语用上到底能走多远,感觉上他们已经几乎做到极限了,充分采集了“ 低枝果实 ”。 MT 当然不属于粗线条的语义落地,好在有几乎无限的人工翻译积累作为带标大数据(labeled big data),所以一路高歌猛进到今天的百度 MT 、谷歌 MT 之类的普及程度。但是现在已经很清楚, it is stuck, 如果不在语言结构上下功夫的话。我是相信白老师和董老师的铁口的,本质上看,再多的数据也救不了它 除非做某种改弦易辙。 戴 : 如果结构化的方法也无法抽象出语义是如何结构化的话,最好的语法结构分析也是徒劳的。纯粹的机器学习方式至少可以绕过去这一步直接面向目标来处理。对于意图来说,并不是一定要理解意图是怎么构成的或者如何构成,直接针对意图使用的目的,比如返回合适的结果也是可以的 我 : “如果结构化的方法也无法抽象出语义是如何结构化的话”?? 太绕。说的是什么状况? 说到底不就是:通过结构还是绕过结构达到目标么? 戴 : 简单地说就是你语法结构如何走向语义这一步,现在不都卡在这里吗。而且也没有充分的理由说明必须由语法结构走向语义,这只是语言学上的思维而已 我 : 不能抽象谈语义:至少要分粗线条或细线条。现在的 argument 就是,绕过结构到达细线条的语义,基本走不通。 这个语义就是落地的语义,语用阶段的语义。 戴 : 问题是细线条的语义是什么?如果都不知道是什么,怎么说不能达到呢 我:我不是举例说明了粗细的区别了吗,还可以举更多的例。 戴 : 以什么样的形式呈现?需要结构化吗 我 : 估计是背景相差大,好像我们不在一个频道,因此对话很困难。 白 : 老乔所说的 logic form 也不是狭义的逻辑,只是填坑的结构而已。连填坑的结构都不要,还好意思说是扔下逻辑直奔语义。 董 : 如果有人写一篇论文,批评“语法 = 糖霜论“的,我不知道如果投稿给 ACL 或 COLING ,会通得过审阅吗?记得在我国的计算语言学研究中,也曾有过为多数人不太赞同的”学派“,但几乎没有一届国内的学术大会会完全枪毙那些论文的。学术研究要允许真正的百花齐放,不可以” squeeze out “( Church 语)。这就是为什么我不赞成现在 NLP 界的风气。 白 : 江湖归江湖,落地归落地 【相关】 《立委随笔:语言自动分析的两个路子》 泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器 【白硕 - 穿越乔家大院寻找“毛毛虫”】 【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】 一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑 【立委科普:基于关键词的舆情分类系统面临挑战】 一袋子词的主流方法面对社交媒体捉襟见肘,结构分析是必由之路 【立委科普:自动民调】 【立委科普:舆情挖掘的背后】 Coarse-grained vs. fine-grained sentiment extraction 【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】 【新智元笔记:李白对话录 - RNN 与语言学算法】 【立委科普:语言学算法是 deep NLP 绕不过去的坎儿】 【泥沙龙笔记:NLP hard 的歧义突破】 【立委科普:结构歧义的休眠唤醒演义】 【NLP主流的反思:Church - 钟摆摆得太远(1):历史回顾】 【Church - 钟摆摆得太远(5):现状与结论】 没有语言学的 CL 走不远 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|4847 次阅读|1 个评论
【泥沙龙笔记:人脑就是豆腐,别扯什么递归了】
热度 1 liwei999 2016-3-8 02:25
我:“ 要不是因为 ”的用法 有点意思:要不是=如果不是,是个条件状语从句的主从连词(否定式) ;“ 因为”也是状语从句的主从连词,说的是原因 。 这两个 主从 连词常常连在一起用,把句式弄得复杂了 。英语的大体对等物是, 要是因为 = if it is because /for ...; 要不是因为 = if not because /for ... 有趣的是,理论上应该有两个从句 embedding,然后才是主句: S2],那么 S3 确实偶尔也有这种例子,虽然少见: 但是更多的时候,因为人的头脑的递归机制严重局限,短期记忆限制难以处理embedding,因此前面两个连词共享一个子句,就是说 S1 和 S2 合一了: 这样一来,第二个连词“因为”就成了聋子的耳朵,纯粹是摆设,因为上面这句与下句显然是语义等价的: 也就是说,(外)条件 盖过了 (内)原因,看上去似乎是原因后面的结果被省略了,人的内部理解机制可能隐约有标配补偿? 白: 条件和因果,根本不是外和内的关系,而是事先和事后的关系。“因为”在这里并不是一对括号的一端,而只是对“事后”这一特征的提示而已。也就是说,“要不是因为”不仅在表达条件的前件,也同时在表达前件“已然”满足,所以条件的后件就是“顺理成章”的事儿了。 进一步说,就连“要不是”也隐约有“事后”的意思,所以“因为”可省。 但“如果你不来,我(就)不走”就没有“事后”的意思。 所以,不可能出现“如果因为你不来,我不走”这样的与伟哥例句平行的表述。 在前件“已然”从而后件“顺理成章”的场景下,条件和因果是重叠的,有一已足。所以,“因为”门开半扇只是在强调事后而已,与连词的呼应和递归已无半毛钱关系。 “要不是A,早就B”的逻辑表达是“A蕴含非B”且“A已然”。 “因为A,所以非B”的意思同样是“A蕴含非B”且“A已然”。 这种逻辑语义上的重叠架空了“因为”,使之只沦为一个强调“已然”的符号而已。 毛泽东“为人民服务”里面使用了逻辑连词的嵌套。“因为我们是为人民服务的,所以我们如果有缺点,就不怕别人批评指出。”这里没有半扇门的问题。 很清楚地表明“为人民服务”是“已然”。 我: 毛的这句很有意思,正好相反:是因果嵌套了条件,而不是条件嵌套了因果。 的确当条件嵌套因果的时候,因和果都是是已然的条件,因为未然的因果与 “要不是”有逻辑冲突。 无论如何,条件子句与原因子句合一的例子也进一步说明了,人类语言面对递归是多么地局限、局促、无能,只小小绕了两层s,人就不答应了,能省则省。 谁以后再跟着乔老爷后面瞎嚷自然语言是递归的,我就急,说他是大白天睁眼说瞎话。 事实就是,人脑太小,根本递归不起来,玩不转 center-embedding。 人脑就是豆腐,别扯什么递归了。 洪: 有道是: 仿脑类脑处处兴, C/GPU堆不停。 古人闻之也亢奋, 豆腐脑汁早发明。 乔爷的理论是给聪明人整的,一般人脑后天都被调参数调成豆腐脑,@wei 你知道的!乔爷说:士不可以不弘毅,任重而道远。递归模型,必须的!人发明计算机,本意就是替人做计算,特别是做递归。 我: 都是调参的错了?狼孩没调过参,也不见他的天生的强大的递归帮了他什么。如果说一个机制是本质的、强大的,有很大的潜力,但是这个机制跟陌陌约炮也差不多,见光就死,那么我们是赞叹造物主的伟大呢,还是怀疑这个机制根本就是银样镴枪头,子虚乌有更实事求是呢? 白: 我同意伟哥的结论,人脑就是块豆腐,短时记忆早决定了嵌套不过三,但是这个例子并不是论证结论的合适例子。 conj1 block1 conj2 block2 conj3 block3 conj3/,七个了,已经到了常委人数。 再多,国家都管不好了,何况parse. 结合“已然”特征,“要不是”的英语翻译可能不是简单的“if not”而是还要辅以时态的变化。 反事实条件,需要使用虚拟语态 。 在反事实条件的大语境下,“因为”就可以译成一个无关紧要的插入语“'cauz……” 洪: 按实际实现执行来说,人脑和电脑其实五十步笑百步,彼此彼此。算fibonacci数,若直接按递归来,机器也overflow。你总不能说递归不适合电脑吧。 hanoi tower问题,人不懂递归概念,如何解? 豆腐脑指人年轻, 及至老来豆渣成。 油翁依旧递归信, 不过只会调两层。 我: 调两层还递归个球啊 哈 洪: 要不咱怎敢自谦已成“豆腐渣” 白: 一个推论就是,在不超过常委人数那么多个连续token中,一定有两个互为填坑关系。因此,参考常委人数设定滑动窗口,通过词典的语义的统计的十八般兵器找到正确的填坑配对,这事儿就可以做下去,也没递归什么事儿了。 而窗口每滑动一次,一定只有不超过滑动窗口长度个旧配对候选出去、新配对候选进来。真实情况往往是滑动窗口长度的一半。所以这个过程一定是线速的。一切非线速的递归,都是耍流氓。 我: 大赞: 一切非线速的递归 都是耍流氓。2016 三八警句。 至于递归理论促进了电脑科学、电脑语言及其算法的发展,可以另当别论。毕竟机器与人、电脑与人脑、电脑语言与自然语言是形似而本质不同的两套体系。混同这两个 monsters,是小报记者、愚民、IT大佬和部分人工智能“学者”共同运作或忽悠的结果,离真实的世界和真理太远。不得不说, 在这个人脑电脑本质不同的AI大是大非的问题上,乔老爷还是坚定的、清醒的,不像他的自然语言递归论那样糊涂。 洪:乔爷时抓两头,一头全球现实政治,另一头human mind/language,中间鸡飞狗跳的事,他老人家都交给徒子徒孙们去左右手互搏去了。 乔爷以前两头忙, media控制mind思想。 如今兵来仍将挡, 环球政经令神伤。 后院曾固若金汤, 如今起火惹黑枪。 我听身边一声响, 乔迷反正伟哥放。 【相关博文】 乔姆斯基批判 Chomsky’s Negative Impact 泥沙龙笔记:再聊乔老爷的递归陷阱 《自然语言是递归的么?》 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5062 次阅读|1 个评论
【李白对话录:从“把手”谈起】
liwei999 2016-2-25 01:32
【立委按:以前提到过汉语切词中的 hidden ambiguity 一类词是个讨厌的东西,举的例子是“难过”:1 难过:“这个小孩很难过”,表示情绪的形容词(sad);2. 难/过:“这条小河很难过”,这是形容词动词的组合(difficult to cross)。提出并实现了的应对方法是所谓休眠唤醒,即,在句法阶段不做歧义区分,等到了parsing完成以后,进入语用语义阶段的时候,如果需要再用词驱动的方式唤醒歧义区分。这个对“难过”没有问题,因为两个意义的句法功能相差不大,或者是做谓语,或者做定语。可是如果面对的hidden歧义对应两个不同的句法功能,休眠唤醒的实现就要费思量了。】 李: 见到一个讨厌的 hidden ambiguity “把手” vs “把/手”, 休眠了,怎么唤醒它? 它整个儿是名词;如果拆开,就是介词短语,以状语的形式填宾语的坑。NP 与 PP 句法上功能不同,因此休眠封装要费一点思量。 当然 把 NP 和 PP 混在一起的案例也不是没有,譬如时间词,就是名词的样子,常做状语,等价于PP,不得已了,才做主语宾语。 因此,句法上可以考虑把对 “把手”的处理,当成时间词的处理一样。这样可以保证,在多数句法结构中,它可以在封装的情形下,占到一个合适的句法节点的位置上,或者是状语,或者是主语宾语。等节点位置占据好了,然后可以唤醒它去填坑,这个用词驱动不难。现在是这么个思路。 白: 有点ad hoc…… 李: 给个不 ad hoc 的法子。总不能打一开始就分叉,一路走下去吧。打一开始分叉,如果是单层的parsing,自然不是问题。如果有好多层的parsing,这么拖着拽着下来,还不累死? 本质上说,任何词驱动都是 ad hoc,理想的世界里没有词驱动。 譬如,世界语的parsing,需要用到词驱动的时候,比起任何自然语言,都少得多,已经很接近理想世界了。 世界上出了两个老柴(柴门霍夫和柴可夫斯基),在我看来,与世界上出了牛顿爱因斯坦一样,是上帝对苍生的垂怜。 白: 把字结构/被字结构做不做状语其实无关紧要,与普通名词只是填坑是否指名道姓的区别而已。就一个标签的事儿。而且,前置修饰成分只要有一个隔着锅台上炕,普通名词立马做实。指名道姓的坑如果被其他成分强占,普通名词也立马做实。 李: 把字结构被字结构本身做不做状语的确无关紧要,它最终是要做主语宾语的,即便做状语,也是拿状语当敲门砖。 白: 我就是这个意思 李: 如果有不做状语一步到位就去做主语宾语自然更好。问题是,它做了状语,就为其他成分的就位创造了条件。因为它长得太像状语了,不做状语,在那里挡路,每条规则经过它的时候,都要特别照顾它一下,这不是个法子。 白: 太拘泥语序了就容易这样。 李: 一步到位是部分可行的,subcat 就是干这个的。 白: 坑的filler直接找provider,就不需要那么拘泥语序。 李: 不过我们现在说的不是把字句,而是疑似把字句的 “把手”。即便数据结构上,可以从词典就把它标注为与 PP 同形,这样 subcat 的 filler 找 provider 就同样找到它,也还有一个如何协调它的另一个 NP 可能的问题。 白: 就是封住他,碰到宾语被强占或者被定语修饰,再解锁。先当两个词: 门把手夹了 门把手坏了 哈,涉及N+N来捣乱 李: 门PP坏了 白: 不及物动词,相当于宾语被强占,再解锁。 李: 这个 PP 肯定连上 “坏了”做状语。何时唤醒它? 门在这里坏了 门由此坏了 没有唤醒的理由。 白: 我这里处理把字结构,就是有特殊subcat的名词,和一般状语不同。 李: 门把手 可以做合成词,不论。 门的把手坏了 门的 PP 坏了 白: 抽屉把手 李: 这也是合成词,凡是合成词能解决的,一律无视。 抽屉的PP坏了 这个可以考虑唤醒。 白: 它受定语修饰就解锁,无定语,坚持到碰见谓语,看宾语坑是否free。强占或不及物,都不是free,应解锁。 这个被定语强制得太明显了?左侧唤醒应该不是问题。 李: 原则上有些道理,实践中操作还是有难度。 白: 右侧唤醒,你看我列出的条件 绿色把手,不加的,也可以唤醒。左侧都是“吸收”类型的操作,右侧才是“填坑”类型的操作。 李: 绿色PP? 白: 不通啊 李: 孤立看不通,到句子里通的时候居多: 绿色PP而改变:绿色由此而改变 白: 把字结构不当作PP,死不了人的。 李: 给把字结构另起一个名字,那也可以,就是俄语的一个格变而已:accusative 可是,这样做的前提是assume,Parser 可以完善处理 subcat 的填坑。如果 subcat 稍有差池,它就是一个拦路虎,造成 parser 丧失鲁棒性。 换句话说,把字结构本来是要被吸收掉的,吸收不掉的时候,不能让整个系统给它做变通。 如果 “把+手“ 这样处置,吸收不掉,基本上就是该唤醒它的另外的角色了。 白: 可以给parser做个宏定义开关,控制唤醒功能启用与否。 李: 更大的问题不在这个个案,而是 BA-Phrase 与 一般 PP 独立的话,增加了系统面对的不同种的 objects。挺乱的。 白: 对那些subcat控制不了的应用,不建议启用。我的处理是把字结构当名词,但有个特征注明填坑优选位置,唤醒时这个特征复位,变成普通名词。 李: 回问白老师一个问题:为什么您现在热衷于休眠唤醒的思路? 不是说统计界对 non-deterministic parsing 一直很热衷,不以为是问题么?曾经在研究界闹腾过相当一阵子的路数,只是到底可行否,接不接地气,我就不清楚了。 白: 我不喜欢不确定性无差别地到处乱飞。 李: 这里面有一个根本的架构负担。如果是教科书上的 chart parsing,一锅端,一层做parsing,non-deterministic 是自然的分叉,不过是加重了组合爆炸和伪歧义,效率暂且不论,算法上是天然可以的。 如果parsing要走语言分层多层处置的道路,这个所谓带着分叉去做,是不堪负荷的。这个不堪负荷,主要还不是计算的开销, 主要的是人对模块的维护负担。人在调试后面模块的时候,如果不想堕入迷宫,最好还是少分叉,多休眠。 白: “意识到”的是主线, “下意识”的是休眠。机制必须不同。哪怕梦游,也不能跟主线同等待遇。 关键是,chart里面还夹带大量伪歧义,都跟着走。 【相关博文】 【李白对话录系列】 《新智元笔记:NLP 系统的分层挑战》 《泥沙龙笔记:连续、离散,模块化和接口》 《泥沙龙笔记:parsing 的休眠反悔机制》 【立委科普:歧义parsing的休眠唤醒机制初探】 《新智元笔记:跨层次结构歧义的识别表达痛点》 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4325 次阅读|0 个评论
【新智元笔记:搭配二论】
liwei999 2016-2-5 07:28
【立委按】微信群拉近了天涯海角的华裔专家的距离。这类富于智慧的专业讨论及其碰撞出的火花是教科书上看不到的,一般的大学或研究所的讲堂里也难遇到。大概类似于早年高级知识分子的沙龙,唇枪舌战,佐以幽默机锋。但不同的是,这些有意思的笔记几乎瞬时记录在案,以飨天下。如果你感觉受益了,请先感谢张小龙,再感谢群主白老师。都是神仙。 宋: 分布还是有意义的,比如“戴帽子”和“穿帽子”就是一种词对词的分布。 白: 这个可以被统计完败。 宋: 对,分布式可以统计的,但受到语料库内容的局限。比如拔火罐的情景对话,语料库中可能没有,结果“紫”就是区别词。 白: “这二十板子打得我手都肿了”。“这二十板子打得我手都酸了”。 我和打的关系,因为一个字而不同。 宋: 这种知识,怎样加到知识库中呢? 白: 肿,是伤病的一种;酸,是乏累的一种。施动导致乏累,受动导致伤病。这是知识图谱的思路。 宋: 句法语义分析,只能说打的结果我手肿或我手酸,至于我打还是我被打,不知道,这是常识范畴,是不是很难加紧知识库呢? 白: 也可以硬选一个概率大的,其他休眠。等常识有了相反线索再唤醒。 宋: “这穴位一捏,我的手立刻酸了”。 白: 嗯。这就需要唤醒了,捏穴位,被捏者有酸麻痛胀气感。但这不是词典级别的休眠唤醒,是语义角色指派(填坑)环节的休眠唤醒。 宋: “捏了一上午穴位,手都酸了”。 白: 时间又起作用了,再翻盘。 宋: “捏了半小时的穴位,我的手才感觉酸”。 白: 休眠唤醒本身的对象有个级别问题,休眠唤醒所依据的知识,也有个级别问题。 宋老师最后这个例子,歧义了。 宋: 是歧义。但是否有歧义,也是靠关于捏学位的知识来判定的。捏两秒钟酸是患者酸,捏两小时酸是医生酸,捏20分钟酸有歧义。 白: 以前面“板子”的例子为例,句法究竟要不要确定“我”是打的还是被打的?确定“这二十板子”是句法上的主语,最好交差。句法是不是到此为止? 宋: 我觉得是这样。从上面的例子看,我对于涉及常识的问题有点悲观,觉得碰不起。或者,要积累太多太多的知识才行。 但是,人是怎么获得和存储这些常识的呢?为什么人可以有这些常识从而能判断,机器就不行呢? 我:拿立氏parser分析一下看: 白: 伟哥更狠,上层无主语,下层俩主语(包括Topic)。 原因,居然是,他用了远距离相关。 “打板子”弄一起了。 我: 搭配啊。 这个分析形式上是合理的,隐含的坑没填。“我手疼”和“我手酸”是一样的,没有啥疑义,因为表达是显性的。问题出在,这个“我”怎样去填写上一层的坑。 白: 实际上,这两句微调一下,就是:“打这二十板子do得我手都肿/酸了。” 引入虚动词do表陈述,实动词和它的固定搭配一起表指称。 我在N多年前(N大于10起码)发表的文章《论语义重心偏移》就是这个路子。 我: 两个“打” unify,虽然汉语句法上必须重复(reduplication)。不过前面的合成词“打板子”与“打”,没能unify 虽然应该unify:问题出在,词典中合成词的搭配,默认是黑箱子。可这个黑箱子不够黑,其实是蛮透明的。 白: 这样交差,面子上最好看。 上层的坑,候选就在下层,可是咫尺天涯 我: 距离不远,如果有可靠的痕迹(常识不算),可以填坑。 白: 保持一种能交差的模糊还是确定一种能翻盘的推测,都可以,不同的技术路线。把去模糊或者翻盘的任务留给下道工序。 宋: 二十板子打得我手都酸/肿了。弄清楚二十板子是打的动量,我手酸肿是结果,就够了。为什么非要弄明白打的施事和受事呢?这个信息也许上下文中有明示,为什么非要从这一句话中凭常识去理解呢?我觉得这还是英语的影响,只要有及物动词,就非得有个施事有个受事,其实听的人可能不关心,至少在听这个句子的那一刻并不关心。英语是摆出了架子,论元结构,每个句子基本论元都要填全。汉语语法简单,语义也简单,关心的事情都不想说明白,不关心的事情绝对不说。汉语的语义分析句法分析,不能用英语的那一套。 我: 宋老师是在question为什么要补全,任它模糊不行么?补全了,究竟什么时候、哪些用场要用到?我有同样的疑惑。不过这不像宋老师的问题,因为宋老师就是做补全工作的。 宋:我现在没说补全。 如果说补全,用堆栈结构,也是有限地补全,不一定包括基本论元。 白: 坑是在建立词典的时候就挖好的。有些语义的坑甚至与语种无关。理解就是坑驱动的并且以填坑为目标的。想要弄明白没错,常识也不是弄明白所唯一依靠的手段。了解没有填满的坑和没完句的标点句一样是有“张力”的,就够了。应用与哪些张力接轨,是应用的事。 “二十板子”那个,甚至可以说形式上都全了。但是张力依旧在。你可以明确地不理睬张力,但是这和没感到张力是有区别的。 宋: 我觉得要在话语内和话语外之间划一条界限。计算语言学先把话语内的事情解决,人工智能可能关心话语外。先搞字面理解。字面外的东西另说。 白: 这个可以有。 宋: 这就要建立一个适合汉语的字面理解的语义体系。 白: 但是接口的表达能力强,还是不一样。比如,“乒乓球是谁也打不过”,“足球是谁也打不过”。没有常识,你不知道谁强。但是,知道某两个成分一定分别填某两个坑,也够了。 宋: 两个问题所用的策略和资源可能不一样。先弄清楚字面的语义有哪几个要素,是用什么语言形式表现的,有什么规律性的东西可以让计算机抓住的。 我:“爱是一种珍贵的感情”。谁爱?爱谁?坑从词典里就有了。填不填呢?这是一个极端的例子,答案是:不需要填,或者按照标配去填。其实甚至按照标配填都不合适,因为在讨论爱这个概念的时候,人甚至不想被标配束缚。标配是人,可是我们的信教朋友讨论爱的时候,默认却是上帝。 白: 一种,已经指称化了,与陈述可以无关。无关就不需要填。只有陈述的坑才有张力,指称的没有。标配都不需要。去南极太危险了。谁去南极,不需要关心。不产生张力。 我: 是不是在填坑前,先掉一个程序确定谁有张力,谁没有张力,然后再去填?这个张力的标准也不是想象的那么容易识别,或容易有共识。 白: 在分析过程中就能确定吧。 我: 在一个充分开发的系统,填上了的就是有张力的,填不上的就是缺乏张力的? 白: 有些是跨句的。比如:“我知道谁是凶手”。“凶手”抛出一个“案件”的坑。但是句法上,这句话自足。如果系统认为“凶手”不需要关联“案件”,那也没什么,大不了信息抽取的时候再通过其他渠道重新发明轮子呗。 宋: 说英语大人也没那么较真儿。不关心失是受事的时候就用一个有行为意义的名次。表达成汉语,形式一样。人家已经不关心了,我们还在挖掘。 白: 也不是不关心,坑还是坑。比如the removal of sth,sth就是个填坑的。 宋: 英语通过词性标志明白地表示我关不关心,汉语没有这种标志。那就是在话语中直接表现出这种关心了。 白: The retirement of somebody,动词降格为名词,但动词的坑,通过名词的领属格,继续存在下去。 宋: 字面上有的,是我的职责,没能解决是我的失职或能力不足。字面上发没说的,请人工智能大哥解决。 白: “谁也打不过”,两种填坑方案,一个最强一个最弱。谁强谁弱,人工智能大哥可以告诉你。但是告诉你了还填不对,就是NLP的能力问题了。 宋: 隐喻之类的,是二者之间。 白: 隐喻另说吧。 宋: 这是句式语义,字面问题。“这个人连班长都不认识”。 白: 这个也可以假装没有歧义,咬死了“这个人”是主语,“班长”是宾语,也可以交差。只不过把填坑的任务转嫁了而已。 parser是“能做多少做多少”,还是“能做多少做多少”?还是“面子上能做多少做多少,实质上能做多少做多少”? 确实有个取舍。 我: 这些个特别句式或特别的说法,它的歧义是容易识别的、它的标配语义是清晰的、它的排歧是困难的。 费了半天劲,还是很难排除歧义,不如止于识别,或者止于标配(以后可以翻盘)。 宋: “这个难民连奥巴马都不认识”。这种话的理解,确实需要知识。但在计算语言学中,可以先悬起来,问大哥:奥巴马不认识一个难民是常规还是一个难民不认识奥巴马是常规?大哥告诉他前者是常规,于是小弟得出答案:这个难民不认识奥巴马。如果大哥不告诉小弟,小弟只能把结果模式和需要的知识都摆出来,收不了口。 宋: 没错。“拿多少钱干多少活儿”。 “有多少能力干多少活儿”。 白: 止于识别并保留明确的翻盘接口。 止于标配。 我的选择。 没有外部信息,就按先来后到了。 宋: 字面上的东西,计算语言学责无旁贷。堆栈模型就是字面上的。 白: 要翻盘,从队列里按顺序翻就是了。 宋: 难民的例子说错了。奥巴马不认识难民是常规,于是小弟知道是难民不认识奥巴马。 白: 知名度低的不认识知名度高的信息量大。 实力最弱的打不过实力最强的是标配。 填的时候,不是“两可”而是填这种系统调用附带逻辑约束。这样外部知识应用就有方向了。 宋: 标配就是缺省值,对吗? 白: 是。 我: 这些算标配了。 标配的翻盘可以在识别了这种歧义的句式的时候,设置一个 tag,后去的模块可以考虑基于 tag 所指,看有没有其他的依据去翻盘。 白: 不仅值缺省,标签也缺省。我是这个意思,见图: 我: 看成了 臭巴马。哈。 白: 嗯,字臭么。 知名度的值或序,外部给。但是除了这个,NLP都可以确定。 我: honestly 这样做系统,容易限于烦琐哲学。另一个风险是,容易引起很难判断的“语言外知识 vs 语言内句式的标配语义”的较劲。Case by case 可以说得头头是道,但也极易捉襟见肘,或聪明反被聪明误。毛主席说:知识越多越反动。 白: 贫下中农说,背着抱着一边儿沉。 我: 一个系统负载太多的碎片化知识,会陷系统于不鲁棒不好维护的境地。Stay simple,stay foolish,stay knowledgeless,as much as possible。 白: 加起来总是繁琐的。 我: taxonomy 这样的本体知识 hierarchy 用起来副作用较少,因为可以用这些 taxonomy 做细化的规则,下面的粗线条的标配并不变。但是一旦开始用常识或世界知识,这些非元知识的系统,危险大大增加,很容易弄巧成拙。 白: 角度不同。一个既要做parser又要做应用的开发总负责人会做合理分工的。这不是世界知识,只是一个接口,甚至你可以不命名。只用内部编号。总之,填坑的方案取决于一个量的外部排序。 我: 知名度当然是世界知识,不是本体知识。奥巴马知名度高,是一个非常实在的世界知识。 白: 可以不叫知名度,这行吧。叫external-quantity123,到时候给映射上就OK。 我: 叫什么都不改变知识的性质,这些知识是与 entity 关联的图谱性的东西,而不是不随世界而变化的本体知识。 奥巴马与一介平民的比较还好,换成两个其他人名,几乎没有可操作性。 白: 不可比,就不代入人名,死不了啊。实际上,语义场理论里,序结构是个基本的结构,这个完全是可控的。拿不可比的序关系说“连....都...”句式,那是语病。那种情况下不可操作是天经地义的。如果是人机对话,机器遇到人说了不可比的情况,可以生成问句,进一步追问二者在相关外部量上的排序。比如“不认识”可以驱动对知名度排序的追问。“打不过”可以驱动对实力排序的追问。parser只要能表示“孰高”就OK。 我: exactly,如果是人机对话的语用场景,问题根本就不存在。上帝的归上帝,人的归人,机器的归机器。机器只需识别歧义,which is tractable and easy in most such cases,消灭歧义归人。用些小的技巧就可以实现,一点都不困难。我专门为此写过两篇笔记。很多看似极为艰深的语言歧义,到了人机交互现场,简直就不是事儿。 白: 还要让人的体验好啊……不是为了消灭歧义而消灭歧义。 要让人知道机器除了问人的那一点不知道,该知道的都知道了。 我: 《 立委科普:机器可以揭开双关语神秘的面纱 》and 《 贴身小蜜的面纱和人工智能的奥秘 》 QUOTE:“世界上怕就怕认真二字,昨晚对‘双关语’认真了一回,发现微妙的外表下面,是简单的实现可能,绝大多数双关不过是一词多义而已,识别它没有难处。 自动消歧自然是难,但是有消歧的必要么?双关之所以叫双关,就是否定消歧的必要性。” 白: 双关不在结果而在过程。 我: 要点是,一个词的多义,或者一个句式的多义,识别它非常容易。 白: 过程是休眠唤醒,最后都留下。中间一个休眠了。没这个过程,是索然无味的。“对付”人机对话太容易了,做好不容易,要有点追求么。 我: 不说人机对话,感觉上,需要核心引擎用细琐的知识排歧的语用产品,不为多数。 信息抽取是一个重要的语用场景,过去17年就做它了。虽然理论上说,所讨论的那些排歧和填坑,可以帮助抽取和抽取的信息融合(info fusion)。但实践中,在信息抽取(或知识图谱)的任务确定以后,信息融合所需要依仗的支持,在大数据的信息冗余的自然帮助下,很少要用到核心引擎的细颗粒度的排歧和填坑。这个体验是经验性的,可以信或不信,但这是真实的感受:独立于 domain 的细琐的语义求解对最终的知识图谱任务,没多大帮助。细颗粒度语义有科学意义,实用意义不大,况且很难实现。一个 light weight 的 deep parser 就够人忙的了,还要加载细琐语义,这是要压垮系统的节奏。 白: 排岐并不是唯一目的。设想尼克问你:你咋连冰冰都不认识?你回答:冰冰谁啊?这不是在排岐,但却使用了你自己的知名度排序,把冰冰知名度说的一钱不值…… 我: 多数语义最好与语用一起做,而不是超前,虽然理论上超前的语义可以对所有语用有益。 其实这个道理与为什么大多数知识图谱项目并没有采纳 FrameNet 作为中间件是一致的。 理论上,FrameNet 的存在就是为语义和语用架设一座桥梁。 但实际上,稍微尝试一下就会发现,与其先瞄准 FrameNet 然后再从 FrameNet map 到语用的domain 定义的目标, 不如直接从句法结构去做domain语用。 后者不仅省力省工,而且更加容易掌控和debug。总之根本就没有可比性。 白: 即便董老师做Hownet,傻子也看得出来他的语用是机器翻译。世界上没有超前的语义,只有超前的语用。语义和语用不匹配是自己没把握好 我: 同意。 可以总结一下我的经验和立场了: (1)WSD 这一层的词义 ambiguity,原则上 keep it untouched。很多词义的区别属于nuances,并不影响本体知识的 taxonomy的features,如果遇到两个词义相差大,那么就两条路径的 taxonomy 全给,系统用到哪条算哪条。以此来维护先句法后语义的大原则。 (2)对于句素之间的关系语义的歧义,PP-attachment 之类,两个策略都可以。deterministic 的策略就是先休眠其他可能,然后在需要的时候在后续的模块做reparsing去重建 non-determinitic parses 唤醒并重选。第二个策略,就是注重 identify 这种歧义,但不去排除它,而是都给连上(当然可以有个排序)。句素间连上多种parses,没有什么负担。一个Node 既连成了主语,又连成了宾语,虽然是违背了依存关系的原则,但却凸显了歧义。后去的模块只要在歧义中选优(排歧),或者语用中都尝试一下即可(不排歧,用语用知识弥补歧义路径的不足)。 (3)对于句素下的歧义,譬如短语内的歧义,最好是休眠,不能带着瓶瓶罐罐去做deep parsing。 这算是语重心长的经验之谈。值100文。 【相关】 【新智元笔记:搭配面面观】 【新智元笔记:汉语分离词的自动分析】 《 立委科普:机器可以揭开双关语神秘的面纱 》 《 贴身小蜜的面纱和人工智能的奥秘 》 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|3973 次阅读|0 个评论
【沙龙笔记:汉语构词和句法都要用到reduplication机制】
热度 1 liwei999 2016-1-30 06:44
洪: 过去有人打着红旗反红旗, 谷歌发明Go语言灭Go游戏。 这些比林彪还林彪的神马玩意, 想让骄傲的人类再也骄傲不起! @wei 能否给我这四句油诗做个parsing,看看还算人话么? 我: 好。我现在不在机器旁。 @洪涛Tao 你的油诗的 parses below: “林彪”活用为形容词使得 parsing 掉了链子 除此而外,其他的 parse links 还都说得过去。洪爷的诗是老妪能解啊。 至少从结构上看,基本是人话,比乔老爷的递归例举强多了。 洪: 好,神马 对应到 什么了。挺与时俱进! 白: 就是个词典。 洪:  窃以为你的parsing结果要通俗化,可以上面加一个deep learning做的mapping。借鉴alphago的做法。 我: mapping 做啥用? 为啥一切都往 DL 上靠? parsing 就是提供一个结构基础,后去可以比较容易根据结构pattern(subtree)去抽取信息而已,或根据结构去精准检索,改善搜索引擎。理论上这些结构也可以大大提高统计模型,把关键词语言模型提升为结构语言模型,但实际上能够在结构和关键词之间玩好平衡的统计模型好手,也不多见。问题出在,扔掉关键词,完全利用结构 features 做模型,模型可能不够鲁棒,对 sparse data 也较难应对。如果既要结构也要关键词,那么 evidence overlapping 的处置是一个挑战。 我: 比NP还AP可以。比 X 还 X 目前还没进入系统。 但是并不困难,因为 unification 和 reduplication 的机制在,就是缺了一条 rule 去 cover 汉语口语中这个 pattern,比林彪还林彪,比乔老爷还乔老爷,比英雄还英雄。这种口语pattern充当谓语性AP。 我: 刚刚 加上了口语中的 reduplication rule 比x还x: 所谓愚公移山,大多指的是这一类。好像做不胜做,但毕竟还是有限的句式。做一个少一个吧。至于名词转成了谓语后,意义上是怎么通过联想而改变的,那就是另一个层次的问题了。 与林彪能联想上的是什么?(1)神机妙算?(2)阴谋诡计?(3)克己复礼? 不同人、不同的场景,有不同的理解。 譬如,与乔老爷对应的谓语呢?固执己见?登峰造极?极左? 持不同政见?如果乔老爷是指的国内的某个大财主,联想到的谓语可能是另外的意义了(贪得无厌?) 这一切都远远超出了结构分析的scope。 白:那名词以什么著称,就在那方向上更甚。 这个由语境决定了。 语义也只是留出替换接口。 看看那段时间的语料,以那名词为主语的,什么做谓语频次最高。如果谓语比较具体而分散,往上抽象几层看看抽象事件/关系的类别。 我: 跟 “的子结构”与what-clause类似,其语义所指是不确定的。系统没必要替人去求解。何况各人的理解都可能不同。 【相关】 《新智元:填空“的子结构”、“所字结构”和“者字结构“》 《泥沙龙笔记:parsing 的休眠反悔机制》 【新智元:中文 parsing 在希望的田野上】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4666 次阅读|1 个评论
【新智元笔记:中文处理中的POS、搭配和句法】
热度 1 liwei999 2015-12-1 23:02
白: 今天再砸一块砖:大家说说看,词类标记(POS)有用吗?什么地方有用? 我: 有用,但对于中文parsing不是必要的,词典里的分类是必需的,pos tagging 模块不是。词典里的分类标注可以是 pos 或 pos related 的大类,也可以是更细化的语义类别: 人 家具 电器 等,后者对汉语分析更有用。 白:有些语言有形态变化,形态对POS是敏感的。汉语呢?形态不发达是不是POS就失去了一大依托?另外一大依托来源于“分布”,也就是说用POS写CFG规则,恰好同词类的相互替换都满足同样的规则,可进入同样的句法结构。这个就有点扯了。大部分伪歧义都这么来的。 我: 对,就是扯,成了鸡-蛋的问题了,需要句法 context 来定 POS,然后需要 POS 来简化句法。 聚类总是有用的,它是隐性形式,没有聚类,就没有规则的抽象度。一切靠直接量(显性形式),规则会组合爆炸,除了特别狭窄的领域和用场,是不可能 work 的。功能词可以靠直接量,实词是开放集,一般不能靠直接量,而是要靠聚类标注这种隐性形式(implicit form)。但这并不是说 POS 作为一个模块是必要的,因为聚类可以直接来自词典的标注,歧义的就标注歧义好了(keep ambiguity untouched),反正到了句法阶段,有上下文。 如果细说,词典里面标注的 POS 应该是逻辑POS,而不必是句法 POS。举例来说,工作、学习这些词就是逻辑动词,没有歧义,标在词典就好了,可是以前的POS大都是从句法来考量,于是认为这些词POS有动词和名词的歧义,需要增加一个POS模块在上下文中去消歧,然后再送给句法模块,其结果就产生了鸡和蛋的相互依赖问题,反而捉襟见肘扯不清,容易导致错误放大(error propagation,前面 POS 消歧错了引致句法parse错,所谓POS消歧很多时候是强人所难,因为 POS 在浅层,上下文条件通常不如 parsing 的时候成熟,硬逼迫 POS 去消歧,而不是 keep it as is,其结果是句法擦不完的屁股 ) 。 这些逻辑POS(如逻辑名词、逻辑动词、逻辑形容词)是语义(lexical semantics)分类的最上层,沿着taxonomy (借助类似知网、WordNet等 hierarchy),可以一路往下走,大概走到1000左右的类别数,就可以收了,因为再多,无论人用还是机器用,都有点受不了了,而且过细的分类,对分析理解也没多大用处。 WordNet 的 synsets 数目与词条量相当,都是万这个级别,HowNet 也类似,在万这个级别上。这些语义大师们追求的是自身语义概念系统的自足,不约而同的一路细化到底。 白: 小类多了也麻烦,不敏感的地方好好的一个规则非要分裂成好多个。 我: 但是实际上对 NLP,只有飘在上面的 1/3 或 1/4 的前 1000 个才真正有价值。 白: 这应该可以量化,究竟到哪里就不那么敏感了。 我: 另外,有些词 WordNet 标注有 5 个义项,对应 5 个 synsets,可是砍掉过细分类后,会发现,其实只有两个大的义项区别。譬如,头两个标注的义项其实差别只在 nuance,另三个也是大同小异。对于这种“人为制造”出来的过多歧义,是不用理它的,除非应用场景需要做这种区分(譬如恰好要机器翻译到一个没有亲属关系的目标语言,其翻译对等物不同;而在亲属关系近的语言之间做机器翻译,往往粗线条的义项区分就足矣了)。对于分析,这种细分是没有价值的,只会添乱。 白: 比如,打电话的打,和打酱油的打,对搭配敏感,对句式不敏感。搭配属于波动性,句式属于粒子性。但是义项把他们搅和在一块了。因为搭配敏感性造成的差异,应该从句法规则中剔除。 我: 那是,这就是个性与共性的关系,表现在个性语义搭配与共性动宾关系。说到底就是搭配词典与抽象句法的接口。完全可以既分开又连接。分开的时候只考虑句法,连接的时候解决语义。this is a solved problem for long,在实践中有好几种很漂亮的解决途径。 白: 搭配是个统计现象,不决定合语法性。 我: 关于 POS,以前详细论过,与白老师和王伟等都有相当共识,应该是站得住脚的:见【 中文处理的迷思之二:词类标注是句法分析的前提 】 还有这篇讨论记录也很相关: 泥沙龙笔记:句法语义,粗细不同,POS 靠边 。 搭配是强盗逻辑,可以从大数据的用法统计上找到依据,本质上还是属于词典的特性。属于成语或半成语的固定搭配、黑箱子或半透明的语义组合,不具有纯粹的 semantic compositionality。人是在语言应用过程中死记的,机器当然应该词典化。为什么说“打酱油”不说“击酱油”,没有道理,就是词典绑架。虽然语义是词典绑架的,句法却不是,它完全符合句法的自由特性,可以遵从所有的动宾相关 patterns 的变换:打了酱油;酱油打了;把酱油打了;酱油不值得打;酱油没法去打;无酱油可打 。。。。。。只有在需要语义区分的时候,才需要做这种词典绑架与自由结构的连接(接口)。 白: 打了电话;电话打了;把电话打了;电话不值得打;电话没法去打;无电话可打。。。。。。 我: exactly,所以句法该怎么做还是怎么做,该怎么抽象还是怎么抽象,不能被搭配绑架。 马: “把酱油打了”我理解就是酱油瓶子打碎了 白: 不是啊,让人路过的时候捎带脚做个打酱油的事情,也这么说的。 马: 在这个语境下确实这个意思。 我: 顺带把酱油也打了。 马: 有“顺带”就没有问题了 白: 命令式也没有问题 我: 当然,把字结构的确与 动补合成词(e.g.打碎) 用在一起的概率,高于与 单音节动词的。与此议题相关的隔壁沙龙的讨论反映在 : 《立委科普:固定成语的不固定用法及其机器对策》: http://blog.sciencenet.cn/blog-362400-934716.html 白: 搭配是和句式正交的一种东西,体现波粒二象性。 湖: 1句法:打酱油,把酱油打了; 2语义:打酱油,打电话 3语用:把酱油打了,一指打酱油,一指把酱油瓶打了。 各位老师把语法、语义、语用都说全了 研究容易在三个层面间串 我: 语用不好串,可以搁置(通常语用相关的东西处于信息抽取模块里面,信息抽取放在 parsing 模块后面做比较合理,可以以一当百,以不变应万变,大幅度增强系统的移植性,以前反复论过这种 parser+IE 的系统架构的优越性),先把句法语义接口做好,其实是句法和搭配词典的接口。 困了,撤了。明早起来看各位的讨论。 白: 伟哥好把式 wang: 看了今天的讨论,收益匪浅!真是一个很好的学习机会!谈的都是干货,抓的都是硬骨头。 【相关】 《立委科普:固定成语的不固定用法及其机器对策》 【 中文处理的迷思之二:词类标注是句法分析的前提 】 《泥沙龙铿锵三人行:句法语义纠缠论》 泥沙龙笔记:汉语牛逼,国人任性!句法语义,粗细不同,POS 靠边 泥沙龙笔记:漫谈语言形式 泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(1/2) 泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2) 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4593 次阅读|4 个评论
【立委科普:NLP 中的一袋子词是什么】
liwei999 2015-11-27 10:09
curtesy of http://www.python-course.eu/text_classification_python.php 很久以来,主流 NLP (Natural Language Processing)就在这样的一袋子词里面做文章,有时候也确实做出了蛮漂亮的文章,都是用的基于统计的机器学习。这一袋子词何时有用,何时失效,有什么神奇和奥妙,又有什么陷阱和软肋?这些以前写过系列博文(见篇末【相关博文】)不同角度论过。这是革命的根本问题,涉及两条路线的是是非非,甚至会遭遇类似宗教战争一样的偏执,但为后学计,怎样论也不嫌多,兼听则明。 NLP中为什么叫一袋子词(bag of words,BOW)?机器学习的 袋子里装的什么词? NLP的对象是自然语言文本(speech 不论),具体说来,根据任务的不同,这个对象是语料库(corpus)、文章(document)或帖子(post),都是有上下文(discourse)的text,作为NLP系统的输入。对于输入的text,首先是断词(tokenization)。断词以后,有两条路可走,一条路是一句一句去做句法结构分析(parsing),另一条路就是这一袋子词的分析,又叫基于关键词(keywords)的分析。所以,一袋子词是相对于语言结构(linguistic structure)而言的。换句话说,一袋子词就是要绕过句法,把输入文字打散成词,然后通过统计模型,来完成指定的语言处理任务。 第一个问题就是,为什么一袋子词也叫做关键词?这是因为这个袋子里面的词并不是输入文本的全部词的集合,通常的做法是要剔除一些对于统计模型没有意义的词,所谓停止词(stop words),就是那些使用频率特别高的功能词之类,譬如连词,介词,冠词,感叹词等。剔除了停止词后的词,一般叫做关键词。 接下来的问题是,排除了停止词,信息不是损失了么?是的,信息损失了。作为功能词的停止词,对于自然语言句法很重要,它们往往是语言文句的重要连接组织(connecting tissues),是显性的语言形式(explicit linguistic form),与词序(word order)一起帮助构成合乎文法的语言结构,对于分析理解语言相当关键。然而,由于一袋子词的方法的立足点就是要绕过语言结构,因此它无法利用功能词的结构信息,结构是没用的。不仅如此,对于这类方法,高频的功能词不仅没用,还有干扰作用,影响统计模型的功效。只有忍痛割爱了。 第三个问题是,语言文句是通过词及其句法结构表达意义的,排除了结构,只用词,怎么能做语言的自动处理呢?两条腿走路,现在成了一条腿,怎么能走稳? 好问题,也是核心问题,要细谈可以给你谈三天。 简单的回答是,是的,一条腿走路确实走不稳,遇到上坡或爬山,也许寸步难行。但是并非所有的NLP任务都是爬山那么难,一条腿用得好,也可以走很远的路。而且一条腿也有一条腿的好处。好处之一是简单,只要一个断词一个过滤,就出来一条腿了,而建造第二条结构的腿则须花苦功夫(即 parser,事实上,对于不少统计专家,即便花了力气也很难造出一个靠谱的 parser 来,因为语言学并非他们所长,自己写语言文法对他们比登天还难,退而求其次,理论上可以用万能的机器学习去学习人的文法知识,但反映这些知识的句法树训练库又远远不足,很难奏效)。第二个好处是,反正只有一条腿,也就不用协调两条腿走路了,研究探索发现,在统计模型内部,即便有了 parser,加入了结构,要想协调好词和结构达到最佳效果,殊为不易。 需要强调的是,一袋子词模型(关键词模型)是简单的,因为简单,也带来了一系列额外的好处:鲁棒、highly scalable、移植性强。既然撇开了结构,文本之间的区别只剩下用词的不同,系统自然鲁棒起来,较易容忍输入文本的错误和混杂。第二,模型单纯,有快速实现的算法,容易 scale up 到大数据上。好处之三是移植性强,表现在,如果任务合适,移植到特定领域或其他的语言,算法甚至 feature design 都可以基本保持不变,只需要变换训练集重新训练即可达到类似的效果。必须承认,这些都是实实在在的好处,前提是这套方法对于某项NLP任务是合适和有效的。 那么什么是一袋子词比较拿手的NLP任务呢?公认有效的任务有至少有两大类,一类是 document classification(文件分类),另一类是 (corpus-based) word clustering(词的聚类)。前者基于有监督的机器学习(supervised machine learning),分类预先定义好,并反映在大量的标注了类别的数据里(训练集),用得合适具有广泛的应用;后者是无监督的机器学习(unsupervised machine learning),因为无监督,效果和用场都有限制,但是作为词典习得(lexicon acquisition)或作为半自动的人机合作,仍然具有相当的价值。考察这两类任务,容易发现他们的共同特点就是处理对象的单位较大,前者是文件,后者更大,是针对整个语料库。处理对象大意味着口袋大,里面装的词多。这时候,用词的频率分布,所谓关键词密度(keyword density),就为解决任务提供了统计上靠谱的保障。这里的道理就在,无论是文章,还是语料库(文章集),作为语言表达的载体,它们的用词都有一种自然的语义相谐性(semantic coherence),绝不是词汇的随机集合。充分利用这些语义相谐的统计性,可以为粗线条的NLP任务分类或聚合,提供隐含的语义支持。如果把语言现象比作森林(文章或语料库)和树木(文句或帖子),可以说,关键词模型擅长从森林看趋势,而不擅长对每棵树条分缕析。 有了上述对一袋子词作用原理的理解,就为回答和理解下列问题做好了准备。什么是一袋子词手段的软肋,关键词模型何时失效?答案有两方面,这两点也是相互关联的。一是当处理单位很小的时候,譬如短消息或句子,袋子里没多少词,可数的几粒米做不成餐,巧妇难为无米之炊。二是当语言现象需要深入的语义分析的时候,所谓细线条的任务,譬如抽取舆情背后的理由,具体事件或关系等。因此我们说,短消息占压倒多数的社交媒体是关键词模型的命门。社交媒体本身尽管是大数据,但它是由一条条消息(posts)组成的,而在移动互联网时代,社交媒体的短消息趋向越来越明显,反映舆情和新闻事件最快最主要的短消息平台Twitter 和微博等应运而生。其中的每一条短消息都是相对独立的处理单位,表达的是网民的碎片化舆情或事件关系的报道。这些短消息平均十几个词长,除去停止词后,根本就没有具有统计意义的足够量的数据点,要做舆情分类或数据挖掘自然捉襟见肘,不足采信。结论就是机器学习面对社交媒体无所依托,难有作为。 最后需要为关键词模型及其倡导和实践者说句公道话。一袋子词里面没有句法结构,这是一个重大缺失,搞关键词模型的机器学习学者不是不清楚,也不是无作为。作为之一就是用所谓 ngram 来模拟句法,事实上 ngrams 分布被广泛应用于关键词模型。只有当 n=1 的时候,才能说该模型彻底放弃了句法,把语言现象完全看成是一袋子词的集合,这通常被认为是关键词模型的baseline,后备(backoff)或缺省(default)模型。很多模型是 bigram (n=2)和 trigram (n=3)的,不过 n3 的模型也极少见,因为 n 越大,数据就越稀疏,对于有限的训练集,已经没有统计意义了。ngram 到底是什么东西,为什么说它是对句法结构的逼近?(批评者可以说它是对句法的拙劣模拟,但无论如何总比完全不理句法好,ngram 至少承认了句法在语义求解中难以舍弃的功用。) ngam 中的“gram”指的就是词,这些词本来是完全打散装进袋子的,ngram (n1) 加入以后,训练集中的n词的序列也被作为复合单位加进了统计模型,因此袋子里面就不仅仅是一个个的词了,也包含了潜在的词组,而这些词组里面可能隐含的句法结构关系也就被隐性代入了模型。这就是为什么关键词模型在过去的30年间能够走得那么远的主要原因,因为语言的句法结构被间接地表达了。譬如在 bigram 模型里,短消息 I love iPhone 里面的两个 bigrams 序列片段 和 ,前者反映了主谓结构关系,后者反映了动宾结构关系。很显然,这种用相邻词的组合来近似表达可能的句法关系,有先天的严重局限,它无法反映嵌套结构(embedded structures),更无法捕捉长距离的句法关系(embedded or long-distance relationships)。因此,对于 NLP 中的细线条的任务,ngram 模型无法匹敌以 parsing 为支持的系统。 【相关博文】 一袋子词的主流方法面对社交媒体捉襟见肘,结构分析是必由之路 2015-11-24 一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑 2015-11-21 【立委科普:基于关键词的舆情分类系统面临挑战】 《泥沙龙笔记:再聊关键词和SVO》 泥沙龙小品:关键词必须革命,没商量的 《立委科普:关键词革新》 《立委科普:关键词外传》 《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》 泥沙龙笔记: parsing vs. classification and IE 泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 没有语言学的 CL 走不远 Comparison of Pros and Cons of Two NLP Approaches 提上来:手工规则系统的软肋在文章分类 【科普笔记:没有语言结构可以解析语义么?(之二)】 【研发笔记:没有语言结构可以解析语义么?浅论 LSA】 【立委科普:语法结构树之美】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|7477 次阅读|0 个评论
《泥沙龙铿锵三人行:句法语义纠缠论》
liwei999 2015-10-27 08:19
白: @wei 微博上的讨论很有代表性。 我: 看到了,这个错误放大(error propagation)的问题,我以前也讨论过。很多人是杞人之忧,包括雷司令。 @雷 你上次说到,parsing 需要准确才好做知识图谱。还说差之毫厘失之千里,其实完全不是这样子的。估计你是深陷在你的 parser 里面,还没有真正放开手做知识图谱的工作。 说句实话,所有的抽取工作,对于 twitter 和微博这样的短消息的细线条的舆情抽取是最难的,知识图谱这样的工作比起前者简直就是 piece of cake. 我们跟舆情奋斗了这么几年,比较了一下里面的复杂度和tricky的地方,也比较了里面实现的规则,可以说,最难的果子已经吃过了,剩下的大量的知识图谱类的抽取挖掘关系,在 parsing 的基础上,就是一个单纯的工作量的问题,没有门槛,没有难度。 信息抽取中的两大类,一类是客观事实类抽取(关系和事件),针对的是客观语言(objective language),这就是知识图谱的主要内容。另一类是舆情抽取,针对的是主观语言 (subjective language),情绪和评价类。后者的难度高出前者太多。 客观事实类抽取包括:专名 NE, 这是做基础的工作。下面就是在这些NE之间找关系(relationships),找事件(events)。为了抽取出来的东西可以整合(fusion),为挖掘服务,里面还有一些 CO (coreference)的工作。 雷:  知道Watson是怎么抽取相当于100万书籍的知识吗? 我: 上次我就说,如果主语宾语弄错了,那么按照错误放大的说法,抽取是不是就一定做不了呢?答案是否定的。parsing 错了,也可以支持抽取。只要错误是可以预见的,错误不是全方位的。 推向极端就是 @白硕 老师的“意合”系统。你看,根据词和词的 semantic coherence 的某种模板,甚至没有 parsing 都可以做。 何况有了 parsing,不过是 parsing 偶然断链,或错置呢? 有很多弥补 parsing 错误的手段可以在接近产品的层面施展,包括 domain knowledge 和 ontology。 雷:  我做过英文文献的药物副作用的抽取。严格的svo,结果不错。但我的感觉是,如果parsing再准确一些,结果会更好,而且事后的处理要少很多。这个仅仅是我的感觉。 我: 再准确也不能完美,主要还是思路要转变。 提高准确性是一个 incremental 的过程,而且一定会遇到 diminishing return 的两难。关键是在做抽取的时候,要知道,利用 node 的信息,可以弥补 arc 信息的不足。node 就是词,arc 就是句法。句法不够,词来补,因为词本身就是语义的最基本的载体,里面可以玩出很多名堂来,包括 ontology。 雷: NLP像地基,如果结实,可以起高楼。后续的修补要少,后面的工作就是建立FACTS,问题是战线要拉多长。 白: 意合法从来不拒绝partial parse tree,句法有什么拿什么,没有也憋不死。 我: Parsing 当然是地基,地基好了一定省力,这都没错。这么多年鼓吹 deep parsing 就是基于同样的理念,因为业界的 parsing 太 shallow, 没有地基。中文NLP 玩了那么多年的业界,谈起 NLP,默认就是切词,或者在切词上做一点啥,譬如 base NP。 雷: 事后修补也是对的,这个在认知心理学中也有证明。但是,这种事后修补在认知中不是大量的。工程的探索和应用是一个方向,认知上探索也是一个方向。 我: 白老师,严格的说,不是句法与语义配合到怎样的比例才做好系统。我们实际上是说,显性形式和隐性形式怎样搭配,才能出一个高效的NLP系统来。可以简单地用句法手段来代表显性形式,语义手段来代表隐性形式,但是说句法语义容易歧义,不容易讨论清楚问题。所以上次,白老师提到 POS 有时候有害,不如语义分类好用。其实白老师说的不过是粗线条的隐性形式POS(一共就给词做10多个POS分类)和细线条的隐性形式(成百上千的语义分类),后者对于汉语分析的重要性。这个没有任何疑问,因为说的都是一家:隐性形式,都是语言里面看不见的形式,都是人必须在词典了给出的 tags,或者需要专门模块去给的 tags。所以我说,再纯粹的语义系统,只要是为工程用,就绝不可能放着显性形式不用,而去舍近求远地依靠隐性形式的语义。只有理论研究,可以放弃显性形式,因为放弃了显性形式,可以从理论上做出一个 universal parser,它可以 parse 人类任何的语言。显性形式(词序,小词,词尾和其他语缀)是 language dependent 的,只有剔除它,才可以做纯粹语义 的系统。 雷: 同意,不能放着有用的信息不要。我觉得模拟人的认知可能最是捷径。 白: 前提是,句法不能挡路,不能说你分析不出来了还不让语义按自己的逻辑往前走。 我: 还有,纯粹语义系统肯定不如显性形式可靠。在显性形式可以决定的时候,没有语义(隐性形式)出场的必要,它只会添乱。乔姆斯基的 Green ideas 的伟大实验就是要证明,显性形式能够做决策的地方,语义和常识都失效了。汉语中,“铅笔吃了我”,“铅笔把我吃了”,就是又一例证。绝对不会因为有了隐性的语义格框:动物-吃-食物,就可以用来解决 “铅笔吃了我” 这样句子的语义,这时候是(显性)形式的句法所决定。这样的句子就是显性形式词序或小词“把”在主导,没有语义(隐性形式)出场的空间。再举一个有力的例子,在有显性形式的格标记的语言,宾格基本对应的就是宾语。没有一个 parser 会不利用显性形式格标记,来做分析的。因为它明明告诉了“我已经标注好了,注定要做宾语”,你有什么道理要按照 这样的语义框格去找宾语呢? 白: 注定的话也不要说绝了。在幽默或修辞的场合,会来翻旧账的。 我: 意思你明白的。 雷: 语意是一个没有学过语言学的人可以说上一些东西的,但他很难说语法的东西 白: 你说的那不叫语义学,叫学语义。 小词本身也携带语义信息、结构信息,比如“的”。为什么我说从语义角色指派的逻辑上看“这本书的出版”和“这本书的封面”有很多共同之处甚至本质上相同,就是因为它的回环结构。 雷: “这本书的出版”和“这本书的封面”的相似度又有什么计算方法吗? 白: “出版”有两个坑,“封面”有一个坑。“的”是提取坑,不管一个两个,不管动词名词形容词。 雷: 出版与封面在wordnet上有什么近似度吗? 我: 你那个“的”是提取坑,我搞不明白 出版是逻辑动词,封面是逻辑名词,迥异。 雷: 封面是没有坑的,有属性,封面是一个class,坑是method提供的。 白: 有坑,part-of,是什么的封面 我: 这是一个 single-arg 的坑,partof 和 wholeof 互为坑。语义面上的,不是传统句法subcat上的坑。 白: 对,一价和二价的差别,如果规定从右边的变元提取,就没差别。右边饱和了,就往左挪。及物动词填掉一个宾语,就成了不及物动词。与此类似。 我: 具体谈一下这两例。结论是? “的”作为显性形式的小词,其提取作用,与英语小词 of 和 's 类似: translate A into B -- translation OF A into B A's translation into B a book's translation into B a book's title 白: “的”的定义,就是f(x1,x2,……,xn)的xn,你给我一个f,我就给你一个xn 雷: 以面向对象的模型类比,class,method,和attribute,书是class,封面也是class,但封面又是书的一个attribute。 我: 一般的关系分析并不深入到“partof”这个级别。一般遇到 “的” 或者英语的 's/of ,就是粗线条分析到 Possessive 这一个包罗万象的关系为止。这本书的封面,粗线条就是,“封面”属于“这本书”。而“这本书的出版”则不用,所有的分析都指向动词的 subcat。 白: 粗线条对于汉语不行。汉语有显式的句式与part-of有关。 我: “这本书的出版”,只是利用了小词“的”,把动词名词化,与动词直接加宾语,分析同: 出版加宾语,通常在右边,这是一条。 变式就是:可以名词化,用 “的” ,宾语前置。 白: 比如 “老李把脚冻肿了”,缺省是老李的脚,不是别人的脚。 我: 那是,不过这个分析真地太细。 雷: 老李的脚是一个NP 白: 老李的脚,老李的讲演,老李的意见 我: 缺省是老李的脚是常识,否则就会显性的把别人的脚表达出来。英语 “撞了我的头” 常常是: hit me on the head,这个 the 缺省的就是 me。翻译成汉语就用显示的 possessive。 雷: 老李的人的概念,提供属性与构成结构 白: the有anaphor的功能。 我: the 不过是显性地标注了 anaphor ,汉语没有 the,默认的还是 the,而不是 a。凡是一个名词表示非限定的含义的时候,其汉语的用法和条件相对来说,比较可以找得出来。而默认的 the 的含义,不太容易找出条件来,所以默认是个好东西,不需要去定义外延,外延靠别的东西去定义。 雷: 昨天不是有一个language universal的帖子吗?相近原理。 白: 看看汉语讲故事怎么讲:从前有座(a)山,(the)山里有个(a)庙,(the)庙里有个和尚讲故事。 我: 对,我们其实有 a,但常常没有 the,于是 the 是默认。量词是 a,某 也是 a, 我们甚至直接用“有”来表示 a (“有人”昨天来讲课了; “有部件”坏了--》一个部件坏了), 当然还有”一“,也可以用做 a,所以汉语表示 a 的形式手段还蛮丰富,因此就不需要 the。. the 是默认,实在还是不清晰,就用 ”这“、”那“ 等指示小词来强调一下限定的语义。 白: 都是不带形式标记的anaphor 雷: 细致的坑是ontologies的。parsing中动词和形容词有坑就可以了 我: 传统的 subcat 的坑是粗线条的,里面映射的可以是细线条的语义约束的坑。语义模板与 subcat 的关系。 白: anaphor 的 trigger 必须带坑。本身共指,或者 part-of 共指。记得 Winograd 讲过一个例子,一个小孩得到了一个礼物。当他打开(the)盒子,发现……。盒子就是装礼物的盒子,用the勾连起来。 我: 恩 白: 咱汉语里都是隐形的,于是“盒子”作为 “坑的 provider”,必须写到词典里。封面,也一样。 我: 恩,封面的优先主人是谁的信息在词典里,针对的是出版物。 白: 出版的受事坑,恰好也是。所以用的,一提取一个准儿。 县长派来的,比这复杂,因为派和来各自提供的坑,被一个“的”给提取了。或者说,派和来,经过了一次内部整合,统一一个坑对外,被“的”给提取了。 派是兼语动词(三个坑),来是不及物动词(一个坑)。 但是“派”最左的坑被“县长”填充,饱和了。“派”的另一个“事件”类型的坑,只能接受“来”。于是剩下的那个类型为human的坑,与“来”提供的类型为animate的坑,统一对外了。 我: 很有道理。填坑最好的是只有唯一的候选人,没其他可选。最麻烦的是要动用语义优先。 语义优先可以作为知识,预先学出来或标出来,或半自动,先学后标(postediting)。可是在使用现场需要层层松绑,想想就头大。 遇到结构歧义(不是伪歧义),还不是松绑的问题,而是对比的问题,要看三角恋的三方,哪一对最有 chemistry。 松绑只是对条件按照 taxonomy 去有步骤放宽,而对比不是,对比需要动态的看随机配对的力量对比。不是不可做,是 overhead 太大。 如果不考虑 overhead 和实用,力量对比的评判比层层松绑更容易,因为前者是二值的,总有一个吸引力更强,后者是趋于离散的。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4834 次阅读|0 个评论
《李白对话录:关于纯语义系统》
liwei999 2015-10-23 06:35
李: 白老师的格框语义算法,算是怎样的一个项目啊?探索研究,还是软件工程?似乎是后者。我觉得好难啊。这个感觉与当年(20多年前)董振东老师开始酝酿 HowNet 跟我谈他的构思的时候,感觉很类似。一个是觉得太难,另外觉得特崇拜。因为自己是门都进不去的。董老师居然几十年来持之以恒,发展至今。真是令人心服。 1988左右在高立公司做MT开发的时候,与董老师有半年多时间在一起,有很多交流。 白: 我很不情愿被拿来跟董老师比。董老师是在做事业,我是在玩游戏。 李: 感觉是类似的,语义是个坑,敢跳进去的都值得佩服,无论是玩票还是专业 。 绕开句法的纯语义方法比句法为主语义为辅的方法,大体说来,复杂度高出一个量级,不是不可能,而是很困难。 白: 我不会去学术界抢他们饭碗的,工程、互联网打法和资本市场,我相对更熟悉。 李: 学术界的语义,不提也罢。严格说,董老师的语义路线其实也不在主流圈内,他就是凭着信念和自信去构筑一个知识框架,附加一些工具。工程上第三方用起来并不容易。 Fillmore 的 FrameNet 算是学界的一个标杆,可那是一条得不偿失的路线,地位在语用和语义之间,不如语义格框简明,又不能直接达到语用,两边不靠,地位很尴尬,我以前专门评过,虽然理论上他是一个了不起的反乔姆斯基的语言学大家,一面旗帜。语义路线的评论在《 语义三巨人 》。 quote:“坚持语义和知识为基础的语言处理路线,是一条繁难艰辛的道路。我感觉,语义是个大泥坑,我等凡夫俗子一旦陷进去大多出不来,而能够驾驭它的人均非等闲人物。” 也因此更看好非学界的语义,如果语义可以突破的话。 白: 不落地的知识只是玩具 李: 对,这些语义大师都不大接地气:做了很多细致的工作,但是忽视了工程可行性和简易性。他们的个头都太大。cyc 为最。 白: 知识落地,与商业模式极其相关。 李: 还有一条,最好不要强调语义的推理功能,因为强调了推理,就过分偏向形式逻辑,其结果是追求系统的理论完备, 最终是更加脱离实际和现场。 白: 董老师没有明说出来的应用场景是机器翻译,但机器学习正是大踏步甩开语义方法的节奏。没踩上点儿。 李: 董老师本来是接受前人的教训,但后来我觉得他也还是吃了完备性的亏。 语义自底而上建筑,从数据来,不追求完备,也许更可行,更接地气。 白: 推理不一定是演绎推理,演绎推理也不一定非要达到证明四色定理的程度不可。 根据应用场景来剪裁知识和推理,可以和语言松耦合。 找到合适的毛毛虫,洞穿由不可计算性和NP完全性组成的传统壁垒。 李: 句法(包括词法)是一个便宜直接的手段,有意绕开是舍近求远,工程上不合算。即便像汉语这种几乎没有词法,句法显性形式也使用有限的裸奔式语言,这些形式还是可以在语言理解过程中,省去很多语义匹配的麻烦,更不用说其他的语言了。句法的形式手段如果用features来表达的话,从量上看是在百位数上,不到千,常用的 features (包括POS和一些词法范畴)不过几十个,用起来非常 tractable。而语义的 feature set 却大了至少一个数量级,里面的 hierarchy (taxonomy 以及其他关系)也复杂得多(看看 HowNet 和 WordNet 即知),玩起来自然繁难很多。 即便只选择使用里面的一个高频子集,也在千位数的数量级上,非高手不好玩。还有一条,语义限制条件更多地具有模糊特性,这就是为什么语义系统特别强调“优先”语义的概念,任何语义都不是绝对的,都可以一层层松绑,这就给绕开句法做语义的系统更增加了难度。因此我一直认为,“纯”语义系统只具有理论意义,没有太多工程价值。 一般人都是句法为主,语义为辅,语义只是为弥补句法的缺陷。遇到高手,也许可以考虑语义为主,不排除使用显性句法(包括词法)形式。虽然这一路还是有点主次颠倒、舍近求远的意味,但是在大数据支持下,自底而上做语义为主,庶几可以闯出一条路来,也未可知。 白: 对裸奔保持一种鲁棒性,对句法上合理的结合寄予足够现实的优先考虑,二者是统一的。比如“我是县长派来的”分析到“县长”,不向左寻求结合而向右,就体现了句法的作用。向右结合意味着“等待”,意味着“记忆”,如果不用栈,至少也要有类似的机制。当然不是中递归。“把”就基本上铁定右结合的。除非不是介词把而是名词动词把。 李: “纯”语义系统的学术价值在于,理论上语义系统可以是独立于语言的,一套系统可以对付所有的语言。句法词法之类离不开具体的语言,所以,绕开了句法词法,仅仅从词汇概念出发来构筑语义理解系统,就可以从语言的依赖性上解放出来。另一个意义也是理论上的,如果像汉语这样的常常“裸奔”的意合语言该用小词形式的时候常常不用,那么就需要不借助小词的纯语义系统来对付,而这个纯语义系统应该可以两边通吃,无论句子用了小词没有。这个意义没有实际价值,因为两边通吃的前提是假设纯语义系统能够搞定不用小词的裸奔语句,就像句法系统对付小词丰富的语句一样。这个假设在可预见的将来不会成立,因为少了形式的这条腿,纯语义系统很难达到句法加语义系统的分析质量。 但是,无论多么纯的语义,绕不开的是词汇。如果词汇对概念是一一对应的,理论上可以做出一个 100% 纯粹的语义系统。否则,只要使用词汇手段,语义系统就开始不那么纯粹了。 白: 概念也有人为性。比如格的同一性和命名。“把这把刀切肉了”,不知道算宾格还是工具格。 李: “切肉”作为动宾类合成动词,不再有宾语的槽了。因此这个 把子结构(介词短语) 只能做一般的状语用。在一般的状语中,工具是一种可能的语义关系。 白: 把这把刀切刚买的骨头了. 李: 您的例子已经开始有些怪异了,我听上去觉得不大像 “人话”,也许是我不懂语境。 白: 从人话到不是人话,是个连续统。 “刀刃怎么崩了?” “哦,我把这把刀切刚买的骨头了。” 李: 当然,不过总得切一刀,或者做成层层后退的 backoff 系统,否则一个模型怎么去逼近一个真实语言的外延。 【相关】 【李白对话录系列】 泥沙龙笔记:语言处理没有文法就不好玩了 《科研笔记:自然语言处理领域中的语义路线及其代表人物》 Notes on Building and Using Lexical Semantic Knowledge Bases 【立委科普:自然语言理解当然是文法为主,常识为辅】 【科普笔记:没有语言结构可以解析语义么?(之二)】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4995 次阅读|0 个评论
《语义三巨人》
热度 3 liwei999 2014-8-10 13:33
《科研笔记:自然语言处理领域中的语义路线及其代表人物》 如所周知,统计型自然语言处理(Statistical NLP)作为主流盛行了20多年,此前盛行的是以语法分析为基础的规则系统。即便如此,为了模拟人的语言理解过程以及力求语言处理的更高质量,追求以知识系统为支持的语义路线的尝试,从来没有停止过。本篇笔记拟对此做一个简要回顾和比较,并记录自己的心得和不同意见。 就NLP的机器翻译应用而言,在相当长的时期内,统计型机器翻译由于其数据多开发快,善于在浅层模拟人工翻译(特别是成语和习惯用法的翻译)会一直是主流。即便是机器翻译的规则系统,也还是语法为主的路子比语义和知识为主的路子更加切实可行。这不排除在未来,当统计机器翻译和语法为基础的规则机器翻译的改进余地越来越小的时候,人们会重新探索知识路线以求突破。 坚持语义和知识为基础的语言处理路线,是一条繁难艰辛的道路。我感觉,语义是个大泥坑,我等凡夫俗子一旦陷进去大多出不来,而能够驾驭它的人均非等闲人物。 Dr. Douglas Lenat Prof. Charles J. Fillmore Prof. Dong Zhen Dong 语义三巨人 在计算语义界,有三位长期坚持超领域语义的顶天立地的大学者(如果要算第四位,也许应该包括英国的人工智能大师Wilks教授,他早年做过基于语义模板的纯语义机器翻译实验。再往前追溯,人工智能领域早期也有不少先驱者,不过都是在极为狭窄的领域尝试一些玩具知识系统)。这 三位学者前辈 是,坚持常识推理的 cyc 的 Lenat 教授,格语法( Case Grammar )和框网( FrameNet )的开创者 Fillmore 教授和《 知网(HowNet) 》的发明人中国机器翻译前辈董振东教授。他们对自己思想和信念的坚持、执着、反潮流和勇于实践,令人景仰。 这些智者的成果都有某种超时代的特征,其意义需要时间去消化或重新认识。可以预见,将来某个时候,当机器翻译和自然语言理解的应用项目穷尽了浅层可用的低枝果实之后,知识系统将会被进一步发掘、利用和欣赏。但目前多数项目还没有到山穷水尽的时候,急功近利是绝大多数项目和产品的固有特征,而且多数主事者也往往缺乏远见。绝大多数语言处理业者遇到语义和知识都是绕着走。 三位语义巨人中探索知识最深入和纯粹的是 Lenat 教授,他带领团队手工开发的 cyc 知识系统,试图从常识的形式化入手,利用常识推理帮助解决语言理解等人工智能 核心 问题。可惜这套庞大的系统太过复杂和逻辑,在实际应用上有点像大炮打蚊子,使不上劲。 Fillmore 教授是享誉世界的语义学家,他的格语法理论影响了一代自然语言学者,包括中国和日本自然语言处理领域的领军人物董振东教授和长尾真教授。事实上,董教授语义思想的核心概念“逻辑语义”就来源于 Fillmore 的深层格 (Deep Case)。然而,Fillmore 本人的语义发展与董教授的创新发展走上了语义颗粒度不同的两条道路,前者的成果为 FrameNet,后者的结晶是《知网(HowNet)》。 可以从构建NLP应用系统的角度来看 FrameNet 和 HowNet 的不同语义层次,即,从分析器(parser)和应用(applications,包括机器翻译,信息抽取等)的分工合作的关系来看。 语言的分析无论多深入,都不是应用,只是(理论上)缩短了到达应用的距离。就以机器翻译的应用为例,翻译转换可以发生在浅层(极端的例子是所谓词对词翻译系统)、在关键成分不到四个(主谓宾补)和附加成分不到一打(主要的定状语子类)的句法层、在《知网》的90个逻辑语义的层面或者在 FrameNet 的成百上千的 frames 的层面。多数统计型机器翻译都是在浅层进行,通过海量双语训练集,记忆住千千万万大大小小的翻译单位(个体转换规则)。这条路子可行是因为机器擅长记忆。手工编制的翻译系统就很难在浅层进行,因为浅层转换的千变万化超出了人工编制和调控的可能。但是,翻译系统应该深入分析到哪一步实施转换比较合适,是大可讨论的。 我个人觉得,FrameNet 过细(成千上万的 Frames 组成一个 hierarchy,即便只取上层的常用的 Frames, 也有几百个),不仅很难达到,而且实用上没有太多的好处。FrameNet 的提出,是格语法框架的自然延伸、扩展和细化,语义理论上有其位置和意义。但是在实用上,FrameNet 的地位很尴尬,他既不像句法层 argument structure 那样简洁和好把握,也不可能达到语用层的信息抽取模板(IE Template)那样可以直接支持应用(因为信息抽取是依赖领域的,而 FrameNet 原则上是不依赖领域的,或者最多是在语言学与领域之间起某种中介桥梁的作用)。这样一来,从实用角度,与其分析到 FrameNet (这个太繁难了) 再行翻译转换或信息抽取,不如直接从 argument structure 进行(这个靠谱多了,very tractable),虽然理论上前者的转换或抽取应该更加简单直接一些,但是由于 FrameNet 分析工作难度太大,终归得不偿失。换句话说,FrameNet 从使用角度看,语义做得过了(over-done),用起来不方便,没有多少实际利益。 退一步回到句法为基础的 argument structure 如何呢? Argument structure 立足于句法结构,主要论元最多不超过三个(up to 3 arguments):逻辑主语,逻辑宾语,逻辑补语,加上谓词 governor,构成一个四元组,非常简洁,与各语言的词典句型信息 subcat 相呼应,易于掌握和实现。再加上10来个带有逻辑语义分类的状语(时间、地点、条件、让步、结果等)和定语(颜色,材料,来源等)。这样的中间表达作为语言分析(parsing)的目标,作为应用的基础,已经可以应对绝大多数应用场合。Argument structure 中的逻辑宾语和逻辑主语有其独特的概括能力,对于利用句法关系的语义限制排歧多义词和做知识挖掘具有特别的价值。 HowNet 不满足于此,它的体系是对句法为主的 argument structure 进一步细化,譬如逻辑宾语细化到 “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”和“possession” 等子类。最终达到具有90多个逻辑语义角色的相对纯粹的语义表达。HowNet 就是这样一个概念知识体系,逻辑语义是连接这些概念的主要工具。 从主谓宾定状补这样简练的句法关系,深入到逻辑语义的角色,再进一步把逻辑语义细化,常常的表现就是信息表达的浓缩和冗余。HowNet 这样精细的逻辑语义,不仅反映了一个依存概念到主导概念的逻辑结构关系,而且反映了主导概念的子类信息(hence 冗余了)。例如,对于宾语的细化 “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”,“possession” 等,显然是蕴涵了主导概念(谓词)的子类信息,而这些子类信息本来是已经附着在谓词上的。譬如作为 possession 的宾语,其谓词只能是 have、possess、own 这个小子类。信息表达的冗余意味着即便没有深入到细化的逻辑语义,系统并没有本质上的损伤,因为如果需要的话,细化信息依然可以通过句法关系节点的限制条件即时得到查询。 对于逻辑主语逻辑宾语等进一步细化的必要和利弊,我个人觉得是可以讨论的。首先是任何细化都是有开发和处理的代价的。更重要的是,其必要性究竟如何?从追求纯粹语义和逻辑、追求纯净的独立于具体自然语言的元语言表达的角度,我们总可以找到证据,证明细化是必要的。但是,在应用现场,我们也可能发现,对于绝大多数应用,细化并无必要。就拿机器翻译来说,同一语系之间的结构转换在逻辑主语宾语的 argument structure 的对应上有明显的一致性。即便是不同语系,这种对应也是主流,而不对应的可以作为例外,由词驱动(word-driven)的个性转换来应对。以上讨论,有很多例证,写得匆忙,暂时不例举了。 【相关】 【立委科普:机器翻译】 Notes on Bulding and Using Lexical Semantic Knowledge Bases 围脖:一个人对抗一个世界,理性主义大师Lenat 教授 .. 《泥沙龙笔记:再谈 cyc》 2015-12-22 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|13419 次阅读|3 个评论
《科普随笔:“他走得风一样地快” 的详细语法结构分析》
liwei999 2011-10-19 14:21
《科普随笔:“他走得风一样地快” 的详细语法结构分析》
《立委随笔:“他走得风一样地快” 的详细语法结构分析》 (1564 bytes) Posted by: 立委 Date: June 07, 2008 05:18AM 有老友问如何分析句子“他走得风一样地快”。镜兄回答: 引用: “走/得快”是一个区分,不应该是“走/得/快”。 (157425) Posted by: mirror Date: May 30, 2008 07:51PM “他走得风一样地快”的分析是:“他走/得{风一样地}快”的结构。 镜子的分析很到位,层次清晰。句法分析是立委大学和研究生阶段最常做的一种练习了,差不多如数家珍了。 这个句子虽然短,结构还挺复杂,而且涉及现代汉语一些主要短语。更具体的层次分析法是: 首先在主语谓语中间切一刀:他|走得风一样地快 他:由代词构成的名词短语(NP)做主语。 走得风一样地快:是动词短语(VP)做谓语。 其中,得字短语(又叫得字结构)做动词“走”的补语。所以,第二刀切在“得”字前: 走|得风一样地快 得字短语通常做补语表示程度,其构成是:得+XP, XP 指几乎任何短语,由“得”字统率。在此句中,是形容词短语(AP)风一样地快。 形容词短语(AP)风一样地快内部的一刀应该切在做壮语的“地字短语”(又称地字结构)和主形容词“快”之间: 风一样地|快 地字短语通常做壮语表示性状,修饰动词或者形容词,其构成是:XP+地, XP 指几乎任何短语,由“地”字统率。在此句中,是后置词短语(PP: postpositional phrase)风一样。 后置词短语(英语也有少数后置词,譬如ago)与前置词(又称介词)短语句法功能类似,句法上由后置词统率,常常充当状语。现代汉语的一个常用结构是前置词和后置词配合使用,构成所谓框式结构:Prep+NP+Postp, 比如:象...一样(象风一样);在...内(在脚池内)。这样的框式结构常常省略前置词而意思不变,象风一样--风一样;在脚池内--脚池内,就是所谓后置词短语了。 总的结构层次如下: | |地]|快]]] 以上的句法结构分析是比较流行的层次分析方法的结果,当然还有别的分析法。 汉语句法树之美,不下于北美亚洲小姐 作者: 立委 日期: 10/31/2011 16:24:08 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|6875 次阅读|0 个评论
【立委科普:语法结构树之美】
热度 2 liwei999 2011-6-4 20:04
【立委科普:语法结构树之美】
我们知道,语句呈现的是线性的字符串,而语句 结构却是二维的。我们之所以能够理解语句的意思,是因为我们的大脑语言处理中枢能够把线性语句解构(decode)成二维的结构:语法学家常常用类似下列的上下颠倒的树形图来表达解构的结果(所谓 parsing)。 上面这个树形图叫作依从关系树形图(dependency tree,常常用来表达词或词组之间的逻辑语义关系,与此对应的还有一种句法树,叫短语结构树 phrase structure tree,更适合表达语句单位之间的边界与层次关系)。直观地说,所谓理解了一句话,其实就是明白了两种意义:(1)节点的意义(词汇意义);(2)节点之间的关系意义(逻辑语义)。譬如上面这个例子,在我们的自动语句分析中有大小六个节点:【Tonight】 【I】 【am going to enjoy】 【the 【song】 Hero】 【again】,分解为爷爷到孙儿三个层次,其中的逻辑语义是:有一个将来时态的行为【am going to enjoy】,结构上是老爷爷,他有两个亲生儿子,两个远房侄子。长子是其逻辑主语(Actor) 【I】,此子是其逻辑宾语(Undergoer)【the song Hero】,父子三人是语句的主干(主谓宾,叫做 argument structure),构成语句意义的核心。 两个远房侄子,一个是表达时间的状语(adverbial)【Tonight】,另一个表达频次的状语(adverbial)【again】。最后,还有一个孙子辈的节点【song】,他是次子的修饰语(modifier,是同位语修饰语),说明【Hero】的类别。 从句法关系角度来看,依从关系遵从一个原则:老子可以有n(n=0)个儿子(图上用下箭头表示),而儿子只能有一个老子:如果有一个以上的老子,证明有结构歧义,说明语义没有最终确定,语言解构(decoding)没有最终完成。虽然一个老子可以有任意多的下辈传人,其亲生儿子是有数量限制的,一般最多不超过三个,大儿子是主语,次子是宾语,小儿子是补足语。比如在句子 “I gave a book to her” 中,动词 gave 就有三个亲儿子:主语 【I】, 宾语【a book】,补足语 【to her】. 很多动词爷爷只有两个儿子(主语和宾语,譬如 John loves Mary),有的只有一个儿子(主语,譬如 John left)。至于远房侄子,从结构上是可有可无的,在数量上也是没有限量的。他们的存在随机性很强,表达的是伴随一个行为的边缘意义,譬如时间、地点、原因、结果、条件等等。 自然语言理解(Natural Language Understanding)的关键就是要模拟人的理解机制,研制一套解构系统(parser),输入的是语句,输出的是语法结构树。在这样的结构树的基础上,很多语言应用的奇迹可以出现,譬如机器翻译,信息抽取,自动文摘,智能搜索,等等。 在结束本文前,再提供一些比较复杂一些的语句实例。我把今天上网看到的一段英文输入给我们研制的parser,其输出的语法结构树如下(未经任何人工编辑,分析难免有小错)。 说明:细心的读者会发现下列结构树中,有的儿子有两个老子,有的短语之间互为父子,这些都违反了依存关系的原则。其实不然。依存关系的原则针对的是句法关系,而句法后面的逻辑关系有时候与句法关系一致,有时候不一致。不一致的时候就会出现两个老子,一个是与句法关系一致的老子,一个是没有相应的显性句法关系的老子。最典型的情形是所谓的隐性(逻辑)主语或宾语。 譬如第一个图示中的右边那棵结构树中,代词「I」就有两个老子:其句法老子是谓语动词「have learned」,它还有一个非谓语动词(ING形式)的隐性的逻辑老子「(From) reading」,也做它的逻辑主语 (who was reading? I)。再如第二个图示中的语法结构树中,定语从句的代表动词「were demonstrating」的句法老子是其所修饰的名词短语「students」,但逻辑上该名词短语却是定语从句动词「were demonstrating」的主语(actor)。有些纯粹的句法分析器(parser)只输出句法关系树,而我们研制的parser更进一步,深入到真正的逻辑语义层次。这样的深层分析为自然语言理解提供了更为坚实的基础,因为显性和隐性的关系全部解构,语义更为完整。 我们每天面对的就是这些树木构成的语言丛林。在我的眼中,它们形态各异,婀娜多姿,变化多端而不离其宗(“语法”)。如果爱因斯坦在时空万物中看到了造物主的美,如果门捷列夫在千姿百态的物质后面看到了元素表的简洁,语言学家则是在千变万化的语言现象中看到了逻辑结构之美。这种美的体验伴随着我们的汗水,鼓励我们为铲平语言壁垒而愚公移山,造福人类。 后记:When I showed the above trees to my daughter today, she was amazed, pretty! She asked, is this what you made the machine to do in diagramming sentences? Yes. Wow, incredible. I don't think I can diagram the sentences as nice as these. Can some day the machine be smarter than you the creator? Is the machine learning by itself? I said, it is not self-learning at this point and the self-learning system is too research oriented to put into a real life system now. But I do observe from time to time that the machine we made for parsing sometimes generate results of very complicated sentences way beyond our expectation, better than most human learners at times. This is because I encode the linguistics knowledge piece by piece, and machine is super good at memory. Once taught, it remembers every piece of knowledge we programmed into the system. Over the years of the development cycle, the accumulation of the knowledge is incredibly powerful. We humans are easy to forget things and knowledge, but machine has no such problems. In this sense, it is not impossible that a machine can beat his creator in practical performance of a given task. 回答: I don't think tree is the way my mind thinks 1窃以为,句法树迄今仍是大脑黑箱作业的最好的模拟和理论 2 does not really matter 作者: 立委 (*) 日期: 06/03/2011 04:30:20 As long as subtree matching is a handy and generalized way of info extraction. Tree is not the goal but a means to an end. The practical end is to extract knowledge or facts or sentiments from language. In practice, our goal is not to simulate the human comprehension per se , the practical goal is: Quote 在这样的结构树的基础上,很多语言应用的奇迹可以出现,譬如机器翻译,信息抽取,自动文摘,智能搜索,等等。 【相关博文】 《泥沙龙笔记:漫谈自动句法分析和树形图表达》 【 科普小品:文法里的父子原则 】 【立委科普:语法结构树之美(之二)】 《新智元:有了deep parsing,信息抽取就是个玩儿》 泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 乔氏 X 杠杠理论 以及各式树形图表达法 【 立委随笔:创造着是美丽的 】 【 科研笔记:开天辟地的感觉真好 】 【立委科普:美梦成真的通俗版解说】 【征文参赛:美梦成真】 【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|11021 次阅读|3 个评论
小议"来自于"和"涉及到"
fairyslave 2010-3-8 12:44
来自于和涉及到在人们的语言生活中大量存在,检索中国期刊全文数据库1999-2007年数据可以发现:文章内容中有来自于和涉及到的分别是358739和661417篇。其中,标题中有来自于的196篇,有涉及到的29篇。如果从百度网站查一下,相关记录更是高达几千万。这两种语言组合是否规范呢?我们从语义和句法的角度分析一下。动词来和介词自组成一个动词结构来自,自在这里作从、由讲,来自表示从来。经常有作者在来自后面加个于,例如:新发传染病:来自于美国NIAID的一项为期10年的前瞻性研究,收获来自于对事业的坚守记北京大学基础医学院童坦君院士,来自于天然产物的癌症抑制剂研究进展等。这里,于也是一个介词,而且和自同义,作自、从讲。《现代汉语》 在谈及介词于的用法时列举了一种误用现象:麦吉尔大学素有象牙塔之称,在全国大学评比中曾连续两年名列第一,吸引了来自于100多个国家的外国留学生。来自于100多个国家应该改为来自100多个国家,自和于两个介词不应该连用,于字多余。上面几个使用来自于的标题去掉于后意思不变,可见,同义介词连用,存在重复累赘。在《现代汉语词典》 中,动词涉及的释义为牵涉到,关联到,本身就包含有到的意思,但是,很多人在使用涉及时,喜欢在后面加到,例如:网络环境下图书馆业务涉及到的著作权问题,在硬化萎缩苔癣的发病机制中涉及到氧化应激,谈建筑给排水设计中涉及到的若干问题等。在这些人的语感里,对及的成分意义不敏感,认为及是词法层面的一个构成成分,不再参与句法层面的运作。其实,汉语复合词形成的一个重要途径是由句法结构(短语)凝固产生,一个短语可以在频繁的使用中获得词的功能,例如,涉及就被《现代汉语词典》收录,由短语降级为复合词,但它又没有抛弃短语的特性,在结构和意义上都清晰地表达为牵涉到,关联到。从韵律句法学的角度,认为来自组合年深日久,在人们的语感中已逐渐融合为一个词,介词自的介引功能较之独立介词于已经弱化很多。于是,出于补足来自后基本不能跟单音节名词的缺点和增强介词的介引功能的需要以及语言运用中求新的特点,有着与介词自相似功能的于就出现在了来自之后。还有一个说法,就是介词的双音组合,例如:自从、及至,它们都是同义复用的并列结构,从上古出现沿用至今,表示引进时间或处所。那么,以此类推,来自于和涉及到中的自于、及到也可视为介词的双音组合。不难发现,人们在强调语感韵律时,存在一些想当然:来自不是词,被当作词来使用;涉及是一个有短语特性的词汇化程度不高的词,被当作一个词汇化程度很高的词来使用。这就是误用的根源。参考文献: 1黄伯荣,廖序东.现代汉语(增订三版).北京:高等教育出版社,2002. 2中国社会科学院语言研究所词典编辑室编.现代汉语词典(第5版).北京:商务印书馆,2007.
个人分类: 编辑心得|3468 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-18 07:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部