科学网

 找回密码
  注册

tag 标签: 表层结构

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

【李白之40:逻辑语义是语义核心,但不是全部】
liwei999 2017-4-27 23:31
李: 不晓得是啥:不晓得 是啥 不晓得【萝卜】是啥。 这个宾语从句中的主语的坑省略以后,萝卜哪里去了呢? 萝卜不晓得是啥 不晓得是啥的萝卜 一口可口可乐喝完, 吐出一块不晓得是啥的东西 白: “拿一些自己都不晓得是啥的东西来糊弄别人。” 定语从句反而是自然的 李: why not 不晓得 NP ? “晓得”的 subcats 既可带宾语从句,也可带NP宾语的: 不晓得啥东西 不晓得这东西 then, why the parse 的东西] is better than  ]?回答清楚这个问题,貌似需要一点说法。 白: “他是个连微积分都不晓得是啥的东西” 又回去了。“晓得”带小句宾时,不满足穿透性,就是说晓得的逻辑主语并不必然成为小句的逻辑主语。这样“不晓得是啥”作为一个整体进入定语从句的时候,就出现了两个坑,不知道反填哪一个,这是要避免的。 李: 是吗? “我不晓得到哪里去” == 我不晓得【我】到哪里去。 白: 不一定,可自主决策类,可以穿透。一般性的动词,无法穿透。 李: “不晓得是啥的东西” 与“狂吠的狗”应该是一个逻辑。 白: 狂吠是不及物的,一个坑。没有歧义。 李: “不晓得是啥” 也是vp 也是不及物 或 宾语已经内部 saturated。 白: 不晓得是啥,两个坑:a不晓得b是啥。但“连微积分都不晓得是啥”,微积分填掉了一个坑,就没这个问题了。b锁定,只剩a了。“东西”必然指“晓得”的逻辑主语。只剩下这个可能。东西只有在负面情感时才可指人,虽然逻辑上包含人。连……都不晓得是啥,显然承载了这个负面情感。 李: 对。两个坑。但是 b 坑比 a 坑更具有必填性。 在“不知道是啥的东西”里,“东西” 与 “晓得” 没有直接关系, “东西” 微观上是 “是啥” 的主语,宏观上 是 “不晓得是啥” 的主语。“这玩意是大家都不晓得是啥的东西。” 这里“晓得”的主语是“大家”。 白: 有“大家”,先填掉了逻辑主语。“东西”拔不走了。 李: “晓得”的第二个坑 是宾语子句。“东西” 显然与 “晓得” 没有直接关系,因为根本就没坑了, “晓得” 已经饱和了。如果引进短语结构ps,可以说 “不晓得是啥” 这个 vp,还有两个坑。有两个坑的 vp 听上去很奇怪。但在汉语的所谓 “双主语句式”中有可能存在。 白: “是”的两个坑,“啥”占了一个 晓得的逻辑宾语是X,S比N优先,顺序比逆序优先。 “这玩意儿他们不晓得”。这种情况又可以了。晓得的逻辑主语跟另一个不兼容。又多出来一个。整体上还是相当于一个及物动词。 李: 大主语 topic,有可能是一个 arg 的坑 也有可能不占坑 那就是 mod。小主语必然填一个坑。 白: 双主语有两种情形,一种是大小主语,往往有part of联系;另一种是宾语提前或话题化,这种没有part of联系。有part of的,可以名词自带坑。没有的,只能消费里面的坑。名词自带坑的,里面就可以是不及物动词了。一个坑就够。另一个靠带坑的名词自吃自吐。自带坑的名词甚至可以传导到更遥远的补语。“他眼睛哭肿了”实际是:1、他哭;2、眼睛肿;3、眼睛是他身体的部分。眼睛,和哭,共享“他”这个萝卜。因为“肿”合并到“哭”,“肿”辖域内的残坑(谁的眼睛)获得免费额度。可以复用已填坑的萝卜。 李: 有 part of 这种特别有意思:“他身体不错”。 == 【他 身体】不错。 == 他 【身体 不错】 这两个看似水火不容的结构,都有各自的合理和优点,二者互补才反映全貌。 (1) “他的身体不错”:显性形式的小词“的”,让“他”降格为修饰语,属于填了“身体”所留的坑的修饰语。 白: 有“的”,修饰语辖域自然归并到被修饰语辖域,也获得免费额度。他,可以既填“的”本身的坑,也可以再填“身体”的坑。 李: (2) 他身体方面不错:“身体”被降格,降格成后置词短语PP“身体方面”(Postpositional Phrase),类似状语。 (3) “他么,身体不错”,“他”降格为话题状语,用了口语小词“么”。 (4) “他身体好,又聪明” 可算是谓词“升格”(或“小句降格”)。从一元化领导升格为集体领导。本来谓词(譬如“聪明”)就是谓语,但现在“身体好”这个短语或小句整体变成了谓语,与另一个AP谓语“聪明”并列。 白: “身体好”整体相当于一个不及物动词。两个带坑的成分级联,略去中间环节,还是吃N吐S。 李: 这些现象极端有趣,fascinating。表明 在基本相同的逻辑语义底层结构中,语言表达可以借助语言学的形式手段,给这个底层结构穿不同的衣服,打扮成不同的形象。进而对其语义做某种非核心的修饰。 白: 从填坑角度看只是初等的数学运算。免费额度算清楚了,其他都是小菜一碟。这又打破树的形态,真心不是树。 李: 但是 即便所有的坑都填妥了,那也只是逻辑语义的胜利,底层核心的被求解,表层的细微语义差别(nuances), 那些不同表达方式,那些“升格”、“降格”的不同语言形式。它们所反映的东西 严格地说 也应该被恰当的捕捉和表达。 白: 两件事情,谁和谁有什么关系是逻辑语义的事儿。用什么顺序表达是另一件事。后者也负载信息。 李: 对呀。 白: 比如听说双方之前各知道什么,强调什么,诸如此类。这些不在“主结构”框架内,但是是一些“环境变量”,需要的时候可以从里面捕捉这些信息。 李: 最典型的例子是 “我读书” 与 “我读的书”,二者语义的区别,虽然逻辑语义核心以及填坑关系是相同的。 白: 焦点不同、有定性不同,已然未然不同,甚至单复数也可能不同。我当下正在读的书可能标配是单数,我读过的书标配就是复数。 李: 这些语义 与 逻辑语义,处于不同的层面。逻辑语义是本体(ontoogy)作为模版, 这些语义与本体模版无关。所谓本体模版,说到底就是规定了坑与萝卜,及其 type appropriateness(相谐性),他不反映这些有待填充的模版之间的结构关系,也不反映关系中的节点上附加的语义或细微差别,诸如 强调、委婉、正式、非正式、语气 等。 白: 这些都可以抽象为:语境的坑,只不过这些是需要经常update和reshuffle的。做下一代人机对话不做这个的,都是耍流氓。 李: 不仅仅人机对话,机器翻译也要这个。 30年前,董老师强调要以语言之间的核心,即逻辑语义,作为机器翻译的基础。让我们脑洞大开 深受启蒙。然而 这只是翻译需要正确传达的一个方面,的确是最核心的一面,但不是全部。边缘意义和细微差别,在核心问题基本解决后,就成为需要着力的另一方面。典型的例子是被动语态的机器翻译。从逻辑语义的角度看,主动被动是表层的语言现象,在逻辑上没有地位。因此所有的被动语态都可以转变为逻辑等价的主动语态来翻译。这有合理、逻辑和简明的一面,但人不是这样翻译的:一个高明的译者懂得,什么时候被动可以翻译成主动,什么时候需要翻译成显式的被动,什么时候可以翻译成隐式的被动,什么时候改造成反身自动的表达方式(譬如在英语到法语的翻译中加 se)。 白: 视角选择,也是一个考量因素。有时,被动语态的采用,纯粹是为了视角的连贯。跟立场态度并无直接瓜葛。 李: 总之 逻辑语义是个纲 纲举目不一定张 对目下功夫是区别一个好的系统和一个很好的系统重要指针。 白: 纳入语境的坑,一个好处就是所有填坑的机制可以复用过来,无需另起炉灶。说话人、听话人、处所、时间、先序语段、先序焦点、相对阶位等等,都可以套用本体的subcat。 李: 这个方向探索不多。但现在是可以考虑的时候了。 白: 我考虑很久了。语义是船,语境是河。船有内部结构,但行进也受到河的左右。内部结构不能完全决定行进的选择。 白: 不知道“王冕死了父亲”算是交叉还是不交叉? 王冕游离在外,另一部分的中心词是死,但王冕却不填它的坑,而是去填“父亲”留下的残坑。成为“死了父亲”这个短语的事实上的逻辑主语。但是还原到二元关系,这个link还是在王冕和父亲之间。从形式上看,王冕(N)和父亲填坑后的残坑(/N)中间隔着中心谓词“死(S)”,但这个吃饱了的S对N和/N之间的眉来眼去是无感的。 乐见其成。 F: 如果是语义依存,是non-projective的,是有交叉的,父亲这个词的投射不连续。 白: ‘’倒是“父亲”填“死”坑的一刹那,让我们见证了“右侧单坑核心成分”比“左侧单坑核心成分”优先级高的现实。如果双坑,则是左侧核心成分优先级高,我把它们处理成句法上存在填坑关系了。 李: “王冕死了父亲”的交叉与否的问题,这个以前想过。不交叉原则针对的是句法关系 这是句法关系的逻辑底线,交叉了逻辑上无法说通,所以判违规。还没见过例外:句法关系可以并列,嵌套,但不能交叉。但不交叉原则不适用于逻辑语义关系。其实,严格说,相对于逻辑语义的不应该叫句法关系,也包括词法关系(可以看成是小句法)。总之是形式层面的结构关系。形式层面的结构关系不允许交叉,这个原则是对的。有意思的是,语言中的不同层面的形式结构关系,戴上逻辑语义的眼镜,或映射到逻辑语义的表达的时候,就可能发现交叉现象。原因是昨天说过的,逻辑语义讲的是萝卜和坑的语义关系。逻辑语义的图(graph)中是不包含句法结构层次之间的关系语义的。换句话说,逻辑语义把“结构”打平了。譬如在句法中被局限在词法层面的萝卜,完全有可能去填句法层面的逻辑语义的坑。反之亦然:词法层面中的坑,完全有可能让句法层面的萝卜去填。用乔老爷的Xbar句法框架或概念来说就是,语言单位X的层次,在逻辑语义看来是不重要甚至不存在的,无论是 X 是 -1 (我把词法内部的层上标为负数),0(词一级),1(组一级),2(短语一级)。萝卜与坑可以在这些不同层次中继承或跳转,但是句法上却有层次之间的区别和禁忌。 这些层次以及层次间的关系和规定(譬如不交叉原则)是客观存在的反映,是逻辑语义以外的另一层结构语义。这种东西在重视层级的短语结构句法(PSG)及其表达中,体现得较好。在不重视层级的依存文法(DG)中就反映和表达得不好或不够。不管我多么喜欢DG,多么讨厌PSG表达的叠床架屋,我还是要指出DG的某些不足,正是PSG的长处。 回到白老师的例子,可以看得清晰具体一些:“王冕死了父亲”。PSG句法上,王冕 是NP,“死了父亲”是VP,构成S。VP里面“死了”是V-bar, “父亲”是NP宾语。这里面的结构不可能有任何交叉出现。“王冕”与“父亲”处于不同的层次,句法不允许一个单位钻进另一单位的里面去建立联系,这是违反了君臣父子的天条。一个句法结构,对外就是一个元素,里面是黑箱子,不透明(但可以利用某种机制传递某种东西)。唯此,才能维护结构的清晰。但是到了逻辑语义,这些条条框框都可以打破:一个儿子可以有n个老子,交叉也不是不可以。树(tree)是无法承载逻辑语义的任意性和结构扁平化了,于是需要用图(graph)。我早就说过,DG本性上比较亲近逻辑语义(深层核心结构),而PSG则亲近的表层句法结构。很多人以为它们是互换的或等价的,只是表达(reprentation)方式不同。其实不仅如此。在我们饭还吃不饱的时候,我们首先想到的肚子问题,核心问题。当我们衣食无忧的时候,我们就要讲究全面一些,核心和边缘都不放过。并不是不放过边缘,不放过表层结构语义,就一定要回到PSG,但是至少仅仅逻辑语义是不够的,还需要添加其他,就如白老师昨天提到的那些以及他的一些表达方案。 白: 这些所谓的句法,功劳不大,脾气倒是不小。比他多识别出有价值的二元关系,反而有毛病了。哪儿说理去。我认为这里面存在一个次序问题。 站在外层N的角度,它确实填了一个/N的坑。但不同粒度会看见不同的结果。“死了父亲”是一个联合体,这个联合体挖了一个名词坑,“王冕”填进去,天造地设、严丝合缝。既没有穿越也没有交叉。“他哭肿了眼睛”也是一样。“肿了眼睛”作为一个联合体挖了一个名词坑。和“哭”的名词坑一道,共享“他”这个萝卜。 中心词作为组块的代表,统一对外提供坑。这是对的。但是这坑未必是中心词自带的,可以是中心词在组块内部兼并而来的。把坑拘泥于中心词自带的坑,相当于用镣铐把自己锁起来。何苦自己为难自己? 李: 今天的对话,符号逻辑,参杂点黑话与绿色幽默,有点绕,烧点脑。管他呢,还是发了吧。 白: “把字句”与补语所带坑的深度捆绑,也是受这个“联合体意义上的坑”规律所支配的。“他把眼睛哭肿了”单看“哭”和“肿”,没有坑可以共享萝卜,“哭”与human相谐,“肿”与body part相谐,二者尿不到一个壶里。但是“眼睛”恰恰在这里起到了“转换插头”的作用,吃human,吐human body。看这个“肿了眼睛”的联合体所带的坑,与“哭”所带的坑,完全相谐,恰恰是可以共享的了。所以,在PSG那里避之唯恐不及的穿越交叉,其实隐藏着重大玄机。恰如其分地把它请回句法,可以起到四两拨千斤的作用。我对什么该放在句法层面,其实只有一个标准,能描述谁和谁有关系。如果谁和谁就是交叉着发生关系,句法不仅不应该回避,而且应该忠实描述。更何况,大的方面,中心词代表所在组块对外发生关系方面,并无违反。只是“过继的坑”也可以代替“亲生的坑”而已。树状结构、亲生的坑,都不应该成为忠实描述“谁跟谁有关系”的障碍。如果有障碍,一定是障碍错了而不是关系错了。 退一步海阔天空。只要把“在你辖域里残留的坑”统统在名义上算作“你的坑”,什么都结了。 李: 说得不错。但估计乔老爷是不认账的。他在句法与语义之间打隔断,坚信不隔断 谁也做不好 做不纯粹和深入。何况 语义是全人类共同的 哪有句法有性格和多姿多彩又万变不离其宗呢。他的普遍文法(UG) 仍然基于句法独立于语义的根本原则。只有句法才是真正的语言学。到了语义,语言学就开始参杂逻辑的杂质了。 白: 我说的也都是句法,不是语义。只不过是能给语义省点事儿的句法。 李: 夹杂了本体,或本体的隐藏式 譬如 大数据中间件,就不能说是纯句法,因为常识揉进了形式系统。 白: 只是在控制(怎么做)层面引入了本体/大数据,在描述(是什么)层面无需引入。而老乔的语言学一样是不管控制层面的事儿的。也就是说,如果只是为了写一本句法书而不是为了做parser,本体连一句话都不需要提。那就在这个层面比,谁揭示了更多的结构性信息。 【相关】 【语义计算:李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3017 次阅读|0 个评论
【泥沙龙笔记:语义可以绕过句法吗】
liwei999 2016-6-3 08:01
雷晓军: 可以直接语意吗?绕过句法。 我: 直接语义绕过句法是绝对错误的 雷: 愿闻其详 我: 这个以前谈过多次,也有历史案例(Wilks),董老师也一再教导,那是死路。但是对于pure research,是个可以探索的方向。 这里有其详:《 泥沙龙李白对话录:关于纯语义系统 》; 【 没有语言结构可以解析语义么?(之二) 】。 我的 NLP University 跟洪诗人的打油八宝盆似的,只要事关 NLP,里面啥都有 -- 除了深度神经算法。 雷: @wei 是没有走通,还是死路? 我: 从 scale up 和 real life 而言,没有走通,出不了实验室,因此是死路。更关键的是,句法tractable,更靠谱,多数情况下已经可以支持应用,不用白不用。句法多漂亮清晰 tractable 啊,语义多 dirty 混乱不讲道理不可收拾啊。舍此而求彼,殆也。舍近求远,是本末倒置。 雷: 动词的坑框架不是很清晰吗? 我: 动词的坑框架大多属于句法 subcat 的范畴。即便可以暗度陈仓地走私语义和常识进来,也不改句法制导的总体路线。 雷: 什么是语义?什么是句法? 我: 纯语义的模板是概念层的 “subcat”,基本上就是一个常识系统,HowNet 那一类。 雷: case theory是句法? 我: 对 费尔默的格语法是句法里面的语义派。 白: 没有明显形式标记的case不算 我: 不是纯语义。 雷: 什么是纯语义? 白: 我关心搭配,尤其是多对多的搭配算不算句法 雷: 对呀,搭配是语义搭配吧? 我: 譬如为了parse “我吃鸡” 或 “鸡我吃”,你不做 xp,也不做 主谓宾,你只用 Animal EAT Food 这样的语义模板,这就叫绕过了句法的纯语义路线。 雷: 主谓宾是什么?要主谓宾有什么用? 我: 主谓宾是句法关系啊。逻辑主谓宾是深度句法关系,反映深层结构,董老师叫做逻辑语义。 纯语义系统有两个组成部分:对应于词汇的概念本体(ontology),对应于句法的语义常识模板。 雷: 语义中有agent,object等不就可以了吗?为什么要主谓宾?我越来越糊涂了 我: 乔姆斯基你是怎么学的啊?乔姆斯基 50 年代不就说了吗,光深层结构不行,因为看不见,需要表层结构作为桥梁走到深层结构,这是 parsing。如果生成(generation),就需要深层结构走到表层结构。这个原理是亘古不变的。 雷司令是装糊涂。 雷: 乔姆斯基不讲语义的,只是偷用语义。 我: 乔姆斯基强调句法与语义分开,并不是说乔姆斯基不讲语义。不讲语义做什么语言呢?语言成为完全的积木。 雷: 乔姆斯基真的不讲语义,他只关心句法,而且认为句法就够了 我: 即便是积木,怎样搭建成一个目标建筑,那也是语义啊。 雷: 句法是innate的 我: 句法不能吃饭,只有落地为语义才能。 白: 如果想得到去伪歧义的句法分析结果,就要明里暗里使用各种盘外招。伟哥在分析器里内嵌了一部分盘外招,留了一部分盘外招给语义中间件。我认为两种盘外招可以统一于大数据。 我: 说的极是。 不过,“ 我认为两种盘外招可以统一于大数据 ”,这个还需要看看。能不能高效地走通大数据的这条路,我有些怀疑。 雷: 他的学生Jerry Fodor更极端,人脑中就有句法的modularity,语义的加入是NLP的事情,是为了工程,同语言无关 我: 乔姆斯基的确想让句法自制,但是那是句法系统内部的事儿。最后的结果仍然是句法导向语义的接口。 雷: 语言学中语义学不是显学吧? 我: 我觉得你被quasi-Chomsky洗脑了。什么是语义:不外两个落脚点,一个是本体,一个是逻辑语义。 雷: 我在的学校乔姆斯基的学生云集,都是被Jerry Foder弄来的。 本体和逻辑语义都是计算机的人在弄吧 我: 不是,费尔默是语义巨人( 《语义三巨人》 ),逻辑语义就源于他的格语法(Case Grammar)。 至于本体,其实就是词典,概念词典。 雷: 他只是龟缩在西部,东部的人不认 我: 那是因为乔姆斯基光芒太甚,费尔默没法跟乔对抗。但是对 NLP 的影响,其实 费尔默 比 乔老爷可能更大,特别是后期的 NLP 规则派,董老师啊 日本长尾真啊,都是受到费尔默的深刻影响的 NLP 代表人物。当然到了统计学习派,什么乔姆斯基 费尔默 都不尿他们了 董:据已故汉语语法学家林杏光先生的著作称,汉语语言学家提出并对于所谓的“格关系”的研究,要比Fillmore的“Case for Case”早四分之一个世纪。所谓的“格”的领悟是操汉语的人们的天生的智慧。例如:吃饺子、吃馆子中”吃“的意义不变,而宾语的语义不同,这样就有了受事宾语、处所宾语等的分别。 雷: 费尔默的动词坑框架不是被伟哥批评为不接地气吗 我: 费尔默有两段学术生涯。第一段是格语法,董老师发展为逻辑语义。这一个理论和实践是接地气的,关键的。 白: 句法也有坑的 雷: 句法的坑不同于格吗? 白: 句法的坑,你可以想象成某种“正式语序”下的直接成分。而真实语言中,除了正式语序之外,还有若干“变种语序”。 我: 费尔默后期的 FrameNet 虽然是格语法的自然延伸,朝着语义语用的方向进一步深入,但是不接地气,因为没有必要这样来连接语义和语用,直接从格语法进入语用要方便得多。FrameNet 是有道理的东西,但是没有什么实用价值。 白: 建立变种语序与正式语序之间的关联,就是“填坑”, 句法意义上的 雷: 这个要建立在词法上? 我: 白老师说,没有明显形式标记的case不算,,这个实际场景是这样的: 形式标记的 case (就是我说的语言形式,见 《 泥沙龙笔记: 漫谈语言形式 》) 是输入,逻辑语义是输出。这个输入条件可以是显性的语言形式,包括词法的格标记、词序,也可以是隐性的语言形式,包括 POS,包括 ontology,所谓 subcat 就是这样一个编码在词典里面的输入与输出的潜在对应关系。然后句法分析器根据它来实现输入对输出的映射。也就是实现从表层结构的语言形式对深层结构的逻辑语义的求解。deep parsing 说到底就是这么个事儿。 subcat 总是词(老爷)驱动的,里面规定了在哪里(词序)找什么样的(节点条件)放到什么 arg (逻辑语义)去。 洪: 伟爷天天摆龙门, 语法语义跨越坑。 Deep Parser有锋刃, 庖丁解牛想找新。 【相关】 《 泥沙龙李白对话录:关于纯语义系统 【 没有语言结构可以解析语义么?(之二) 】 NLP University 泥沙龙笔记: 漫谈语言形式 《语义三巨人》 【立委科普:本体知识系统的发展历程】 《泥沙龙铿锵三人行:句法语义纠缠论》 【没有语言结构可以解析语义么?浅论 LSA】 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|3549 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-1 16:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部