科学网 › 标签 › 表层结构

标签: 表层结构

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

【李白之40：逻辑语义是语义核心，但不是全部】: liwei999 2017-4-27 23:31; 李: 不晓得是啥：不晓得是啥不晓得【萝卜】是啥。这个宾语从句中的主语的坑省略以后，萝卜哪里去了呢？萝卜不晓得是啥不晓得是啥的萝卜一口可口可乐喝完, 吐出一块不晓得是啥的东西白: “拿一些自己都不晓得是啥的东西来糊弄别人。” 定语从句反而是自然的李: why not 不晓得 NP ?　“晓得”的 subcats 既可带宾语从句，也可带ＮＰ宾语的：不晓得啥东西不晓得这东西 then, why the parse 的东西] is better than　 ]？回答清楚这个问题，貌似需要一点说法。白: “他是个连微积分都不晓得是啥的东西” 又回去了。“晓得”带小句宾时，不满足穿透性，就是说晓得的逻辑主语并不必然成为小句的逻辑主语。这样“不晓得是啥”作为一个整体进入定语从句的时候，就出现了两个坑，不知道反填哪一个，这是要避免的。李: 是吗？ “我不晓得到哪里去”　== 我不晓得【我】到哪里去。白: 不一定，可自主决策类，可以穿透。一般性的动词，无法穿透。李: “不晓得是啥的东西” 与“狂吠的狗”应该是一个逻辑。白: 狂吠是不及物的，一个坑。没有歧义。李: “不晓得是啥” 也是vp 也是不及物或宾语已经内部 saturated。白: 不晓得是啥，两个坑：a不晓得b是啥。但“连微积分都不晓得是啥”，微积分填掉了一个坑，就没这个问题了。b锁定，只剩a了。“东西”必然指“晓得”的逻辑主语。只剩下这个可能。东西只有在负面情感时才可指人，虽然逻辑上包含人。连……都不晓得是啥，显然承载了这个负面情感。李: 对。两个坑。但是 b 坑比 a 坑更具有必填性。在“不知道是啥的东西”里，“东西” 与 “晓得” 没有直接关系, “东西” 微观上是 “是啥” 的主语，宏观上是 “不晓得是啥” 的主语。“这玩意是大家都不晓得是啥的东西。” 这里“晓得”的主语是“大家”。白：有“大家”，先填掉了逻辑主语。“东西”拔不走了。李: “晓得”的第二个坑是宾语子句。“东西” 显然与 “晓得” 没有直接关系，因为根本就没坑了， “晓得” 已经饱和了。如果引进短语结构ps，可以说 “不晓得是啥” 这个 vp，还有两个坑。有两个坑的 vp 听上去很奇怪。但在汉语的所谓 “双主语句式”中有可能存在。白: “是”的两个坑，“啥”占了一个晓得的逻辑宾语是X，S比N优先，顺序比逆序优先。 “这玩意儿他们不晓得”。这种情况又可以了。晓得的逻辑主语跟另一个不兼容。又多出来一个。整体上还是相当于一个及物动词。李: 大主语 topic，有可能是一个 arg 的坑也有可能不占坑那就是 mod。小主语必然填一个坑。白: 双主语有两种情形，一种是大小主语，往往有part of联系；另一种是宾语提前或话题化，这种没有part of联系。有part of的，可以名词自带坑。没有的，只能消费里面的坑。名词自带坑的，里面就可以是不及物动词了。一个坑就够。另一个靠带坑的名词自吃自吐。自带坑的名词甚至可以传导到更遥远的补语。“他眼睛哭肿了”实际是：1、他哭；2、眼睛肿；3、眼睛是他身体的部分。眼睛，和哭，共享“他”这个萝卜。因为“肿”合并到“哭”，“肿”辖域内的残坑（谁的眼睛）获得免费额度。可以复用已填坑的萝卜。李：有 part of 这种特别有意思：“他身体不错”。 == 【他身体】不错。 == 他【身体不错】这两个看似水火不容的结构，都有各自的合理和优点，二者互补才反映全貌。 (1) “他的身体不错”：显性形式的小词“的”，让“他”降格为修饰语，属于填了“身体”所留的坑的修饰语。白：有“的”，修饰语辖域自然归并到被修饰语辖域，也获得免费额度。他，可以既填“的”本身的坑，也可以再填“身体”的坑。李： (2) 他身体方面不错：“身体”被降格，降格成后置词短语ＰＰ“身体方面”（Postpositional Phrase），类似状语。 (3) “他么，身体不错”，“他”降格为话题状语，用了口语小词“么”。 (4) “他身体好，又聪明” 可算是谓词“升格”（或“小句降格”）。从一元化领导升格为集体领导。本来谓词（譬如“聪明”）就是谓语，但现在“身体好”这个短语或小句整体变成了谓语，与另一个ＡＰ谓语“聪明”并列。白： “身体好”整体相当于一个不及物动词。两个带坑的成分级联，略去中间环节，还是吃N吐S。李: 这些现象极端有趣，fascinating。表明在基本相同的逻辑语义底层结构中，语言表达可以借助语言学的形式手段，给这个底层结构穿不同的衣服，打扮成不同的形象。进而对其语义做某种非核心的修饰。白：从填坑角度看只是初等的数学运算。免费额度算清楚了，其他都是小菜一碟。这又打破树的形态，真心不是树。李: 但是即便所有的坑都填妥了，那也只是逻辑语义的胜利，底层核心的被求解，表层的细微语义差别（nuances），那些不同表达方式，那些“升格”、“降格”的不同语言形式。它们所反映的东西严格地说也应该被恰当的捕捉和表达。白: 两件事情，谁和谁有什么关系是逻辑语义的事儿。用什么顺序表达是另一件事。后者也负载信息。李: 对呀。白: 比如听说双方之前各知道什么，强调什么，诸如此类。这些不在“主结构”框架内，但是是一些“环境变量”，需要的时候可以从里面捕捉这些信息。李: 最典型的例子是 “我读书”　与　“我读的书”，二者语义的区别，虽然逻辑语义核心以及填坑关系是相同的。白: 焦点不同、有定性不同，已然未然不同，甚至单复数也可能不同。我当下正在读的书可能标配是单数，我读过的书标配就是复数。李: 这些语义与逻辑语义，处于不同的层面。逻辑语义是本体（ontoogy）作为模版，这些语义与本体模版无关。所谓本体模版，说到底就是规定了坑与萝卜，及其 type　appropriateness（相谐性），他不反映这些有待填充的模版之间的结构关系，也不反映关系中的节点上附加的语义或细微差别，诸如强调、委婉、正式、非正式、语气等。白: 这些都可以抽象为：语境的坑，只不过这些是需要经常update和reshuffle的。做下一代人机对话不做这个的，都是耍流氓。李: 不仅仅人机对话，机器翻译也要这个。 30年前，董老师强调要以语言之间的核心，即逻辑语义，作为机器翻译的基础。让我们脑洞大开深受启蒙。然而这只是翻译需要正确传达的一个方面，的确是最核心的一面，但不是全部。边缘意义和细微差别，在核心问题基本解决后，就成为需要着力的另一方面。典型的例子是被动语态的机器翻译。从逻辑语义的角度看，主动被动是表层的语言现象，在逻辑上没有地位。因此所有的被动语态都可以转变为逻辑等价的主动语态来翻译。这有合理、逻辑和简明的一面，但人不是这样翻译的：一个高明的译者懂得，什么时候被动可以翻译成主动，什么时候需要翻译成显式的被动，什么时候可以翻译成隐式的被动，什么时候改造成反身自动的表达方式（譬如在英语到法语的翻译中加 se）。白: 视角选择，也是一个考量因素。有时，被动语态的采用，纯粹是为了视角的连贯。跟立场态度并无直接瓜葛。李: 总之逻辑语义是个纲纲举目不一定张对目下功夫是区别一个好的系统和一个很好的系统重要指针。白: 纳入语境的坑，一个好处就是所有填坑的机制可以复用过来，无需另起炉灶。说话人、听话人、处所、时间、先序语段、先序焦点、相对阶位等等，都可以套用本体的subcat。李: 这个方向探索不多。但现在是可以考虑的时候了。白: 我考虑很久了。语义是船，语境是河。船有内部结构，但行进也受到河的左右。内部结构不能完全决定行进的选择。白: 不知道“王冕死了父亲”算是交叉还是不交叉？王冕游离在外，另一部分的中心词是死，但王冕却不填它的坑，而是去填“父亲”留下的残坑。成为“死了父亲”这个短语的事实上的逻辑主语。但是还原到二元关系，这个link还是在王冕和父亲之间。从形式上看，王冕（N）和父亲填坑后的残坑（/N）中间隔着中心谓词“死（S）”，但这个吃饱了的S对N和/N之间的眉来眼去是无感的。乐见其成。 F: 如果是语义依存，是non-projective的，是有交叉的，父亲这个词的投射不连续。白: ‘’倒是“父亲”填“死”坑的一刹那，让我们见证了“右侧单坑核心成分”比“左侧单坑核心成分”优先级高的现实。如果双坑，则是左侧核心成分优先级高，我把它们处理成句法上存在填坑关系了。李: “王冕死了父亲”的交叉与否的问题，这个以前想过。不交叉原则针对的是句法关系这是句法关系的逻辑底线，交叉了逻辑上无法说通，所以判违规。还没见过例外：句法关系可以并列，嵌套，但不能交叉。但不交叉原则不适用于逻辑语义关系。其实，严格说，相对于逻辑语义的不应该叫句法关系，也包括词法关系（可以看成是小句法）。总之是形式层面的结构关系。形式层面的结构关系不允许交叉，这个原则是对的。有意思的是，语言中的不同层面的形式结构关系，戴上逻辑语义的眼镜，或映射到逻辑语义的表达的时候，就可能发现交叉现象。原因是昨天说过的，逻辑语义讲的是萝卜和坑的语义关系。逻辑语义的图（graph）中是不包含句法结构层次之间的关系语义的。换句话说，逻辑语义把“结构”打平了。譬如在句法中被局限在词法层面的萝卜，完全有可能去填句法层面的逻辑语义的坑。反之亦然：词法层面中的坑，完全有可能让句法层面的萝卜去填。用乔老爷的Ｘｂａｒ句法框架或概念来说就是，语言单位Ｘ的层次，在逻辑语义看来是不重要甚至不存在的，无论是　Ｘ　是　-1 (我把词法内部的层上标为负数)，０（词一级），１（组一级），２（短语一级）。萝卜与坑可以在这些不同层次中继承或跳转，但是句法上却有层次之间的区别和禁忌。这些层次以及层次间的关系和规定（譬如不交叉原则）是客观存在的反映，是逻辑语义以外的另一层结构语义。这种东西在重视层级的短语结构句法（ＰＳＧ）及其表达中，体现得较好。在不重视层级的依存文法（ＤＧ）中就反映和表达得不好或不够。不管我多么喜欢ＤＧ，多么讨厌ＰＳＧ表达的叠床架屋，我还是要指出ＤＧ的某些不足，正是ＰＳＧ的长处。回到白老师的例子，可以看得清晰具体一些：“王冕死了父亲”。ＰＳＧ句法上，王冕　是ＮＰ，“死了父亲”是ＶＰ，构成Ｓ。ＶＰ里面“死了”是Ｖ－ｂａｒ, “父亲”是ＮＰ宾语。这里面的结构不可能有任何交叉出现。“王冕”与“父亲”处于不同的层次，句法不允许一个单位钻进另一单位的里面去建立联系，这是违反了君臣父子的天条。一个句法结构，对外就是一个元素，里面是黑箱子，不透明（但可以利用某种机制传递某种东西）。唯此，才能维护结构的清晰。但是到了逻辑语义，这些条条框框都可以打破：一个儿子可以有ｎ个老子，交叉也不是不可以。树（ｔｒｅｅ）是无法承载逻辑语义的任意性和结构扁平化了，于是需要用图（ｇｒａｐｈ）。我早就说过，ＤＧ本性上比较亲近逻辑语义（深层核心结构），而ＰＳＧ则亲近的表层句法结构。很多人以为它们是互换的或等价的，只是表达（ｒｅｐｒｅｎｔａｔｉｏｎ）方式不同。其实不仅如此。在我们饭还吃不饱的时候，我们首先想到的肚子问题，核心问题。当我们衣食无忧的时候，我们就要讲究全面一些，核心和边缘都不放过。并不是不放过边缘，不放过表层结构语义，就一定要回到ＰＳＧ，但是至少仅仅逻辑语义是不够的，还需要添加其他，就如白老师昨天提到的那些以及他的一些表达方案。白: 这些所谓的句法，功劳不大，脾气倒是不小。比他多识别出有价值的二元关系，反而有毛病了。哪儿说理去。我认为这里面存在一个次序问题。站在外层N的角度，它确实填了一个/N的坑。但不同粒度会看见不同的结果。“死了父亲”是一个联合体，这个联合体挖了一个名词坑，“王冕”填进去，天造地设、严丝合缝。既没有穿越也没有交叉。“他哭肿了眼睛”也是一样。“肿了眼睛”作为一个联合体挖了一个名词坑。和“哭”的名词坑一道，共享“他”这个萝卜。中心词作为组块的代表，统一对外提供坑。这是对的。但是这坑未必是中心词自带的，可以是中心词在组块内部兼并而来的。把坑拘泥于中心词自带的坑，相当于用镣铐把自己锁起来。何苦自己为难自己？李: 今天的对话，符号逻辑，参杂点黑话与绿色幽默，有点绕，烧点脑。管他呢，还是发了吧。白: “把字句”与补语所带坑的深度捆绑，也是受这个“联合体意义上的坑”规律所支配的。“他把眼睛哭肿了”单看“哭”和“肿”，没有坑可以共享萝卜，“哭”与human相谐，“肿”与body part相谐，二者尿不到一个壶里。但是“眼睛”恰恰在这里起到了“转换插头”的作用，吃human，吐human body。看这个“肿了眼睛”的联合体所带的坑，与“哭”所带的坑，完全相谐，恰恰是可以共享的了。所以，在PSG那里避之唯恐不及的穿越交叉，其实隐藏着重大玄机。恰如其分地把它请回句法，可以起到四两拨千斤的作用。我对什么该放在句法层面，其实只有一个标准，能描述谁和谁有关系。如果谁和谁就是交叉着发生关系，句法不仅不应该回避，而且应该忠实描述。更何况，大的方面，中心词代表所在组块对外发生关系方面，并无违反。只是“过继的坑”也可以代替“亲生的坑”而已。树状结构、亲生的坑，都不应该成为忠实描述“谁跟谁有关系”的障碍。如果有障碍，一定是障碍错了而不是关系错了。退一步海阔天空。只要把“在你辖域里残留的坑”统统在名义上算作“你的坑”，什么都结了。李: 说得不错。但估计乔老爷是不认账的。他在句法与语义之间打隔断，坚信不隔断谁也做不好做不纯粹和深入。何况语义是全人类共同的哪有句法有性格和多姿多彩又万变不离其宗呢。他的普遍文法（UG）仍然基于句法独立于语义的根本原则。只有句法才是真正的语言学。到了语义，语言学就开始参杂逻辑的杂质了。白：我说的也都是句法，不是语义。只不过是能给语义省点事儿的句法。李: 夹杂了本体，或本体的隐藏式譬如大数据中间件，就不能说是纯句法，因为常识揉进了形式系统。白: 只是在控制（怎么做）层面引入了本体/大数据，在描述（是什么）层面无需引入。而老乔的语言学一样是不管控制层面的事儿的。也就是说，如果只是为了写一本句法书而不是为了做parser，本体连一句话都不需要提。那就在这个层面比，谁揭示了更多的结构性信息。【相关】【语义计算：李白对话录系列】中文处理 Parsing 【置顶：立委NLP博文一览】《朝华午拾》总目录; 个人分类: 立委科普|3017 次阅读|0 个评论

【泥沙龙笔记：语义可以绕过句法吗】: liwei999 2016-6-3 08:01; 雷晓军: 可以直接语意吗？绕过句法。我: 直接语义绕过句法是绝对错误的雷: 愿闻其详我: 这个以前谈过多次，也有历史案例（Wilks），董老师也一再教导，那是死路。但是对于pure research，是个可以探索的方向。这里有其详：《泥沙龙李白对话录：关于纯语义系统》；【没有语言结构可以解析语义么？（之二）】。我的 NLP University 跟洪诗人的打油八宝盆似的，只要事关 NLP，里面啥都有 -- 除了深度神经算法。雷: @wei 是没有走通，还是死路？我: 从 scale up 和 real life 而言，没有走通，出不了实验室，因此是死路。更关键的是，句法tractable，更靠谱，多数情况下已经可以支持应用，不用白不用。句法多漂亮清晰 tractable 啊，语义多 dirty 混乱不讲道理不可收拾啊。舍此而求彼，殆也。舍近求远，是本末倒置。雷: 动词的坑框架不是很清晰吗？我: 动词的坑框架大多属于句法 subcat 的范畴。即便可以暗度陈仓地走私语义和常识进来，也不改句法制导的总体路线。雷: 什么是语义？什么是句法？我: 纯语义的模板是概念层的 “subcat”，基本上就是一个常识系统，HowNet 那一类。雷: case theory是句法？我: 对费尔默的格语法是句法里面的语义派。白: 没有明显形式标记的case不算我: 不是纯语义。雷: 什么是纯语义？白: 我关心搭配，尤其是多对多的搭配算不算句法雷: 对呀，搭配是语义搭配吧？我: 譬如为了parse “我吃鸡” 或 “鸡我吃”，你不做 xp，也不做主谓宾，你只用 Animal EAT Food 这样的语义模板，这就叫绕过了句法的纯语义路线。雷: 主谓宾是什么？要主谓宾有什么用？我: 主谓宾是句法关系啊。逻辑主谓宾是深度句法关系，反映深层结构，董老师叫做逻辑语义。纯语义系统有两个组成部分：对应于词汇的概念本体（ontology），对应于句法的语义常识模板。雷: 语义中有agent，object等不就可以了吗？为什么要主谓宾？我越来越糊涂了我: 乔姆斯基你是怎么学的啊？乔姆斯基 50 年代不就说了吗，光深层结构不行，因为看不见，需要表层结构作为桥梁走到深层结构，这是 parsing。如果生成（generation），就需要深层结构走到表层结构。这个原理是亘古不变的。雷司令是装糊涂。雷: 乔姆斯基不讲语义的，只是偷用语义。我: 乔姆斯基强调句法与语义分开，并不是说乔姆斯基不讲语义。不讲语义做什么语言呢？语言成为完全的积木。雷: 乔姆斯基真的不讲语义，他只关心句法，而且认为句法就够了我: 即便是积木，怎样搭建成一个目标建筑，那也是语义啊。雷: 句法是innate的我: 句法不能吃饭，只有落地为语义才能。白: 如果想得到去伪歧义的句法分析结果，就要明里暗里使用各种盘外招。伟哥在分析器里内嵌了一部分盘外招，留了一部分盘外招给语义中间件。我认为两种盘外招可以统一于大数据。我: 说的极是。不过，“ 我认为两种盘外招可以统一于大数据 ”，这个还需要看看。能不能高效地走通大数据的这条路，我有些怀疑。雷: 他的学生Jerry Fodor更极端，人脑中就有句法的modularity，语义的加入是NLP的事情，是为了工程，同语言无关我: 乔姆斯基的确想让句法自制，但是那是句法系统内部的事儿。最后的结果仍然是句法导向语义的接口。雷: 语言学中语义学不是显学吧？我: 我觉得你被quasi-Chomsky洗脑了。什么是语义：不外两个落脚点，一个是本体，一个是逻辑语义。雷: 我在的学校乔姆斯基的学生云集，都是被Jerry Foder弄来的。本体和逻辑语义都是计算机的人在弄吧我: 不是，费尔默是语义巨人（《语义三巨人》），逻辑语义就源于他的格语法（Case Grammar）。至于本体，其实就是词典，概念词典。雷: 他只是龟缩在西部，东部的人不认我: 那是因为乔姆斯基光芒太甚，费尔默没法跟乔对抗。但是对 NLP 的影响，其实费尔默比乔老爷可能更大，特别是后期的 NLP 规则派，董老师啊日本长尾真啊，都是受到费尔默的深刻影响的 NLP 代表人物。当然到了统计学习派，什么乔姆斯基费尔默都不尿他们了董：据已故汉语语法学家林杏光先生的著作称，汉语语言学家提出并对于所谓的“格关系”的研究，要比Fillmore的“Case for Case”早四分之一个世纪。所谓的“格”的领悟是操汉语的人们的天生的智慧。例如：吃饺子、吃馆子中”吃“的意义不变，而宾语的语义不同，这样就有了受事宾语、处所宾语等的分别。雷: 费尔默的动词坑框架不是被伟哥批评为不接地气吗我: 费尔默有两段学术生涯。第一段是格语法，董老师发展为逻辑语义。这一个理论和实践是接地气的，关键的。白: 句法也有坑的雷: 句法的坑不同于格吗？白: 句法的坑，你可以想象成某种“正式语序”下的直接成分。而真实语言中，除了正式语序之外，还有若干“变种语序”。我: 费尔默后期的 FrameNet 虽然是格语法的自然延伸，朝着语义语用的方向进一步深入，但是不接地气，因为没有必要这样来连接语义和语用，直接从格语法进入语用要方便得多。FrameNet 是有道理的东西，但是没有什么实用价值。白: 建立变种语序与正式语序之间的关联，就是“填坑”, 句法意义上的雷: 这个要建立在词法上？我: 白老师说，没有明显形式标记的case不算,，这个实际场景是这样的：形式标记的 case （就是我说的语言形式，见《泥沙龙笔记: 漫谈语言形式》）是输入，逻辑语义是输出。这个输入条件可以是显性的语言形式，包括词法的格标记、词序，也可以是隐性的语言形式，包括 POS，包括 ontology，所谓 subcat 就是这样一个编码在词典里面的输入与输出的潜在对应关系。然后句法分析器根据它来实现输入对输出的映射。也就是实现从表层结构的语言形式对深层结构的逻辑语义的求解。deep parsing 说到底就是这么个事儿。 subcat 总是词（老爷）驱动的，里面规定了在哪里（词序）找什么样的（节点条件）放到什么 arg （逻辑语义）去。洪：伟爷天天摆龙门，语法语义跨越坑。 Deep Parser有锋刃，庖丁解牛想找新。【相关】《泥沙龙李白对话录：关于纯语义系统【没有语言结构可以解析语义么？（之二）】 NLP University 泥沙龙笔记: 漫谈语言形式《语义三巨人》【立委科普：本体知识系统的发展历程】《泥沙龙铿锵三人行：句法语义纠缠论》【没有语言结构可以解析语义么？浅论 LSA】【置顶：立委科学网博客NLP博文一览（定期更新版）】《朝华午拾》总目录; 个人分类: 立委科普|3549 次阅读|0 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 表层结构

相关帖子

相关日志

关闭安全验证