科学网

 找回密码
  注册

tag 标签: 逻辑语义

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

【尼沙龙笔记:图灵测试是语言理解的合理表示吗?】
liwei999 2018-2-23 18:20
毛: 伟哥对 理解 的理解似乎与二师兄不同?@wei 李: 董老师是我的启蒙老师 他当年的逻辑语义学说 回答了一个语句理解的问题 觉得豁然开朗 迄今也没别的学说这样让我信服过。@董振东 毛: 愿闻其详 ? 李: 说理解了一句话 就是解构出里面的逻辑语义:谁是逻辑主语 逻辑宾语 等。董老师定义了将近 100 种逻辑语义角色,形成一个 hierarchy,最上层的逻辑语义角色不过10种。简单说 就是搞明白 谁 对谁 做了 什么 何时 何地 何原因 如何做的 等等。 毛: 那就必定是符号派了? 乡下的老太太,根本不知道主语谓语,她们不是也能理解吗? Nick: @毛德操 老太太不知道,但老太太的大脑知道。老太太不知道自己的大脑知道 李: 是啊 老太太知道 “她喜欢红烧肉” 与 “红烧肉她喜欢” 是一个意思,也知道与 “红烧肉喜欢她” 意思正好相反,后者是胡说。所以老太太的逻辑语义是明白的 虽然她不懂得这就叫 parsing 或逻辑语义解析。 毛: 那怎么知道老太太的大脑知道?她可能并未转化成符号并加以解析。 @wei 你讲的 理解 是否包含对于因果的认知? 李: 语句理解包含部分的因果。 毛: “部分”,多大的部分?有多大的部分,才算是 理解 了?老太太的大脑知道,其外部表现是什么?如何判定? 郭: “理解”,我的理解如下:我脑子里有一个我自己的“大前提”,或者叫“common sense”,就是我的“认知”。你说一句话,如果我“理解”了,我就可以把你的话作为“小前提”。然后,我可以用“我自己的逻辑”,“推导”出“我的结论”来。这里,是否“符号”并不必然。这“逻辑”,也完全可以“非 亚里士多德”,更不必“因果”。但无论如何,要能再走一步。 毛: 这其实就是图灵测试的变形,只是把它用在人与人之间(而不是机器与人之间)。你是以你自己的认知作为对照,看老太太的反应是否与这个对照者等同。所以,我认为唯一的办法就是图灵测试。 郭: “老太太的大脑”的判定,其实无异于图灵测试。你说“我喜欢红烧肉”,她如果回答“我小时候吃不起啊”,我就认为她“理解”了。 毛: 对。你还可以问:“为什么吃不起”,如果回答“没钱”,就更说明她理解了。通过了图灵测试,就可以认为测试目标真的理解了,或者说具有了(正常)人的智能。图灵在五几年就想透了这一层。问题其实在庄子那个时候就提出来了(子非鱼),但是他没有答案,没有提出方法。 郭: 不过,图灵测试,可是批评者众啊!也是问题一大堆。 白: 图灵测试这思路不对。 毛: 愿闻其详 ?批评者众可以,但是得要提出替代方案。 白: 我喜欢Winograd Scheme的路子。用代词指代考系统。 毛: 那都涉及语法,可是许多人根本不知语法为何物。比方说我五岁的外孙女,她已经能理解不少事情了,但是她根本不知道语法。 白: 没有显性语法,普通人做得出来的。比如“张三告诉李四他很伤心,他安慰了他。” 然后问:谁很伤心?谁安慰了谁?这完全不涉及显性的语法。 毛: 问题是,你怎么知道她会运用隐性的语法?你钻不到她脑子里,只能从外部观察。 白: 都是这套路。不管有没有隐性语法,做出来算。 毛: 对,做出来算,这实质上就已经是图灵测试了。 白: 不是自然对话,是语言学家和NLP专家设计出来的考题。比较人和机器的考分。 毛: 这实质上仍是图灵测试,形式上有所不同。当然,现在机器一般而言还没有能通过图灵测试。但是观察目标物对于外部刺激所作的反应,并与对照物相比,这个原理是一样的。我们在考察一个软件模块时只看其外部表现,即API, 而不追究其内部实现,也是同样的思路。 白: 其实音乐和语法问题很类似。会唱的听众可以不识谱,但是哪里跟原曲不一致是可以听出来的。 毛: 对的。其实这就对应着符号和神经两条路线的差异。 白: 但是用什么记谱更精确,这个问题是有答案的。 李: 说一千道一万,我还是迷信SVO,即逻辑语义。 毛: 你自己已经说了,迷信。 白: 手握精确武器的人对手握原始武器的人,的确有傲视的资本。 毛: SVO是高级的思维活动,而神经元是低级的,接近于本能的反应(所谓 下意识 的反应)。下意识的反应猫狗都有,而 SVO 只有人能做。所以脱离 SVO 谈人工智能是不现实的,只是目前的热点是在解决 下意识 活动而已。 白: 记谱法的好坏不需要迷信。 毛: 记谱方法的好坏,是符号派内部的冲突。简谱与五线谱,基本上就是首调唱名与固调唱名的分岐,我觉得都有道理。一些年轻人把人脸识别说得神乎其神,我说: 别以为你这就有多牛,你去牵条狗来,它照样也能人脸识别。 白: 比如说切分音,这个概念在不同记谱法里面可能表现形式不同,这无关大局。但假设一个记谱法里居然没办法表示切分音,这就是落后的记谱法了。 毛: 是的。这就是所谓“不完备”。这里又可看出深度学习与符号推理之间的差异。前者相当于能跟着唱,或记住了几支小调,但绝对成不了音乐家。所以,连接主义所能达到的水平,只能相当于人类中的文盲。而若想要知书达理,就得上学校去读书,学习符号与推理。 白: 当年表示不了“异或”的情况,就很像表示不了切分音的记谱法。 毛: 对对对 白: 如今表达不了robustness的符号逻辑,则是另一种尴尬。都构成被鄙视的理由。 毛: 反正戈德尔已经说了,逻辑本身就是不完备的。但是这并不意味着可以不要逻辑。 白: 表达不了灵活语序的形式语言,也是另一种尴尬。也不意味着逻辑不要创新。 毛: 那是因为有得必有失。你把语言简化了,当然就得付出代价。 白: 还原复杂的路径不止一条,也不为某种技术路线所专属。 毛: 对,应该互补。所以符号推理与深度学习都需要,而且得要能打通才好。 白: 也许真相离大家都有点远,谁不创新都是危险的。 毛: 是啊。但是创新难呐。 【相关】 【李白宋93:汉语语序的自由与不自由】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4384 次阅读|0 个评论
【李白宋90:语义计算中句法与逻辑与语用的纠缠】
热度 1 liwei999 2018-2-1 15:13
宋: @wei 张三是打李四的凶手。其中,张三一打,是一凶手,两个依存关系交叉,你是怎样处理的? 白: 凶手有个X坑,动名皆宜。 宋: @白硕 这个坑的语义是什么? 白: 使其成为凶手的事件 李: “张三是打李四的凶手”的问题,这是句法与逻辑的纠缠,不在一个层次。“是” (表示上下位关系,taxonomy)与“的”(表示所属或限定的关系)在逻辑上没有节点地位,只有关系意义,纯粹是一个句法形式,是一个小词。因此,逻辑上的关系没有依存交叉,逻辑上,“张三” 与 “凶手” 发生 ISA (上下位)关系,“张三” 与 “打” 发生逻辑主语关系。这不是交叉 而是同一个起点。见下图: 【SV: 张三,打】 【VO:打,李四】 【限定:打(李四),凶手】 【ISA:张三,凶手】 这四个 binary 的逻辑依存关系没有交叉。反映了本句的逻辑语义,“是”,“的”,都是小词,没有作为节点的逻辑地位。 Me: 至于句法的依存结构,那是另一个平面的事体: 白老师所说的“凶手”挖了个【刑事案件】的坑,用得好的话,可以帮助句法消歧:因为 “打李四的凶手” 有一个句法歧义在:“打”的是“李四”,还是“凶手”?从“打人” 的本体知识,可以得知打人属于刑事案件(寻衅滋事),正好填“凶手”的坑,比“李四”更加合适。但其实要真用上这个知识,无论是经过常识推理,还是利用大数据的语义相偕的统计,里面还有不少沟沟坎坎,并不是那么容易。其他的消歧的 heuristics 也有,似乎更好用。 “打李四的二儿子的凶手”,“打” “李四”,“打” “二儿子”,还是“打” “凶手”? 白: 匹配这种X的原则:1、S优先;2、如果是N,表“事件”的类别名词优先。二儿子二者都不是,优先级最低。“打李四的黑社会团伙的凶手”有歧义了。凶手属于团伙、团伙属于李四的可能性存在。这种解释下,“凶手”的坑仍未填上,且处在“挨打”境地。关键是,“黑社会”、“团伙”、“凶手”负sentiment一致,搞成一伙很顺,偏要黑吃黑很拧巴。坑填上了,sentiment却拧巴,这不好接受。 李: 在 “打 【human-1】的…………【human-m】的【human-n】”的模式里面,“打” 最不可能的宾语是 【human-n】,虽然理论上不能排除。排除其他知识,“打” 最可能的O 是 【human-1】,打嘛,打不了那么远。动宾有某种就近原则的 heuristic 在。但是,如果 【human-1】的【human-2】里面,【human-2】有个很大的坑,需要一个【human】所有者,麻烦就来了:“二儿子” 恰好是 这么一个 【human-2】,他一定有个“老子” 的坑。除了孙猴子,没有老子的儿子是不存在的。于是,“二儿子” 要抢“李四”这个可能的老子,“打” 也根据就近原则想“打”这个“李四”。 白: 各种heuristics角力的最佳模型还是神经。 李: 打不赢还是打得赢,天知道。也许“神经”知道,谁知道呢。不知道神经什么时候能够把这些个鸡零狗碎的 heuristics 都考虑进去,省得专家费这个脑子。关键是,费尽了脑力,还是“测不准”。 白: “打李四的二儿子的犯罪事实”:李四占位置优势,二儿子占大坑优势,犯罪事实位置最远,论坑反而要“打”当萝卜,填“打”的坑不占任何优势。这就是角力。任何一种heuristics只是从一个侧面做贡献而已。但自身暴露的弱点也会埋下祸根。是没爹更坏,还是没“爹”更坏? 李: 因素一多,人肯定干不过机器。但前提是不是有一个巨大的标准答案在(带标),数据不稀疏,然后一锅炒去看角力。 白: “的”字的嵌套顺序也很有意思。 李: “的” 不知道什么时候开始进入,继而被滥用的。古汉语的 “之” 可没有现代的 “的” 这么被滥用。有了 “的” 汉语裸奔性得到极度夸张。修饰语之间的内在次序约束被打破,想到啥(修饰语)说啥 根本不过脑子 直接就蹦出来。蹦出来后加上个 “的” 就齐了,显得符合语法。没有 “的” 的话,一个 NP 的前修饰语 怎么摆弄 很有讲究 各种约束。超过两个 的 以上的 NP 没有好东西。语文老师应该一律打回去重做。 白: 比如“张三打李四的二儿子的女朋友的犯罪事实”。又出来一个“女朋友”是张三的,还是二儿子的,的问题。其实就是一个“当量”问题,一个坑顶几个位置。一个首选位置顶几个次选位置。等等。一个反过来抢萝卜的猪队友相当于扣掉几个位置。如此等等。这个“当量”也就是神经里的权值。 李: 想到另外一个语义计算的问题:在句子 “我穿中号鞋大吗” 里面,这个“大”是怎么个说法?“大” 前有四个先行者:1. “我” 2. “穿” 3. “中号鞋” 4. 整句:“我穿中号鞋”。“大” 貌似针对的是 “中号鞋”,这样的话,那就是后置定语或后置补足语了,但感觉总有一点不对劲。比较: (1) 中号鞋大吗 (2)中号鞋穿起来大吗 (3)中号鞋我穿起来大吗 (4)中号鞋对于我大吗 (5)中号鞋对于我的脚大吗 感觉, (5) 具有理解客观性形容词“大”所需要的完整信息:【对象:我】,还有 【小对象:脚】(二者是整体与部分的关系,这也是情感分析(sentiment analysis)中针对主观形容词(如“好”、“坏”)的大小对象的常见形态:“iPhone X 的屏幕很好”,其中【对象:iPhone X】,【小对象:屏幕】)。 “鞋” 可以从本体知识里面引申出【小对象:脚】出来,所以 3和4 在引申以后具有完整的信息。(1) 最差,需要对话双方有相当的默契和 shared 背景和上下文,才可以相互理解,否则就是无厘头,缺省了关键信息。(2) 缺乏大对象(主体),理解也不完整,反问或追问的话,应该问:谁穿“大”呢?“大”对谁而言呢? 郭: @wei “我穿中号鞋大吗?” 觉得你的问题问偏了。 首先,这句dependency parsing应该没问题。那么,问题其实在语用。就是说,你丢给我这句话,我怎么接? 先回想下你自己的逻辑: 1. 中文可用两极对照来指代属性:“大小”就是指“size” 2. 两极中的一极是default:“大小”里的“大”就是这个default. 按此,这样三句,其实等价: “我穿中号鞋 大 吗?” “我穿中号鞋 小 吗?” “我穿中号鞋 尺寸对 吗?” 这样,我已经有理由做一步 reduction,理解你其实要我帮忙回答: “我穿中号鞋?” 或者更简单地: “我 穿 什么尺寸 ?” 这就好办了! 李: 不错,不错。 【相关】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|8050 次阅读|1 个评论
【李白王89:模糊语义与真假歧义,兼论PSG与DG】
liwei999 2018-1-29 04:54
李: 里面关涉所有的词法现象,包括 open compounding (合成词),重叠(reduplication)etc,morphology is a mini-syntax 白: 这是西方语言学者的思维惯性所致,把形态变化外化了 李: 但 词法 与 lexicon 还是不相称的吧,前者是规律 后者是库。前者是“法”后者是“典”。 在语言学教科书里面,词法是一个动态模块,词典是一个静态模块(资源)。当然到了专家词典,那是NLP里面的创新,超越了传统的语言学界定。 白: 法+典 比如外界常说,汉语的morphology不发达,狭义理解形态变化不发达是对的,词法不发达就说不通了。至少我们构词法、离合词都算是发达的 李: 这里面其实还是有一些说法的。开放合成词 open compounding 是超出词典的构词法,占据了汉语构词法的大部。语言学上 通常认为这个东西处在词法句法的中间地带,不像词的词尾形态变化(inflection)和 语缀派生词(derivation)那样包裹在词法内部。因此,说汉语morphology贫乏也不无道理。如果从汉语的语言历史来看,就更是如此。 其实 无论从理论概念上 还是实践中,把词典绑架不了的所谓合成词这种中间地带的现象 看成是句法的初级阶段,而不是看成是词法,是合适的。(至于词典可以枚举的合成词,无论是黑箱子还是半透明,那都不是事儿,反正是围在词典的围墙内【离合词除外,需要有特殊的与句法接口的机制】) 理由如下: 1. open compounding 与句法的组合规律 总体上有一体性 2. 语素(lets say,bar 0)组合成合成词(bar 1),合成词组合成(初级)词组(group, bar 2),词组组合成(基本)短语(base XP,bar 3),基本短语组合成嵌套短语(bar 3.x),嵌套短语组合成谓语(VP, bar 4),谓语与主语组合成子句(clause,bar 5) 这一切其实都是一个句法单位(我的导师刘先生称之为动态句素,非常精辟)越来越大的过程。 在 bar 1 与 bar1 中切一刀,前者叫 morphology 后者叫 syntax,其实有相当的任意性。主要依据是发现 open compounding 与词典枚举的 compounds 在句法进一步组合过程中,基本上可以同等对待,而且词典枚举不枚举也是有相当的任意性的。 这其实就是 structural configuration(x-bar concept) 利用离散值在逼近嵌套(或递归)句法组合的过程中的归类角度而已。 上面的离散值分为 5 个 bars,比通常的 x-bar theory 细一点,换一个角度去抽象或 generalize, 也可以分为3层:词,短语,分句。也可以分为四层:词,词组,短语,分句。总之,既然这些分类具有任意性,而层层组合又具有一体性,那么把合成词组合排在句法里面垫底,是合理的。 今天还想到一个与此相关的句法界的老问题:说的是 有一种结构歧义 普遍存在 但一般也不影响交流 说者是模模糊糊说 听者是模模糊糊听 只是遇到较真的人 或者说段子抠字眼的人 才会把歧义凸显出来说事儿,多数人不较这个真。 说的是修饰语所修饰的句素的范围歧义:mod1 mod2 H,到底是 ] 还是 H]? 逻辑语义上,这是结构歧义无疑,对应了不同的解读和至少是细微的语义差别,但实际交流中,who cares 有意思的是,by default 乔姆斯基短语结构分析法基本是第一种结构分析,mod1 不是修饰 H,而是修饰 【mod2 H】这个group;与此对照,by default,依存文法采用的是中心词分析法,说的是第二种解读,mod1 修饰的是 H,mod 2 也修饰的是 H 对于这种普遍存在的结构歧义,两种解读都可以找到各自的语言事实依据(XOR),也都有更多的语言事实支持这种“真歧义”,但这个真歧义多数人不介意而已。 提出这一点是想说:1. 这种歧义在多数交流和落地场合 可以打马虎眼 不必认真对待;2. DG 和 PSG 默认出来的结构在这个普遍现象中是相左的,不等价,两个表达法互相转换的时候,需要注意这一点。 wang: 学习了 白: 靠H代表,才能统一。 李: h 的代表性与人民代表类似。说是代表了人民吧,好像也不对,人民对他通常无感,他对人民也不负责,说不能代表吧 法理上的确是代表。还是语言共同体聪明:糊里糊涂说 糊里糊涂听。邓小平理论就是 不争论。语言与逻辑的分野 在这里表现最充分。语言使用中从来没有感觉出那么多的逻辑歧义。交流绝大多数时候真滴就是一笔糊涂账 大家还都基本认账 只有偶然遇到什么特殊情形 才较真起来。特殊情形包括 说段子。也包括 打官司。因此法律合同与口语相差甚远 那是把所有人当贼防 不得不采取的表达方式。 王: 说得好! 白: 说something是可以糊涂的,没问题,太正确了。说which one是可以糊涂的,有点难。mod1是形容词-副词兼类,mod2是只能作定语的成分时,存在副词优先的现象。 “好漂亮的花”不是【好 【漂亮的 花】】而是【【【好 漂亮】的】花】 王: H就是公司的法人代表。一个公司总得有个头H(Head),来代表公司。通常情况下,基本上H就代表公司出来说话,在该出面的时候,能承接的很好,能保证以企业级为单位的事务运转,简洁而高效。--这个时候H就是代表很好。但他完全代表公司的全部数据面吗?不可能,也不需要,只要能有这个H牵头,且能保证各层结构有序运转就好。员工大众需要有这样个代表,企业上头管理部门,也需要这样一个代表,而这种衔接,就是最经济的。语言学,想必也类似。 在H完全代表不了的,情况下,可能再需要配一个或几个副手,一起代表就基本能把问题解决了。H有时信息不自足的情况下的一种选择。比如,介宾情况。介也许就是介绍主人 的介绍人吧。 @白硕 照白老师这样一说,感觉还是该分开的情况还是得分开,细节工作看来还省略不了。只有那些不必分开或不值得费功的情况,特别“左右搭接两相宜“的才不必细致分开。 李: 顺着前两天的思路,一个观察:有的歧义不重要,介于真歧义伪歧义之间。逻辑上的真歧义,语用上的伪歧义(因为人普遍不 care,因此也没必要要求电脑去 care,怎么着都可以)。譬如:“昨天-发布-了”,在 PSG 中,下列的结构歧义: ((昨天发布)了) vs (昨天(发布 了)) 到了 DG 就没有歧义了(昨天(发布)了),反倒省心。 【相关】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4485 次阅读|0 个评论
【NLP答问2:实体语义和逻辑语义】
liwei999 2018-1-28 20:53
新人: 就是觉得自己的问题有些太外行了,不太好意思随便问 答: 外行内行,都是一个过程,只要有兴趣就好。《 李白对话 》 天马行空,属老人促膝恳谈; 也可以来一些答问对话,为缩小代沟做点实事。 嗨,上篇《NLP答问》刚贴到 微博 不到两小时,就2.4万阅读量了哈。可见答问的话题还是很符合公众兴趣点,人工智能教授马少平老师等有推荐和评论: https://weibo.com/2316531634/profile?topnav=1wvr=6is_all=1 你们说得都对//@南大周志华:目标代码吧,不是数据结构 //@马少平THU:用计算机实现不这样还能怎样?//@第五逻辑:所有的场景应用都是转化为计算机可执行的一种数据结构,这就是现阶段所谓的AI @立委_米拉【NLP答问:关于parsing 和自然语言理解】 立委_米拉 7分钟前 来自 微博 weibo.com 不争论 不争论。小平连大是大非姓社姓资都不争论,咱数据结构和目标代码有啥争论的。重要的是面对冰冷的现实,“这就是现阶段所谓的AI”,与自主机器人或机器智能没有一毛钱的关系,都是人类自己跟自己玩,机器不过就是玩具(或者也是吹牛的道具)而已。没霍金之流吹得那么高大上。 新人: 目标代码和数据结构不是一体的吗? 答: CS的标准说法是: 程序(目标代码)= 数据结构+算法 我们在讨论的时候,侧重点是“理解”的表达形式(representations),就是结构树(tree),或图谱(graph),强调的是数据结构的一面。“理解”作为(智能性)动词,当然有算法的一面。所以周教授说是目标代码,才全面。 新人: 这样啊,受教了 答: 数据本身不一定是可执行的代码。结构树不过是“理解”的一种内部表达,无论是达成这个理解的过程(parsing),还是利用这个理解去落地到应用(semantic grounding to applications),都有一个NL算法的事儿。 前者(parsing)在我这里就是 cascaded FSA++ 的实现算法,后者(落地到信息抽取和数据挖掘场景)就是一个 subtree matching 的算法。这是就关涉算法的机制(formalism)而言,其实利用这个算法机制对系统各个模块以及模块中问题的处理过程,也还有个语言学算法的思路在内,不仅仅是在多层系统里面先做什么后做什么,还有各种数据流接口的设计等,如何防止错误放大,如何协调共性和个性,都与算法有关。 新人: 结构树是“理解”的一种内部表达,这个内部表达中已经包含语义的部分了吗?还是说语义包含在另一种内部表达的形式里,多种结构组成了“理解”的形式? 答: 结构本身就是最重要的语义部分。这是语言学的常识,也是多数计算语言学家的共识:学界术语叫 semantic labeling,在中国的NLP界,由于董振东前辈30年前的创新研究,这个语义被命名和普遍接受为“逻辑语义”。理解了一句话,最关键的就是要搞清楚一句话里面的那些语词概念的逻辑语义角色:【谁】(逻辑主语,施事)【对谁】(对象补足语)【做了】(谓语)【什么】(逻辑宾语,受事),【何时】(时间状语),【何地】(地点状语),【如何】(方式状语),【为什么】(原因状语)等等。 深度解析(deep parsing)所建立的结构树或图,就是要填写这些逻辑语义角色,填写好了也就是达成了语言理解的核心。 新人: 实体语义对于理解一个句子不重要吗?好像绕回了之前说的WSD那篇…(【 NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】 ) 答: 什么叫实体语义?实体对应的是NE或NP,在句子中就是一个元素。在知识图谱里面,表达成一个画像(profile),uniquely 对应了真实世界的一个实体。 实体语义的重要是在领域落地的时候,而在领域独立的语句分析阶段,只要知道类别就好了,实体的语义或歧义(如果有歧义的话)可以先绕过去的。譬如,“约翰”这个实体,知道他是一个人名(NE)就够了,至于他究竟指的现实世界哪个实体,对于理解一个里面提到“约翰”的那个句子,并不重要。 但是如果要建立领域的知识图谱,实体语义就重要了,否则描述这个约翰的事件,张冠李戴到另一个约翰头上,语义落地的偏差就会把领域知识图谱(事件场景以及个人画像的语义网络)搞砸。 我这篇【 NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】 )文的本义是说:WSD 一般来说不是 parsing 的瓶颈,而是可以推后到落地的时候去做区分。 新人: 是,想了下,只有在具体场景下,才能讨论实体语义。 答: 换句话说,语言学意义的理解首先看到的是结构和角色(“项链”),然后才是角色里面的每颗“珍珠”。所以说 deep parsing 是自然语言理解的皇冠和核心,是自然语言落地的核武器。 新人: 感觉清晰了很多。终于不纠结实体了… 答: 关键是,实体的歧义通常不影响结构和角色定位(即逻辑语义),而一个语句与其他语句的语义区分,主要就是结构和角色定位。这里面细究的话,逻辑语义结构里面有核心和边缘的区分。核心就是所谓 argument structure,这是以谓词为核心挖的几个“坑”,需要实体参与者(萝卜)来填坑的的结构,表达的是语义主干:【who】 DID 【what】 【to whom】这类。边缘的语义主要是可有可无的状语,可分为一二十种,表达的是语义的细节:时间,地点,条件,原因,让步,结果,程度,等等。 新人: 昨天插入语的那个badcase,是不是属于边缘的语义的部分? 答: 插入语当然是边缘语义,非常的边缘,提供某种语气。 新人: 感谢您愿意回答我这些基础的问题。我得赶紧补补课 答: 不必拘束。在你这个年龄段,保持好奇心和兴趣最重要,不要怕吃苦,一头扎进去几年,才能真正体味。我有个n万小时定律(《 聊聊 NLP 工业研发的掌故 》),虽然夸张了一点,但说的就是必须要有足够历练,才能一览众山小。 【相关】 【NLP答问:关于parsing 和自然语言理解】 【 NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4326 次阅读|0 个评论
【李白之50:符号战壕的两条道路之辩(续)】
热度 1 liwei999 2017-6-19 08:14
白: 我的思路是:句法维护纯二元关系,模式编码进subcat,直接对接语义。纯二元关系对模式既兼容又有更大的robustness,不用白不用。 李: pos 支持句法做粗线条分析 subcat支持逻辑语义做细线条分析? 白: 必须的 李: 那倒未必。可以结合做的。显式的句法语义关系可以一起做, 没有句法关系的隐式逻辑语义可以推后。subcat 结合句法语义。 白: 模式方法中,小词的缺省和成分的倒置,只能认为是不同的模式,不穷尽则不work。二元关系方法中,缺了小词也好,倒置也好,在subcat那里都可以重构出来。输出是现成的,既可以跟着cat一起输出,也可以等语义落地了再输出。这是个简单的配置问题。 李: 缺省不怕:就是 optionality,不是模式必需的。倒置的确需要增加模式,没办法,模式也是线性。 白: “我紧张,一见到那个人。” 省略了“就”,而且倒置。但是在二元关系方法下,这都不是问题。 李: 但n元模式,在多层系统中,并非全排列模式。模式负担完全可控。也可以类似于二元的样子,一层层做:起码动宾与主谓通常被认为是不同层次的组合,无需SVO全排列。推得极端一点,n=2,多层n元就成了2元,也是可行的策略之一。 白: 对“一”的subcat标注,已经隐含了对“就”的“脑补”。 语义frame任何语言中都不必然是二元关系,这层落地映射,本来就是缺不了的,并不是因为模式而特设的。 李: exactly 白: 句法专注二元关系,好处多多。 李: 1 【一VP(S)就VP】 2 【一VP】 也就是两条模式捕捉的事儿。都很直观 intuitive。捕捉了,还不是要怎么玩语义怎么玩。 白: 这实际是语义直观,跟那些多元关系是同等对待的。 李: 第1个模式涉及5元,第2个模式是bigram,我说过,模式也就是以三元为峰值的正态分布。并不是想象的那样组合爆炸,完全在可掌握之中。最大特点还是其接地气,直观,容易 debug 和维护。不就是给语言结构拍照吗?所谓句型练习(pattern drills),人学语言也就是这么个事儿,我们当过外语老师的,都知道 drills 的重要。 白: 那个完全是UI的问题 李: 如果你做二元配对,我心里想的是五元模式,【一VP(S)就VP】 这样的模式,你如何把二元的过程UI到我感觉舒服的五元模式呢? 白: 双宾语结构也是一样啊 二元的过程是在机器里发生的,五元模式是结果,不在一个频道上。边加够了,五元模式就出来了,就这么简单。 李: 机器发生的过程 不是基于词典的标注吗?这个标注不需要人去做 去维护 去 debug? 白: 但过程总是一个一个边加的 李: 那是因为你的 parsing 是 PSG的 parsing 过程,虽然表达的是DG。这个 PSG 的过程,是遇到任何物件都不能跳过去,要一个一个的叠加组合。 白: 能跳,否则就无法处理交叉了 李: 从你画的图看,还是一个不跳地在叠加,只不过叠加的顺序可以不同,然后导致一些远距离二元关系的最终建立。(当然你的X见人见鬼,先加上再说,也算是一种模糊应对或“跳过”。) 换句话说,parsing 的总过程与经典的 chart parsing 没有看出大的区别。 白: 这理解是错的 李: 可能。也许我看得不够仔细。 白: 从数学上看,模式引发的步骤不是分析树的“构造”而是分析树的“映射(变换)”。这个映射环节引入PSG还是引入DG的差别是细节的差别,核心的精神都是一致的。如果你说的“跳跃”意味着“映射”的引入,我目前确实没有,但 1、这并不影响在较上层的节点上,映射的结果和非映射的结果会得到相同的语义落地。2、如果一定要引入映射,与我现在的体系也毫无违和感,可以兼容处理好的。 另外,不包含映射的技术方案并非都是一丘之貉,彼此之间可以有天壤之别。这实质上是模式驱动的“一揽子”填坑动作,可以加速分析进程(就是你说的“跳跃”),又不破坏填坑的基础架构。但是我要说的是,既然看到了这个实质,映射的触发就不必拘泥于从左到右的模式匹配,一定程度上的词袋模型一样可以触发!实际上我在subcat里面做的事情就是这种不完全信息的模式触发,只不过做在了语义层。语义层都能做,回头做句法层纯粹就是锦上添花,照顾语言学家的UI感受而已。我不看好从左到右依次匹配,但我认同通过映射实现跳跃。语言学家不应该成为排列组合匠, 更不应该为某项排列组合的缺失而背黑锅。除非该项排列组合有明显不同的语言学意义。此其一 另外一个因素就是模式在激活之前的状态一定要有一个载体,而且这个载体必须跟着分析进程动态维护。伟哥有分层的fsa做这个事情,我是用词负载的subcat(实际上就是词袋)做这个事情。词袋的好处就是对排列无感,只认组合而且允许组合缺斤短两。在某些场合,词袋的部分填充会造成激活歧义。所以要用“状态”记录这些有歧义的部分填充(套用时髦的量子话术,这就是几个候选词袋的“叠加态”)。随着分析进程的展开,叠加态会“坍缩”到确定的词袋上,完成激活。 李: 大赞。...... 先赞后辩。 没全看懂 但似乎又懂了 貌似透过做法看实质 有不少共同的观念。消化消化。 白: “人肉”本意是名词。在“人肉搜索”这个短语中是副词(N降格为S+),意思是用活人去深挖特定对象的隐秘信息。再简化一点去掉“搜索”二字,“人肉”就成了动词了(S+升格为S)。升格降格操作的活标本啊 李: 人肉搜索 不是宾语提前?把衣服扒光 不是人肉? 白: “这个公司的所有人都是好样的。”居然有歧义。 李: “所有-人” 歧义(hidden ambiguity): 单数 vs 复数, 复合词 vs NP,黑箱 vs 白箱,  vs  白: “发言的是我们公司的。” 李: 1 -- NP 2.  -- AP 1 + be + 2 -- 1 belong-to 2 “发言的是我们公司的。” -- belong-to -- plan-V (verb compounding like) 2. -- S Pred 3. -- Topic S Pred 4. Topic S Pred(/O) -- O S Pred (所谓先耍流氓后结合:有“做-作业”的可分离动词的搭配关系更是坐实了远距离勾搭) 5. Vt NP -- VP 6. Vt -- VP(/O) 7. 是不是不 can be treated as one compound 小词 whether (or whether-or-not) 白: 是你打算,还是作业打算?是你打算做作业,还是作业打算做你?由什么决定?就本例而言,语序已经完全乱套了,只有subcat能决定。好在我们知道,计划类动词具有穿透性。打算的两个坑,是human、event;做的两个坑,是human、thing。这两个human就是穿透确定的共享萝卜的坑。往前面看,能填的只有“你”。“做-作业”离合词的远距离锁定,从另一个侧面做了神助攻。所以,不管前面“作业”和“你”的顺序怎么折腾,它们的subcat如同狐狸尾巴,总会泄露真正的结合方向。我们不需要S/O/Topic这些名目,直接根据萝卜和坑的subcat相谐性,就可以选择行的,排除不行的。也不需要针对不同语序设置不同模式。跟着词条走的cat/subcat就足够确定目标了。 “你懂的。”其中的“的”就是句末助词,标记为+S。“我是不懂。”其中的“是”是表强调义的副词,标记为S+。“你是不懂的。”其中的“是”和“的”借助这两个修饰语标记完成了绿叶的使命,把红花凸显出来。但是这种做法的好处更在于,“是”或者“的”之一缺位时,句法上照样work。红花之间的关系照样不变。不需要针对几片绿叶的有或无的排列组合一个个遍历。 李: 这话说的,好像世界上就有人有直道不走,偏要走弯道似的 哈。白老师雄辩。 排列组合遍历很多时候是免不了的,除非可以证明这些绿叶红花的排列没有意义, 所有绿叶都是可有可无的。语言的最大形式特点之一就是排列,或曰线性次序。概念通过语词,关系通过小词以及词序,线性地流进我们的耳朵。小词和词序,作为显性语言形式(参见 【立委科普:漫谈语言形式】 ),其功能本质是一样的。由于信息和形式的冗余,厚此薄彼可以作为一个可行的策略,作为一个精算师的算法之一,但拔到理论高度说,让小词负载结构,赋予重任,同时忽视词序来取得鲁棒,总是很难让人信服的。 汉语的省略小词,是如此普遍,就跟汉语的词序灵活一样,都给鲁棒提出挑战也留下空间。你可以厚此薄彼作为一个 parsing 策略,别人也可以厚彼薄此作为一个策略。更有人二者都不厚不薄,利用模式,用?(optionality) 传达鲁棒,用显性排列形式的 obligatory 出现(何时、何地)来表达精准及其语义落地。有何不可?有何不好呢?能想到的不好都是实践层面,而不是理论层面,譬如:(1)可行吗?组合爆炸,排列得过来吗?(2)即便不组合爆炸,有本事伺候排列吗?(可维护性) 可行性的问题已经有答案也有实践,就是多层。Note that 这个多层也不是单单为了可行而采纳的。多层反映的是自然语言的 configuration(参见乔老爷杆杆理论,X-bar, 科学网—乔氏X 杠杠理论以及各式树形图表达法 ),也是语言本质之一,譬如动宾(VP)与主谓对于多数语言就天然不在一层。 多层排列的可行性,其理论基础在于人脑记忆的有限,自然语言的可学习性。如果语言本质就是排列的组合爆炸,人也无法学习语言了。我们所做的不过是瞄着人 parse 语言的样子,去模拟实现它。符号逻辑的模型透明性和可维护性在多层模式里面得到了彰显。 第(2)个问题是本事问题。的确多层排列算法不是每一个人都玩得转的,就如小词负载结构兼以隐藏知识的大数据中间件除了白老师迄今无人能玩一样(甚至无人想到了这条路,参见 【李白之15:白老师的秘密武器探秘】 )。两条路线都严重偏离主流,主流人才的多数或者无视或者没有历练/本事来玩转这任何一条路线。 正如尺有所长,寸亦有所长。如今是各自玩各自的。区别在于,这个战壕自认为可以对nlu挖掘更深(这一点在下确信无疑:毕竟坐井观天一辈子了,天可能还是没看清,但井的深浅是清楚的,如数家珍;而且不需要做天外比较,就可以得出结论,因为自然语言在这口井里面基本是已经见底了),主流的战壕在我们不过是摘除低枝果实(这一点无法确认,保不定哪一天主流就突然从导弹演化为核弹,也未可知,彼此祝好运吧)。 白: 小词“可”负载结构,不是“仅”小词负载结构。语言的层次性在技术上“可”通过分层fsa消化,不是“仅”通过分层fsa消化。模式也不是“仅”通过负载结构的小词消化。同样负载结构的实词、算符优先序,都在推波助澜。一个句法体系和技术体系,一些特色或许突出,但贡献是多个特色联合作出的。 我不希望受众被误导。 李: 哈 我也不希望误导,或被误导。 其实,因素比重的差别,还是构成 了技术路线的不同。也许用“小词负载结构”(的因素)来概括或代表白老师的路线,就好比以“多层专家词典排列模式”来代表的 立委路线(听上去好耳熟,对了,历史上有过被毛委员往死里批判的立三路线) 一样,都是不 准确的。但仔细看过讨论系列的会了解其中的路线之别。 二元句法在前,逻辑语义在后的策略之所以可以成功,我觉得是因为有了“大数据中间件”的助力,否则很难想象那么简单的句法操作可以应对那么复杂的语言现象。所以,让我 wonder 的主要是大数据中间件,如何训练如何使用的。而对于二元本身,特别是小词负载结构,相对于多层专家词典的模式匹配,我没看出多少优势。如果硬要评价 pros and cons,从我的角度,前者长于简洁(也许也增强了效率)和鲁棒,后者更符合语言学家的语言认知和描述习惯,可以更加从容地对语言做精细而不失鲁棒的描述。 重要的是,二者同属符号主义,同一战壕,也似乎都可以包容对方。 【相关】 【李白梁49:同一个战壕的两条道路之辨】 【李白之16:小词负载结构与小词只参与模式条件之辩】 【李白之15:白老师的秘密武器探秘】 【立委科普:漫谈语言形式】 科学网—乔氏X 杠杠理论以及各式树形图表达法 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4155 次阅读|2 个评论
【李白之47:深度分析是图不是树,逻辑语义不怕交叉】
liwei999 2017-5-20 00:01
白: 还是没说交叉的事情: “他的学习成绩优秀”,要不要管“他”和“学习”之间的关联? 管了就不是树。不管,差了点什么。 李: 好,现在说交叉。 交叉在语言学课上是一个常讨论的话题。基本上语言系统的部件有一个大体的层次:词典、词法、句法、语义等。这些部件是有一个宏观层次和优先次序的,这个没问题。交叉出现在一个层次的东西,有时候想跳到另一个层次去。说白了就是,交叉就是违反了部门独立性原则。部件的层次架构是原则性的东西,通常不该违反。但自然语言的复杂性就在,有了原则,偏偏有人要违反,那么系统作为一个制度,就必须有一个应对。 “他的学习成绩优秀”:学习成绩 是词法,合成词。“他-学习”是逻辑主谓。“他”作为句法单位,硬要钻进词法(“学习成绩”)内部,这样才能构成完整的逻辑语义全图(graph, 不是严格意义的树!),才能说达成了语言理解。这就是交叉的现象。作为原则,句法词法是隔离的,语言学理论里面给这些原则起了不同的名字和术语,且不管它。总之是,句法单位没有道理进入词法。词法出来的词是句法的最小单位(atomic),所以对于句法,合成词就是一个黑箱子。论句法功能,合成词与非合成词,完全一样。但是逻辑语义不管这一套。逻辑语义是超越语言学句法词法的术语语层次的东西。交叉出现在,我们在句法关系与逻辑语义关系的表达(representation)中,为图方便或其他原因,硬要把它们归拢到一起。 白: 事情可以完全不这么处理。如果秉持句法管谁跟谁有二元关系、语义管是什么二元关系,那么一切不合语义这双脚的句法鞋子都可以动。交叉是自然语言语义表达的客观需要,因此一定会在句法中得到反映。在技术处理上,二元关系的发生位置相对于构成二元关系的词的本源位置可以有所差异或者说变化。二元关系并没有探入词法内部,而是词法本身完成了对外接口的乾坤大挪移。比如,“学习”和“成绩”结合的时候,承认“成绩”是head,同时就把自己的残坑过继给了head,也就是说,“他”找这个“学习”留下的残坑,不是找“学习”要,而是找“成绩”要,这样就消解了交叉问题。 李: 乾坤大挪移应对的是POS约束, 如何应对语义约束: “他”与“学习”是语义和谐的,“他”与“成绩”没有同样的相谐性(当然,“成绩”也要求 【human】,但那是另一种二元关系的相谐,属于赶巧了,不是原来的主谓关系的相谐要求)。 白: 过继的时候把subcat也一并带过去,不存在这个问题。 李: 操作上不宜、不易。不宜是因为,两个subcats混杂了,“成绩”原本的本体概念与过继来的本体概念,混在一起了。 白: 我们检查相谐性看的是单子singleton。学习的一个坑有human这个subcat,这个坑过继给成绩,只是位置上过继,但是subcat并没减少或改变。 李: 不易是,一个词的本体概念及其背后的常识,是这个词的灵魂,词形不过是躯壳,没有道理轻易出卖灵魂,哪怕出卖对象是你的老板。 白: 不是这样。中心词既然负载结构就必须包容结构。不是向老板出卖灵魂,而是老板包容了你的灵魂。 李: 那就具体说说,这个灵魂怎么转移的(出卖还是包容)。“他”是【human】, “学习”是【huam-action】, 因此“他”与“学习”是(逻辑)主谓相谐的。注意,这里已经把问题简化了: 只是一个相谐的代表或标志,其实主谓相谐包含各种强搭配弱搭配。也许有一个逻辑主语要求的是一个非常细线条的语义类别,不是简单的一个【human】这种层次的类别就可以包揽。 白: 成绩是【action-information】,学习成绩是【human-information】, perfect。这又要说到unification。 李: 说具体点。action-information,怎么就表达成了 human-information,是一个本体概念节点 还是两个本体概念节点(的混合)? 白: 相谐不是两组符号字面相等。类型演算啊。 输出是information没变,输入变了,级联的整体效果。是输入human,输出information。没有类型演算的ontology,干不了这个。 李: 当“成绩”遇到“学习”,在合成词形成的时候 input is: V(human-action) + N(information) / human-action output is ?? human-action 的坑满足了,填进去以后,这个头词“成绩”怎么过继,类型演算的结果形态是什么?从道理上,修饰语不能改变头词的本性。因此“成绩”仍然是information, 而不是human-action,尽管它吃掉了 human-action。 白: 不改变输出,改变了输入。 李: 改变了对subcat 的输入要求? 白: 学习是event(human), 成绩是information(event), 学习成绩是information(human)。 李: 我拿放大镜看看这个乾坤大转移。先下线。貌似形式化演算中规中矩。但如果subcat不是那么单纯,如果是强搭配 直接量呢?也可以大转移? 白: 游泳?当然可以。这类,泳就是action,游就是commit,所以,不需要出卖灵魂,老板会包容你的。这是subcat之间的类型演算,完全是结构制导的,残坑挪移后,位置已经没有交叉。语义那边不存在与挪移有任何违和感的东西。没有“不宜”。至于“不易”,说实话还真是有一点点小门槛的。commit太虚,简直就是可以穿透的: commit(action)=action 李: 明白了:过继的是句型信息(对坑的要求,SUBCAT),不是本体全部。 问题过继不是目的,目的还是要建立“他-学习”的主谓关系。而不是“他-学习成绩”的主谓关系,后者不make sense。换句话说,过继了input的要求,逻辑语义output却不能转移,不能张冠李戴。 白: 来源还在,并不因为挪移而抹杀。过继是现状不是历史。 李: 还是有个机制要“进入”词法,才能联系逻辑。 白: 纯二元关系看,交叉是真实发生了的。 李: 好,有理由认为总有办法最终搞定“他-学习”的逻辑语义的二元直接联系,从句法进入词法。 白: 从词负载结构的观点看,交叉这一页可以顺利翻过去,仅此而已 李: 交叉不是关键。 白: 对 李: 这只是一个帽子,扣帽子可以用,实际不必理他。作为语言学(内)原则,有其合理之处,因为语言学总体或主体是形式层面的理论。但逻辑层面,这个不算啥。 白: 句法不拉语义后腿,句法也不违背所谓的原则,两全其美了。关键是,挪移有了语言学上合理的解释,不仅仅是头疼医头,见招拆招。 李: 第二个相关问题是:刚才所说的演算(SUBCAT坑的挪移或过继)是典型的符号逻辑, 而不是大数据中间件的相谐性的查询。我们可以在符号逻辑操作中,把对坑的【human】要求挪过来,但是我们如何在语义中间件查询中去check非符号的条件。譬如:“他 - 学习” 如果是句法的直接二元关系,我们很容易查询中间件它们是否相谐,而不管这种相谐的符号表示是【human】还是直接量(强搭配)。但是,当“学习”淹没在“学习成绩”的组合里面,如何一致地调用大数据的相谐呢? 白: subcat有两个作用,一个反作用于句法,辅助做出逆向选择;另一个衔接语义落地。大数据也辅助做出逆向选择,甚至大数据就是用带subcat标记的词典训练出来的。但是语义落地不可以没有subcat,只有好subcat或坏subcat之分。我们不对语料做标注,但不等于不使用带标注的词典。相谐性是原本二元关系的相谐性,不是跟stepmother的相谐性。 李: 可以想见的是: in NP + de + V + N, the unsaturated subject of V will still try to be paired with NP in checking the middleware based on big data even if V is eaten up by NP. subcat 句型的原始的完整内容其实很丰富,不是简单的 vi, vt, 等可以涵盖的 从input这面,它规定了:(1)几个坑;(2)坑在哪里(位置和词序);(3)坑的句法形式(包括直接量);(4)坑的语义约束(【human】等) 从output这边,它把每一个按照上述规定的坑,都map到确定的逻语义角色去,是为语义落地。这样一套丰富的内容,在“他的学习成绩”这样的坑过继的机制中,直感上难以面面俱到。 白: 我得睡了,明天一天的会。 李: 晚安。 SUBCAT是半部语言学,而且外接语义,谈不尽的焦点话题。已经谈了n次了,还可以谈多次。 白: 坑,一经产生,就是一个独立的存在,subcat的归属是终身的,不依母体的萝卜去哪儿了为转移,也不依自身的结合位置被挪移到何处为转移。还是拿“王冕死了父亲”为例。从语义角度看,“父亲”挖了一个subcat类型为human的坑,同时对外提供一个subcat类型为human的萝卜。“死了”挖了一个subcat类型为human的坑,对外提供一个subcat类型为event的萝卜。当“父亲”和“死了”结合,“死了”的坑饱和了,“父亲”的坑还亏欠着,那么“死了父亲”这个短语作为一个整体,就还有一个subcat为human的坑对外亏欠着。“死了”既然全权代表这个短语,当然也就继承了这个短语内部对外的一切债务,于是这个亏欠的human坑,就过继到了“死了”的头上。外面的萝卜(王冕)必须找这个“死了”填坑,“死了”自身亲生的坑虽然饱和了,但是对“父亲”过继来的坑却必须负责到底。我们在句法层面,用N S/N +S N/N这个序列,很清晰地实现了结构制导。 李: “父亲”挖了一个subcat类型为human的坑,同时对外提供一个subcat类型为human的萝卜,后者(萝卜)是本体概念,前者(坑)是句型预期。 白: 句法和语义是同步的。“了”这类萝卜皮的语义作用机制暂略,后续再说。 李: 所以 / 后面是坑,也就是 arg, +是 mod,随机的被吃掉的对象。+S就是被事件谓词S吃掉的东西。这个coding里面不包括词序? 还是没看清“死了”的逻辑主语 怎么从“王冕”转成了“父亲”。从左向右parse ,先跳进坑的是“王冕”。parse 到“父亲”的时候,S 没坑了。按照常规,这个萝卜应该降格,譬如 降格成“化外的”称呼语:王冕死了,父亲。 白: 这涉及到算符优先机制。总的说就是,单坑的动词,右侧填坑比左侧填坑优先。 “台上坐着主席团”,也类似。 李: 有理。 走了很多能人。 白: 甚至也包括形容词:春风又绿江南岸,宁可“春风”先shift,保证“江南岸”优先填“绿”的坑。 李: 这个结构制导清楚了。请教一下:根据规定的优先次序(parsing算法),在萝卜跳进坑的时候,查还是不查语义中间件?如果没有其他的竞争者,就不查了吧?就是说 human 这种东西在与N/N 或S/N结合的时候,有没有用到?也就是在决定第一个NP“王冕”是 shift 还是跳坑的时候,要不要查左边的NP“王冕”与右边的NP“父亲”,看二者的力量对比?还是不管三七二十一,就是右填坑优先。当然在这句,即便查也是力量相当。但是应该会有力量悬殊的情形,这时候右优先的决定是不是就会受到调整改变。 (1a)中文切词作为领域早已终结。 (1b)G教授终结了中文切词。 (2a)门开了 (2b)开了门 (2c)张三开了门 (2d)门张三开了。 (2e)张三门开了就驱车离去。 (2f)张三门开了就闯进来。 最后一句(2f)谁开的门?不知道。开门者不大可能是张三自己。但在“张三门开了就驱车离去”中,开门的一般认为就是张三本人。 白: “作为”是带坑的后置定语+N/N. “终结”如果是单坑,“中文分词”填坑恰如其分。如果是双坑,两边都有位置。“开”是双坑无疑。“就”这里涉及到合并(merge)操作的指向问题。如果按default,标配的指向是右边合并到左边。但是在有特殊标记的情况下(比如被副词“就”修饰)就反其道而行之,左边合并到右边。算符优先机制会让右边所带的坑优先选择萝卜。也就是说,先保证“闯进来”的是张三,谁开的门,可以不care。 【相关】 《泥沙龙笔记:漫谈自动句法分析和树形图表达》 乔氏 X 杠杠理论 以及各式树形图表达法 【语义计算群:句法语义的萝卜与坑】 《 语义计算沙龙 :基本短语是浅层和深层parsing的重要接口》 【李白之29:依存关系图引入短语结构的百利一弊】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4874 次阅读|0 个评论
【李白之40:逻辑语义是语义核心,但不是全部】
liwei999 2017-4-27 23:31
李: 不晓得是啥:不晓得 是啥 不晓得【萝卜】是啥。 这个宾语从句中的主语的坑省略以后,萝卜哪里去了呢? 萝卜不晓得是啥 不晓得是啥的萝卜 一口可口可乐喝完, 吐出一块不晓得是啥的东西 白: “拿一些自己都不晓得是啥的东西来糊弄别人。” 定语从句反而是自然的 李: why not 不晓得 NP ? “晓得”的 subcats 既可带宾语从句,也可带NP宾语的: 不晓得啥东西 不晓得这东西 then, why the parse 的东西] is better than  ]?回答清楚这个问题,貌似需要一点说法。 白: “他是个连微积分都不晓得是啥的东西” 又回去了。“晓得”带小句宾时,不满足穿透性,就是说晓得的逻辑主语并不必然成为小句的逻辑主语。这样“不晓得是啥”作为一个整体进入定语从句的时候,就出现了两个坑,不知道反填哪一个,这是要避免的。 李: 是吗? “我不晓得到哪里去” == 我不晓得【我】到哪里去。 白: 不一定,可自主决策类,可以穿透。一般性的动词,无法穿透。 李: “不晓得是啥的东西” 与“狂吠的狗”应该是一个逻辑。 白: 狂吠是不及物的,一个坑。没有歧义。 李: “不晓得是啥” 也是vp 也是不及物 或 宾语已经内部 saturated。 白: 不晓得是啥,两个坑:a不晓得b是啥。但“连微积分都不晓得是啥”,微积分填掉了一个坑,就没这个问题了。b锁定,只剩a了。“东西”必然指“晓得”的逻辑主语。只剩下这个可能。东西只有在负面情感时才可指人,虽然逻辑上包含人。连……都不晓得是啥,显然承载了这个负面情感。 李: 对。两个坑。但是 b 坑比 a 坑更具有必填性。 在“不知道是啥的东西”里,“东西” 与 “晓得” 没有直接关系, “东西” 微观上是 “是啥” 的主语,宏观上 是 “不晓得是啥” 的主语。“这玩意是大家都不晓得是啥的东西。” 这里“晓得”的主语是“大家”。 白: 有“大家”,先填掉了逻辑主语。“东西”拔不走了。 李: “晓得”的第二个坑 是宾语子句。“东西” 显然与 “晓得” 没有直接关系,因为根本就没坑了, “晓得” 已经饱和了。如果引进短语结构ps,可以说 “不晓得是啥” 这个 vp,还有两个坑。有两个坑的 vp 听上去很奇怪。但在汉语的所谓 “双主语句式”中有可能存在。 白: “是”的两个坑,“啥”占了一个 晓得的逻辑宾语是X,S比N优先,顺序比逆序优先。 “这玩意儿他们不晓得”。这种情况又可以了。晓得的逻辑主语跟另一个不兼容。又多出来一个。整体上还是相当于一个及物动词。 李: 大主语 topic,有可能是一个 arg 的坑 也有可能不占坑 那就是 mod。小主语必然填一个坑。 白: 双主语有两种情形,一种是大小主语,往往有part of联系;另一种是宾语提前或话题化,这种没有part of联系。有part of的,可以名词自带坑。没有的,只能消费里面的坑。名词自带坑的,里面就可以是不及物动词了。一个坑就够。另一个靠带坑的名词自吃自吐。自带坑的名词甚至可以传导到更遥远的补语。“他眼睛哭肿了”实际是:1、他哭;2、眼睛肿;3、眼睛是他身体的部分。眼睛,和哭,共享“他”这个萝卜。因为“肿”合并到“哭”,“肿”辖域内的残坑(谁的眼睛)获得免费额度。可以复用已填坑的萝卜。 李: 有 part of 这种特别有意思:“他身体不错”。 == 【他 身体】不错。 == 他 【身体 不错】 这两个看似水火不容的结构,都有各自的合理和优点,二者互补才反映全貌。 (1) “他的身体不错”:显性形式的小词“的”,让“他”降格为修饰语,属于填了“身体”所留的坑的修饰语。 白: 有“的”,修饰语辖域自然归并到被修饰语辖域,也获得免费额度。他,可以既填“的”本身的坑,也可以再填“身体”的坑。 李: (2) 他身体方面不错:“身体”被降格,降格成后置词短语PP“身体方面”(Postpositional Phrase),类似状语。 (3) “他么,身体不错”,“他”降格为话题状语,用了口语小词“么”。 (4) “他身体好,又聪明” 可算是谓词“升格”(或“小句降格”)。从一元化领导升格为集体领导。本来谓词(譬如“聪明”)就是谓语,但现在“身体好”这个短语或小句整体变成了谓语,与另一个AP谓语“聪明”并列。 白: “身体好”整体相当于一个不及物动词。两个带坑的成分级联,略去中间环节,还是吃N吐S。 李: 这些现象极端有趣,fascinating。表明 在基本相同的逻辑语义底层结构中,语言表达可以借助语言学的形式手段,给这个底层结构穿不同的衣服,打扮成不同的形象。进而对其语义做某种非核心的修饰。 白: 从填坑角度看只是初等的数学运算。免费额度算清楚了,其他都是小菜一碟。这又打破树的形态,真心不是树。 李: 但是 即便所有的坑都填妥了,那也只是逻辑语义的胜利,底层核心的被求解,表层的细微语义差别(nuances), 那些不同表达方式,那些“升格”、“降格”的不同语言形式。它们所反映的东西 严格地说 也应该被恰当的捕捉和表达。 白: 两件事情,谁和谁有什么关系是逻辑语义的事儿。用什么顺序表达是另一件事。后者也负载信息。 李: 对呀。 白: 比如听说双方之前各知道什么,强调什么,诸如此类。这些不在“主结构”框架内,但是是一些“环境变量”,需要的时候可以从里面捕捉这些信息。 李: 最典型的例子是 “我读书” 与 “我读的书”,二者语义的区别,虽然逻辑语义核心以及填坑关系是相同的。 白: 焦点不同、有定性不同,已然未然不同,甚至单复数也可能不同。我当下正在读的书可能标配是单数,我读过的书标配就是复数。 李: 这些语义 与 逻辑语义,处于不同的层面。逻辑语义是本体(ontoogy)作为模版, 这些语义与本体模版无关。所谓本体模版,说到底就是规定了坑与萝卜,及其 type appropriateness(相谐性),他不反映这些有待填充的模版之间的结构关系,也不反映关系中的节点上附加的语义或细微差别,诸如 强调、委婉、正式、非正式、语气 等。 白: 这些都可以抽象为:语境的坑,只不过这些是需要经常update和reshuffle的。做下一代人机对话不做这个的,都是耍流氓。 李: 不仅仅人机对话,机器翻译也要这个。 30年前,董老师强调要以语言之间的核心,即逻辑语义,作为机器翻译的基础。让我们脑洞大开 深受启蒙。然而 这只是翻译需要正确传达的一个方面,的确是最核心的一面,但不是全部。边缘意义和细微差别,在核心问题基本解决后,就成为需要着力的另一方面。典型的例子是被动语态的机器翻译。从逻辑语义的角度看,主动被动是表层的语言现象,在逻辑上没有地位。因此所有的被动语态都可以转变为逻辑等价的主动语态来翻译。这有合理、逻辑和简明的一面,但人不是这样翻译的:一个高明的译者懂得,什么时候被动可以翻译成主动,什么时候需要翻译成显式的被动,什么时候可以翻译成隐式的被动,什么时候改造成反身自动的表达方式(譬如在英语到法语的翻译中加 se)。 白: 视角选择,也是一个考量因素。有时,被动语态的采用,纯粹是为了视角的连贯。跟立场态度并无直接瓜葛。 李: 总之 逻辑语义是个纲 纲举目不一定张 对目下功夫是区别一个好的系统和一个很好的系统重要指针。 白: 纳入语境的坑,一个好处就是所有填坑的机制可以复用过来,无需另起炉灶。说话人、听话人、处所、时间、先序语段、先序焦点、相对阶位等等,都可以套用本体的subcat。 李: 这个方向探索不多。但现在是可以考虑的时候了。 白: 我考虑很久了。语义是船,语境是河。船有内部结构,但行进也受到河的左右。内部结构不能完全决定行进的选择。 白: 不知道“王冕死了父亲”算是交叉还是不交叉? 王冕游离在外,另一部分的中心词是死,但王冕却不填它的坑,而是去填“父亲”留下的残坑。成为“死了父亲”这个短语的事实上的逻辑主语。但是还原到二元关系,这个link还是在王冕和父亲之间。从形式上看,王冕(N)和父亲填坑后的残坑(/N)中间隔着中心谓词“死(S)”,但这个吃饱了的S对N和/N之间的眉来眼去是无感的。 乐见其成。 F: 如果是语义依存,是non-projective的,是有交叉的,父亲这个词的投射不连续。 白: ‘’倒是“父亲”填“死”坑的一刹那,让我们见证了“右侧单坑核心成分”比“左侧单坑核心成分”优先级高的现实。如果双坑,则是左侧核心成分优先级高,我把它们处理成句法上存在填坑关系了。 李: “王冕死了父亲”的交叉与否的问题,这个以前想过。不交叉原则针对的是句法关系 这是句法关系的逻辑底线,交叉了逻辑上无法说通,所以判违规。还没见过例外:句法关系可以并列,嵌套,但不能交叉。但不交叉原则不适用于逻辑语义关系。其实,严格说,相对于逻辑语义的不应该叫句法关系,也包括词法关系(可以看成是小句法)。总之是形式层面的结构关系。形式层面的结构关系不允许交叉,这个原则是对的。有意思的是,语言中的不同层面的形式结构关系,戴上逻辑语义的眼镜,或映射到逻辑语义的表达的时候,就可能发现交叉现象。原因是昨天说过的,逻辑语义讲的是萝卜和坑的语义关系。逻辑语义的图(graph)中是不包含句法结构层次之间的关系语义的。换句话说,逻辑语义把“结构”打平了。譬如在句法中被局限在词法层面的萝卜,完全有可能去填句法层面的逻辑语义的坑。反之亦然:词法层面中的坑,完全有可能让句法层面的萝卜去填。用乔老爷的Xbar句法框架或概念来说就是,语言单位X的层次,在逻辑语义看来是不重要甚至不存在的,无论是 X 是 -1 (我把词法内部的层上标为负数),0(词一级),1(组一级),2(短语一级)。萝卜与坑可以在这些不同层次中继承或跳转,但是句法上却有层次之间的区别和禁忌。 这些层次以及层次间的关系和规定(譬如不交叉原则)是客观存在的反映,是逻辑语义以外的另一层结构语义。这种东西在重视层级的短语结构句法(PSG)及其表达中,体现得较好。在不重视层级的依存文法(DG)中就反映和表达得不好或不够。不管我多么喜欢DG,多么讨厌PSG表达的叠床架屋,我还是要指出DG的某些不足,正是PSG的长处。 回到白老师的例子,可以看得清晰具体一些:“王冕死了父亲”。PSG句法上,王冕 是NP,“死了父亲”是VP,构成S。VP里面“死了”是V-bar, “父亲”是NP宾语。这里面的结构不可能有任何交叉出现。“王冕”与“父亲”处于不同的层次,句法不允许一个单位钻进另一单位的里面去建立联系,这是违反了君臣父子的天条。一个句法结构,对外就是一个元素,里面是黑箱子,不透明(但可以利用某种机制传递某种东西)。唯此,才能维护结构的清晰。但是到了逻辑语义,这些条条框框都可以打破:一个儿子可以有n个老子,交叉也不是不可以。树(tree)是无法承载逻辑语义的任意性和结构扁平化了,于是需要用图(graph)。我早就说过,DG本性上比较亲近逻辑语义(深层核心结构),而PSG则亲近的表层句法结构。很多人以为它们是互换的或等价的,只是表达(reprentation)方式不同。其实不仅如此。在我们饭还吃不饱的时候,我们首先想到的肚子问题,核心问题。当我们衣食无忧的时候,我们就要讲究全面一些,核心和边缘都不放过。并不是不放过边缘,不放过表层结构语义,就一定要回到PSG,但是至少仅仅逻辑语义是不够的,还需要添加其他,就如白老师昨天提到的那些以及他的一些表达方案。 白: 这些所谓的句法,功劳不大,脾气倒是不小。比他多识别出有价值的二元关系,反而有毛病了。哪儿说理去。我认为这里面存在一个次序问题。 站在外层N的角度,它确实填了一个/N的坑。但不同粒度会看见不同的结果。“死了父亲”是一个联合体,这个联合体挖了一个名词坑,“王冕”填进去,天造地设、严丝合缝。既没有穿越也没有交叉。“他哭肿了眼睛”也是一样。“肿了眼睛”作为一个联合体挖了一个名词坑。和“哭”的名词坑一道,共享“他”这个萝卜。 中心词作为组块的代表,统一对外提供坑。这是对的。但是这坑未必是中心词自带的,可以是中心词在组块内部兼并而来的。把坑拘泥于中心词自带的坑,相当于用镣铐把自己锁起来。何苦自己为难自己? 李: 今天的对话,符号逻辑,参杂点黑话与绿色幽默,有点绕,烧点脑。管他呢,还是发了吧。 白: “把字句”与补语所带坑的深度捆绑,也是受这个“联合体意义上的坑”规律所支配的。“他把眼睛哭肿了”单看“哭”和“肿”,没有坑可以共享萝卜,“哭”与human相谐,“肿”与body part相谐,二者尿不到一个壶里。但是“眼睛”恰恰在这里起到了“转换插头”的作用,吃human,吐human body。看这个“肿了眼睛”的联合体所带的坑,与“哭”所带的坑,完全相谐,恰恰是可以共享的了。所以,在PSG那里避之唯恐不及的穿越交叉,其实隐藏着重大玄机。恰如其分地把它请回句法,可以起到四两拨千斤的作用。我对什么该放在句法层面,其实只有一个标准,能描述谁和谁有关系。如果谁和谁就是交叉着发生关系,句法不仅不应该回避,而且应该忠实描述。更何况,大的方面,中心词代表所在组块对外发生关系方面,并无违反。只是“过继的坑”也可以代替“亲生的坑”而已。树状结构、亲生的坑,都不应该成为忠实描述“谁跟谁有关系”的障碍。如果有障碍,一定是障碍错了而不是关系错了。 退一步海阔天空。只要把“在你辖域里残留的坑”统统在名义上算作“你的坑”,什么都结了。 李: 说得不错。但估计乔老爷是不认账的。他在句法与语义之间打隔断,坚信不隔断 谁也做不好 做不纯粹和深入。何况 语义是全人类共同的 哪有句法有性格和多姿多彩又万变不离其宗呢。他的普遍文法(UG) 仍然基于句法独立于语义的根本原则。只有句法才是真正的语言学。到了语义,语言学就开始参杂逻辑的杂质了。 白: 我说的也都是句法,不是语义。只不过是能给语义省点事儿的句法。 李: 夹杂了本体,或本体的隐藏式 譬如 大数据中间件,就不能说是纯句法,因为常识揉进了形式系统。 白: 只是在控制(怎么做)层面引入了本体/大数据,在描述(是什么)层面无需引入。而老乔的语言学一样是不管控制层面的事儿的。也就是说,如果只是为了写一本句法书而不是为了做parser,本体连一句话都不需要提。那就在这个层面比,谁揭示了更多的结构性信息。 【相关】 【语义计算:李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3017 次阅读|0 个评论
【李白董铿锵行:说不完的subcat和逻辑语义】
liwei999 2017-4-16 11:29
【立委按:30年前,董老师就是我学逻辑语义的启蒙老师。30年后还可以拜技术所赐,与老师坐而论道,由衷感激。逻辑语义这个术语的命名和流行 源自董老师的论文。类似的术语有 Deep case (菲尔墨),Theta role(乔姆斯基), Semantic role , 但我还是最喜欢用董老师的逻辑语义。】 白: 【今天冲击30度,明天骤降6度伴随雷阵雨】 为啥30度是目标值,6度是差值? 李: 逻辑语义 与 句法角色 的主要差别就是,前者依存的老子是细颗粒的概念或语义,后者依存的老子是粗颗粒的子范畴(subcat)。“冲击” 与 “降” 的概念差别,决定了所带的逻辑语义角色的分别。从subcat看 这两个动词属于一类,因此句法儿子相同 都叫宾语,但是从语义角度 这两个动作概念有距离,查一下 hownet 就知道了。细颗粒到什么程度呢 要看系统的设计了。譬如 hownet 有将近 100 个逻辑语义角色,相对应的语义颗粒度或分辨度就显得相当细。【升降变化】 这类肯定要单列出来,也可以想象 逻辑语义压缩到 20 到 30 的样子 合并一些接近的角色,那么统领逻辑语义的谓词的概念颗粒度就可以粗一些。 总之逻辑语义不象句法角色那样抽象 独立和粗线条,逻辑语义是比较紧密地配合谓词语义概念去 make sense 的。【心理】谓词的主语 在逻辑语义叫 experiencer(体验者),但【行为动作】谓词的主语 则逻辑语义叫 agent(施事)。这种呼应除了有本体知识(ontology)体系内在的设计需要外,还有让人看着舒服、容易理解的考量,也就是我以前说的,语义表达带有某种人类自己与自己玩的色彩。 在董老师面前说这些 难免显得浅薄。我等董老师打板子 批评纠正。 董: 按知网的规定:冲击30度,30度的逻辑语义是“StateFin-终状态”;降6度,6度的逻辑语义是“QCompare-比较量”。但是知网的分析系统我预计它做不对。因为这样的区别要有更加专门化的知识,气象的常识来解决。知网没有如此细的常识表达。单靠两个动词的语义差别,我想不出来如何解决。 李维说的没错。是会有自己玩的色彩。每个人有自己对客观世界的自己的认识,研究有自己的风格,有自己的要求,或遇到的不同的需求。总觉得自己那个好,不要紧,是正常的,但不要总觉得别人的一定不好,那也许就不太好了。 李: 也有的语义表达体系走极端,觉得哪怕细颗粒度也不够好,100个逻辑语义根本不足以表达语义关系的细微差别。譬如 hpsg,它在语义表达上不喜欢任何抽象,agent呀,patient 呀,experiencer 呀,都太过抽象,就更甭提逻辑主语、逻辑宾语了。一不做二不休,他们的语义关系的命名变成了一个开放集。本体有多少谓词语义终结节点(石实践中常常就用那个谓词的词),就有多少个对应的语义关系。逻辑主语加后缀 -er,逻辑宾语加 -ee,这样来命名逻辑语义。因此,like 的 主语叫 liker,宾语 叫 likee;hit 的主语 叫 hitter,宾语叫 hittee。完全没有概括性了,我把这种设计叫做词汇主义极端派,有点走火入魔了。但有一个优点,人一看就明白是什么角色。 我觉得其所以语义表达有自己跟自己玩的色彩和空间,是因为一个知识体系是某种连续的存在。语义学家在模型这个体系的时候,必须抽象到离散的点去。这就需要切刀。切几刀 怎样切 比较合理 比较适应人的理解和应用,不同的设计家会有不同的考量。 董: 再者,上例中30度是个”点“;6度是个”量“,没有气象知识怕不容易分别了。 李: “降6度” 感觉没有歧义。难的是 “冲击30度”。后者可能需要专业知识才能消歧。一个通用性常识本体的知识库,不足以做出这种区分。如果是 “降到 6度”,也没有歧义。 讲个故事: “我们实验室是做低温实验的。我们设计了一个装置可以不断降低实验空间的温度。第一天我们成功降低了10度 只用了三秒钟。第二天我们降了20度。我们改进了设计以后 正全力冲击30度。” 这个故事说明歧义在特定场景是可以翻盘的。在气象领域 他的标配歧义消解了,根据的是气象里面的领域常识。但场景可能打败这个标配语义。 白: 都不需要术语来指定角色。完全可以说,1号角色,2号角色。这是本源。施事受事的,都是次生的。 李: 有不少文法就是这么叫的:arg1、arg2,然后可以提供一个词典查询来求解:like 的 arg1 就是逻辑主语体验者,相当于 liker。这样看语义表达,就更凸显了人类在逻辑和语义上有相当浓厚的自己玩的色彩。 董: 说实在的,就是主谓宾定状补都不能弄对呢?少了,多了,又能怎样? 白: 信息抽取的角度看,弄不对,就可能提取不出来想要的情报,或者提取出错误的情报。从群体舆情分析的角度看,错一个漏一个都无妨。从个体观点分析角度看,错了,可能认友为敌或者认敌为友。 李: 信息抽取的模板定义本身,也有不少自己玩的色彩,当然是要玩得让客户高兴。譬如【公司购并】事件,谓词是 acquire 或 buy,句法的主语,逻辑语义的施事,与信息抽取模板中的角色【购并公司】的对应,就是在玩命名的游戏。句法的宾语,逻辑语义的受事,模板里面叫【被购并公司】。 白: 当然,只要语义对,句法错甚至没句法,又如何? 李: 没有楼梯爬上三楼的绝技人也是有的。事实是,尽管有这样的绝技存在,生产楼梯的厂家却不会倒闭。 董: 按李维说的,其实是不用再搞一套施事、受事等。 李: 我觉得100个这个量级是太细了一点儿。另外,逻辑主语、逻辑宾语的概念感觉很好使。这样 experiencer 和 agent 的区别就不重要了。因为这种区别,如果某个应用需要的话,总是可以通过查询谓词是什么得出来。 董: 你是能少则少,能省一个是一个。 李: 可能我来了美国19年,一头扎进了信息抽取。从抽取好用这个角度,我不需要那么细的逻辑语义。换其他应用,我不敢说。 董: 嫌多,少用就是了;如果嫌少了可就不那么好办了。关键是要能自圆其说。多有多的道理,少有少的道理。再一个,就是多了,能否乱。计算机不是不怕多吗? 白: 编号不怕多。 李: 这是一方面,多了总可以合:或者用逻辑或,或者用taxonomy定义一个上位关系。问题不在这里。问题在多了以后,deep parsing那边就不得不费工。费了力气做了区分,发现用到的场合不多,就觉得不值了。关键还是,对于概念之间的依存关系,谁与谁发生关系是第一位的,老子儿子必须区分清楚。关系的种类粗一点无关大局。 白: deep parsing的首要目标仍然是确定谁跟谁有关系,而不是确定是什么关系。所以角色再多,不应该影响deep parsing. 即便影响,也只是影响搂草打兔子的部分, 那本来就是天上掉馅饼, 可遇不可求的。 李: 因为语义是在句法图中决定的。有了依存关系图,有了节点的本体知识,粗线条关系随时可以细化, as needed,不必把这种细化搅合到parsing里面。 白老师讲的与我说的,是一样的呀。 白: 我是说,语义角色多了就导致deep parsing不得不费工,这样的设计是有问题的。 李: 多了一个 role labeling的细活。而这个细线条 roles 在落地时候大多不需要。认真说,也没那么多活,也不是不可以做,就是觉得没必要做。因为信息抽取的根本原理是词驱动。在词驱动的语义落地场景,语义关系的细化没有多少助益。 白: 语义角色第一不要设限,第二不要用跨词汇的概念绑死,第三不要跟句法绑死。需要的时候接的上就行,和句法松耦合。想多就多,不要影响句法。直接拿次范畴去玩。 李: IE根本连次范畴都不要,就是词驱动。多用几个逻辑或就齐了。范畴集合如此之小,爱怎么枚举怎么枚举,管它的谓词本体概念属于哪个集合呢。 白: IE和实体知识库的差别,实体知识库是照单全收,IE是只取自己那一瓢。只取自己那一瓢,当然不需要subcat;照单全收是不行的,必须有subcat。 董: 我看你们常说次范畴或subcat,谁是与之相对的主范畴呢? 李: 董老师,文法里面所谓subcat,其对应是cat或叫POS,尤其是POS里面的谓词:VB或JJ等,这些cat会进一步细分为subcats。 董: 那么subcat是诸如什么? 白: cat那东西,各家也有不同 李: 当然白老师泛化了subcat,一切的词汇子集给个词典标签都叫subcat了。但是在HPSG这类文法里面,subcat是一个谓词句型规则的浓缩。里面是一个丰富的 feature structure,句型方面的某个子集。文法里面的 subcat典型代表是vt、vi这类。 董: 你给个具体例子吧?我都快被绕糊涂了?名词是cat,那么sub名词是什么? 李: 名词是cat,那么subcat可以有带宾语和宾语补足语的名词,譬如 translation:其subcat就是:translate of NP【受事】 from NP1【来源】 into NP2【目标】。对于这个subcat的句型潜力,给它取个标签,这个标签就是 subcat 的 atomic feature,譬如 vt、vi。 董: 懂了,谢谢。 李: 但是在复杂特征集的文法里面,subcat不取一个简单的标签,而是展开来写到数据结构里面去,这样一来这个数据结构几乎就是一个产生式规则,虽然理论上这个数据结构不是过程性的。所以所谓的HPSG没有规则,其实就是玩的这么个游戏。 发现,思想活跃的知识分子永远不显老,而蓝领老人就特别容易衰老。董老师冯老师都有这个特点,我老爸也是。可见信息也是一种养分,比营养更重要。 董: 不看或极少看“养生堂”之类的胡说八道的,多半可以长寿。 冯: 多动脑子有益健康。 董振东: 有道理。 昨晚的有关arg、subcat、等的讨论,我明白了。其实我们是不同路上的车,可能都是被英文parsing误导的,至少我是被误导了。大家的目标、方法、资源等都不一样。但不论如何环视对我们的研发很有帮助的。关于诸如逻辑语义等问题,等你们真的要关心时,你们可以看我们的专著《HowNet and the Computation of the Meaning》。 李:30年前,董老师就是我学逻辑语义的启蒙老师。30年后还可以拜技术所赐,与老师坐而论道,由衷感激。 【相关】 【语义计算:李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4759 次阅读|0 个评论
【语义计算:关于解析逻辑语义角色】
热度 1 liwei999 2017-1-25 04:56
白: “每人选一种动物做研究。”“每人选一个小伙伴做研究。” 我: 好吧,来两颗圣诞奇异(歧义)树,祝各位圣诞快乐! 当树长得不像树的时候,我们开始怀疑。人可以做研究,动物可以做研究吗?都可以。不过一个主动,一个被动罢了,但汉语的被动不必用显性形式(“被”)。汉语做研究比英语难。 == 汉语被做研究比英语(被做研究)难。 == 对汉语做研究比(对)英语(做研究)难。 总之,“做研究”有两个坑:施事和对象,前者要求【human】or【institution】 后者无要求:无事不可研究。 宋: 有些情形不好办:小王带着哥哥到北京看病。谁看病? 老王带着老伴回乡创办了一所小学。谁创办了这所小学? 我: parse see see: 宋: 连动结构后动词施事的确定有时是模糊的。 我: 这种模糊貌似不是语言自动分析的问题。因为可以假想有一个没有歧义的表达形式,人要用这种形式去表达上面的两句自然语言语句,我觉得表达的人自己会感到困惑。换句话说,人的表达有时候需要模糊,人的理解有时候也不在乎那个模糊地带的定点。这时候,如果一种表达形式不给模糊留下余地,人就会手足无措,会被逼迫得精细起来。从这个角度看语义计算,有时候我们对这个计算有不合理,也不切实际的要求。人自己都模糊的东西,不能指望机器去黑白分明。人自己需要有模糊区间的表达的时候,不能说这个语言应该清晰到区间的定点。 白: 问题不在于有模糊性,而在于模糊性其实是限制在一个精确的范围里,我们如何把精确范围的表达纳入句法结构的表现?比如这一句“丁丁拉着妈妈去了少儿图书馆” 还有宋老师的两个例子 “小王带着哥哥到北京看病。”“老王带着老伴回乡创办了一所小学。” “丁丁和/或妈妈”、“小王和/或哥哥”、“老王和/或老伴” 这样的表达应该在句法结构的表现形式上有对应物。 “跑不了是两个之中的一个或两个” 这样的填坑逻辑要能够体现在句法结构的表达之中。 我: 丁丁那句目前是酱紫滴: 我: 白老师说得对。 目前还没有公认表达法 来区分句法关系的两种 or, 但要想加 也不难 白: next也好,合并也好,说的都是两个谓词有坑要共享,而且共享的位置可能只有一个。现在来了两个候选(就算前一个谓词有一定引导作用但也往往不明确,除了兼语),在没有更多语境信息的情况下,只能是一个有明确嫌疑范围的悬案。 准备了一个坑,两个萝卜都有资格进,弄不好其中一个还可以免额度。这就是“和/或”算子的由来。如果语境能提供进一步的知识,它可以锁定为“和”,也可以退化为“或”,甚至可以精确落地到两个候选当中的一个。 “张三在答辩中回答问题正确。”此句的root在“回答”还是在“正确”? “回答问题正确”“问题回答得正确”“问题回答得正确了,才能获得奖品” 感觉“回答问题正确”有主谓结构的倾向啊。“回答问题”做主语,“正确”做谓语。可是被后面那些“正确”做补语的出来一搅和,又不坚定了。 “问题回答正确了,才能获得奖品” “回答问题正确”的最外层说的是“回答问题”还是“回答正确”?我认为是后者。 “正确”是比“回答”高一阶的谓词 单独定性怎么都好办。关键是如果主谓结构成立,那么得字结构的“补语”地位就至少要动摇一下了。或许“得”的作用就是把前面的谓词名词化(降格),以便后面的谓词上位呢。那么,“正确”这个谓词就是个高也能成低也能就的主儿:遇到带“得”的谓词,它当名词吞了;遇到不带“得”的谓词,它当谓词吞了。这是个“变色龙”坑, 我们把这种坑表示为“X”,类似扑克牌里的“混儿”(wildcard)。 当然,root统一为“正确” 这样,跟汉语“张三回答问题正确”或“张三问题回答得正确”对应的英语是 “Zhang San's answers to the questions are correct”。而跟汉语“张三正确地回答了问题”对应的英语是 “Zhang San answered the questions correctly”。 宋老师例子里还涉及到亲属词,亲属词带坑,但坑这里也有一个前置的逻辑门,标配是小王,例外从语境中找小王之外特别提及的说话人乃至外号叫“哥哥”(如张国荣)的命名实体。 【相关】 【李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3653 次阅读|1 个评论
【一日一parsing:parser 貌似发疯了】
热度 1 liwei999 2016-9-27 21:53
我: 系统调试也上瘾。今夜无眠,调着调着,parser 貌似发疯了,大概是嫌我啥都喂给它,闹情绪了?? 仔细瞅瞅,好像也没啥大错,没疯。与鲁爷【狂人日记】不同,我怀疑得没理。 自然语言的任何并列(Conj)结构,到了逻辑层,都必须分列。赶上遇到好几个并列就热闹了,关系有组合爆炸的趋向。都是汉语的顿号惹的祸。用恁多顿号做啥,多写几个小句能死吗?纯句法parsing不管这些,图面倒是显得干净。可是 deep parsing 的语义计算是逻辑的,就不能不管。 白: “或”的结合能力弱于“与”,顿号在被“或”绑架不成情况下标配解释为“与”。 我: 这几天净出怪,不知是机器走火入魔了,还是玩机器的走火入魔,总之,出来一些奇奇怪怪的 graphs,远远不是教科书上展示的句法树形图给人留下的印象。 教科书都是这样的,太过优雅 : 前两天出了一个葫芦形的图,昨天又出了双伞形的,今天是发飙,明天还不知会咋样。 这是昨天的两把伞。瞅了一瞅,好像也没错: 白: 吗的位置不对。两把伞那个,能……吗,才是一对。 我: 对,“吗“”应该更上一层楼。如果没有上一层,“吗”疑似就对了。为个小词爬楼不值当了,不是不可以爬 (patching). 当然这里面其实牵涉到决定 yes-no question 的所属问题,最终可能还是要上。 如果说 “电子签证是什么吗。”那就是活用。表面上用疑问,实际是应该是感叹?不是“吗”的标准用法。因为“吗”的本性是一般疑问句,而“什么”是特殊疑问句的疑问词(wh-word),不相谐。 白: 那个是“嘛”,不是“吗” 我: 肯定这里不可以用 “吗” 吗? 白: 他知道电子签证是什么 我: 感觉上可以,好像也不等同于“嘛”。 是那个什么吗。 真地忘了是那个什么了。 白: 你说的感叹义,应该用“嘛”。遗忘义,可以用“吗” 不过现在白字用的,早乱套了。 我: 这是前天的葫芦,白老师的名句。就是“与之”没挂上arg,差强人意,但总体逻辑语义的计算还都对。“你”(S)与“女人”(S)结了婚,而且这事儿修饰的(Mod-S:定语从句)是“女人”。 你说机器神不神,parser 好玩不好玩,这算不算对人类语言的机器理解的敲门砖:芝麻开门!芝麻芝麻快开门。 【相关】 【立委科普:语法结构树之美】 【立委科普:语法结构树之美(之二)】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4574 次阅读|2 个评论
【语义计算沙龙:语序自由度之辩】
热度 1 liwei999 2016-8-18 00:10
刘: WMT2016上有一篇文章,讨论了语言的语序自由度,结论很有趣,见附图。根据这篇论文统计,汉语和英语之间语序关系是最稳定的(注意:语序关系稳定与语序一致不是一回事),比其他语言稳定度都高出许多。日语虽然是粘着语,但跟英语的语序关系也是相当稳定的。相反,德语虽然跟英语亲缘关系很近,但其相对语序的自由(不稳定)程度相当高。 论文链接 http://www.statmt.org/wmt16/pdf/W16-2213.pdf 我: 这个研究是说,如果这些语言要与英语做自动翻译,语序需要调整多少? 英语相对语序很固定,加上是最流行的语言,拿它做底来比较,对于各语言的相对语序自由度应该是不离谱的。但是,从(平行)大数据来的这些计算,与这些语言的语言学意义上的语序自由度,有差别: 譬如 Esperanto 的语序自由度应该很大,怎么排列,意思都不变,但是由于很多人可能思想是用英语的,写出来的时候下意识在头脑里面翻译成了世界语,结果跟机器翻译一样,人的懒惰使得表达出来的语序照着英语的样子相对固定起来,并没有充分利用语言本身本来有的那么大自由度。 汉语的语序自由度,语感上,比图示出来的,要大。但是,做这项研究的双英对照数据也许大多是正规文体(譬如新闻),而不是自由度更大的口语,因此出现这样的结论也不奇怪。虽然汉语是所谓孤立语,英语接近汉语,但没有那么“孤立”,汉语的语序自由度比英语要大。做英汉MT的 generation 的时候,需要调整词序的时候并不很多,多数情况,保留原词序,基本就凑合了,这是利用了汉语语序有弹性,相对自由度大的特点。汉英MT没亲手做过(除了博士项目在Prolog平台上做过的一个英汉双向MT的玩具),感觉上应该比英汉MT,需要做调序的时候更多。调序多容易乱套,特别是结构分析不到位的时候更容易出乱子,是 MT 的痛点之一。尽量少调序,警惕调序过度弄巧成拙,是实践中常常采取的策略。包括英语的定语从句,多数时候不调序比调序好,用的技巧就是把定语从句当成一个插入语似的,前面加个逗号或括号,适当把 which 翻译成“它”等等。 刘: 你说的有道理,这个研究是以英语为基准的,虽然严格说不是很合理,但还是靠谱的,英文英语语序是比较固定的。我们说汉语语序自由,我觉得是错觉。汉语语序是很不自由的。实际上,对一个语言来说,形态的复杂程度和语序的自由程度是成正比的。形态越复杂的语言,语序越自由。汉语没有形态,只能用语序来表示句法关系。因此是严格语序语言。不可能说一种语言既没有形态,又语序自由,那么这种语言基本上没法表达意义了。 白: 这个,需要分开说。一是subcat算不算形态,因为不是显性的标记,很可能不算。二是subcat是否提供了冗余信息使得一定范围内的语序变化不影响语义的表达,这是肯定的。 Jiang: 嗯!subcat这里指的是什么? 白: 比如“司机、厨师、出纳……”都携带human这个subcat,但是human并不是一个显示的形式标记。 我: 虽然大而言之形态丰富的语言语序自由度就大、形态贫乏的语言语序相对固定是对的,但汉语并不是持孤立语语序固定论者说的那样语序死板,其语序的自由度超出我们一般人的想象:拿最典型的 SVO patterns 的变式来看,SVO 三个元素,排列的极限是6种词序的组合。Esperanto 形态并不丰富,只有一个宾格 -n 的形态(比较 俄语有6个格变):主格是零形式(零词尾也是形式),它可以采用六种变式的任意一个,而不改变 SVO 的句法语义: SVO Mi manĝas fiŝon (I eat fish) SOV: Mi fiŝon manĝas VOS: Manĝas fiŝon mi VSO: Manĝas mi fiŝon OVS: Fiŝon manĝas mi. OSV: Fiŝon mi manĝas. 比较一下形态贫乏的英语(名词没有格变,但是代词有)和缺乏形态的汉语(名词代词都没有格变)的SVO自由度,很有意思: 1. SVO 是默认的语序,没有问题: I eat fish 我吃鱼 2. SOV: * I fish eat (英语不允许这个语序) 我鱼吃 【了】(汉语基本上是允许的,尤其是后面有时态小词的时候,听起来很自然) 虽然英语有代词的格变(小词直接量:I vs me), 而汉语没有格变,英语在这个变式上的语序反而不如汉语。可见形态的丰富性指标不是语序自由度的必然对应。 3. VOS: * Eat fish I (英语不允许这个语序) ?吃鱼我(汉语似乎处于灰色地带,不像英语那样绝对不行,设想飞机空姐问餐:“吃鱼还是吃肉?”你可以回答:“吃鱼,我”) 4. VSO: * Eat I fish (不允许) * 吃我鱼 (作为 VSO 是不允许的,但可以存在,表示另外一种句法语义:吃我的鱼) 做VSO不合法,但有些灰色的意思,至少不像英语那样绝对不允许。 5. OVS: * Fish eat I (不允许,尽管 I 有主格标记) * 鱼吃我 (句子是合法的,但句法语义正好相反了 , 是 SVO 不是 OVS。句子本身合法,但做OVS非法。) 6 OSV: fish I eat (合法,除了表达 OSV 的逻辑语义 这个语序,还表达定语从句的关系) 鱼我吃(合法,常听到,鱼是所谓 Topic 我是 S,逻辑语义不变) 总结一下,汉语在 6 个语序中,有 3 个是合法的,1 个灰色地带,2 个非法。英语呢,只有两个合法,其余皆非法。可见汉语的语序自由度在最常见的SVO句式中,比英语要大。 白: 不考虑加不加零碎的语序研究都是那啥。“鱼吃我”不行,“鱼吃得我直恶心”就行 我: 不管那啥,这个 illustration 说明,语序自由度不是与形态丰富性线性相关。也说明了,汉语往往比我们想象的,比很多人(包括语言学家)想象的具有更大的自由度和弹性。白老师的例子也是后者的一个例示。其实,如果加上其他因素和tokens,这种弹性和自由,简直有点让人瞠目结舌。 汉语不仅是裸奔的语言 ,也是有相当程度随心所欲语序的语言。超出想象的语序弹性其实是裸奔的表现之一,思维里什么概念先出现,就直接蹦出来。而且汉语不仅没有(严格意义的)形态,小词这种形式也常常省略,是一种不研究它会觉得不可思议的语言。 它依赖隐性形式比依赖显性形式更多 ,来达到交流。这对 NLP 和 parsing 自然很不利,但是对人并不构成大负担。 刘: 首先,语序变化以后意义发生变化,不说明语序自由,相反,正说明语序不自由。语序传达了意义。其次,语序变化以后要加词才能成立(鱼我吃了)也正好说明语序不自由。再者,这种简单的句子不说明汉语普遍语序自由。在绝大部分清晰下,汉语都是svo结构,个别情况下需要特别强调o的时候,可以把o放到最前面。语序自由的前提,是通过词尾变化明确了词在句子中的功能,这样的话,主谓宾不管怎么交换顺序,都不会搞混,所以语序自由。没有形态变化,不可能真正语序自由。 “小王打小张”,语序就不能随便调整。 “我爱思考”,“我思考爱”,意思完全不一样 我: 这要看你怎么定义语序自由了。你给的定义是针对格变语言做的,有宾格的语言,等于是把句法关系浓缩了标给了充当角色的词,它跑到哪里都是宾语是题中应有之意。但语序自由的更标准和开放的定义不是这样的,如果 SVO 是基本的语序,凡是与它相左的语序的可能性,就是语序自由,研究的是其自由度。这种可能性的存在就证实了我们在理解语言的时候,或者机器在做 parse 的时候,必须要照顾这种 linear order 的不同,否则就 parse 不了,就抓不住语序自由的表达。不能因为一种相左的语序,由于词选的不同,某个可能语序不能实现,来否定那种语序自由的可能性和现实性。 退一步说,你的语序自由是 narrow definition, 我们也可以从广义来看语序自由,因为这种广义是客观的存在,这种存在你不对付它就不能理解它。就说 “小王打小张”,SVO 似乎不能变化。但是 “小张小王打不过” 就是 OSV,不能因为这个变式有一个补语的触发因素,来否定语序的确改变了。pattern 必须变换才能应对这种词序的改变。 最后,汉语与英语的对比,更说明了汉语的语序自由度大于英语,否则不能解释为什么汉语缺乏形态,反而比形态虽然贫乏但是比汉语多一些形态的英语,表现出更多的语序自由。“鱼我吃了” 和 “我鱼吃了” 是一个 minimal pair,它所标示的语序自由的可能性,是如此显然。人在语序自由的时候仍然可以做句法语义的理解,说明了形态虽然是促进自由的一个重要因素,但不会是唯一的因素。 隐性形式 乃至常识也可以帮助语序变得自由。 “打小张小王不给力。”(这是VOS。。。) “打老张小王还行。” 刘: 这两个句子里面“打”都是小句谓语,不是主句谓语。主句谓语是“给力”和“还行”。例子不成立。 我: 影响语序自由的,形态肯定是重要因素,其他的语言形式也有作用。小句也不好 主句也好,SVO 的逻辑语义在那里,谁打谁?我们在说SVO语序自由这个概念的时候,出发点是思维里的逻辑语义,就是谁打谁,然后考察这个谁1 和 谁2,在语言的 surface form 里面是怎样表达的,它们之间的次序是怎样的。。 刘: 这就强拧了。这么说the apple he ate is red. 也是osv了?apple he ate的逻辑关系在哪里。这么说英语也可以osv了? 我: 不错,那就是地地道道的 OSV:谁吃什么,现在这个【什么】 跑到 【谁】 和 “ate” 的前面去了,底层的逻辑语义不变,表层次序不同了。 说英语是 svo 语言,这种说法只是一种标签,并不代表英语只允许这个词序。英语的SVO 6 种 语序中, 前面说了,有两种合法常见 。 刘: 如果你对语序自由是这样定义的话,那英语也是语序自由了。 我: 不是的。只能说语序自由度。英语的语序自由度还是不如汉语。汉语的语序自由度不如世界语,也不如俄语。世界语的语序自由度不亚于俄语,虽然俄语的形态比世界语丰富。 刘: 那我们不必争论了,我们对语序自由这个概念的定义不一样。 我: 不错,这是定义的问题。我的定义是广义一些。你的定义窄。 刘: 按照你的定义:Eating the apple he smiled. 英语还可以VOS 白: beat him as much as I can 总而言之S是从相反方向填它的坑 禹: 俄语的我吃鱼这么多种语序也可以?当真现实就是这么用吗? 易: @禹 俄语的语序确实很灵活,尤其在口语体中,但意思不会变,因为名词有六个格,施受关系基本不会乱。 白: 日语里面有个名句:きしやのきしやはきしやにきしやできしやえきしやした 除了动词,其他成分的位置也是各种挪来挪去 刘: @白硕 这个日语句子什么意思啊? 白: 贵社的记者坐火车朝着贵社打道回府了 考验日语输入法的经典例子,流传了将近百年 据说是电报引入日本不久的事情 这么个拼音电文,没人知道啥意思 跟赵元任发明一音节文,有得一拼 格标记本来就是给语序重定向的,所以不在乎原来语序也是情理之中。 如果汉语的“把”“被”“给”“用”“往”一起招呼,也可以不在乎语序的。 被张三 把李四 在胡同里 打了个半死…… 我: 广义说 介词也是格 也是形态,格通常是词尾形式,介词的本质却是一样的。 “被” 是主格,“给” 是与格,“用” 是工具格。 禹: 俄语格的问题,有没有需要三四阶语法模型才能确定的还是基本上就是看之前的动词或名词的类别 我: 格就是parsing依赖的形式条件之一。形态丰富一些的语言 parsing 难度降低 不需要过多依赖上下文条件。 【相关】 泥沙龙笔记:汉语就是一种“裸奔” 的语言 泥沙龙笔记:漫谈语言形式 【 关于 parsing 】 【关于中文NLP】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4657 次阅读|1 个评论
【中文parsing:语义模块大有可为】
liwei999 2016-8-17 14:07
白: “放在行李架上的行李,请您确认已摆放稳妥。”----高铁的词儿。 我: 二者应该是等价的,现在接近了,还没等价。 想等价的话,条件已经具备:确认这样的词的前S(主语)与其后的OPred(动词性宾语),勾搭上,成为逻辑主谓,这是语义中间件很容易做的,因为条件清晰。 如果追求极致,那就动一下手术:(1)断掉原先的主谓(行李与确认);(2)建立新的主谓 (行李与摆放);(3)断掉原先的 OPred(谓词性宾语);(4)代之以 O-S(宾语从句)。这个也合情合理,条件同样清晰。 如果追求极致的极致,再进一步在主谓关系上加一层逻辑动宾关系,“摆放”的宾语是“行李”。这个可以在“摆放”上做,但必须在新的主谓确立以后再做,可做,稍微有点tricky。 Hey @白老师报告,毛主席保证: mission impossible accomplished in semantics module 中间件大有可为。现在要做一下regressions测试了。 极致的极致,不能如此得来全不费工夫吧。 白: “坐在座位上的旅客,请您确认您的安全带已扣好系紧。” 我: 真要扑哧一笑了: “好系紧” 大概当成广东话了,曾经把广东话揉进了系统。 不管那个,整体架构在轨道上,宾语从句 O-S 和前面的定语从句 Mod-S。 追求极致的话,“旅客”和“你”是同位语。但是,因为“请你VP”用得太多,而且其中的“你”常常省略,因此parsing根本就不理会你的存在,你没有地位,就是祈使句的默认(这里的祈使句标志是小词 “请”)。因此旅客无需与那个子虚乌有的“你”做同位语了,做主语就好了。 应该是无可挑剔了吧(除了句末的广东话疑似)。 白: “放在座位前方的说明书,请您确认已看过读懂。” “走在前方道路上的行人,请您确认跟照片上是同一个人。” 我: 白老师 得寸进尺呢。 “看说明书” 与 “看书” 同属于搭配,这个还可以debug一下,本来应该勾搭上的。 “确认” 与 “是” 断链子了,不过 “是” 与其他动词不同,不是好缠的主儿,不敢轻易动它。 白: 这个时候还是有点念老乔的好。甭管多少层谓词,只要一个必填的坑没填,而外边C-command位置上跟它配型,基本就是它了。就是说,主语(话题)部分的中心词一旦与谓语部分的自由坑配型,就可解释为移位。比同位结构还来得优先 我: 语义中间件 continues,逻辑SVO补全: 宋: 【转发】周末开心一刻! 中国有两项比赛大家基本不用看,也不用担心:一个是乒乓球,一个是男足。 前者是“谁也赢不了”,后者是“谁也赢不了”!(外国人看不懂,咱们也不告诉他) 白: 太多处见到宋老师转的这个段子。这不是一个句法问题,两个分析结果在句法上都成立。关键是语用。要想正确理解,要明白:(1)有歧义结构的句式连用两次且都指向其中同一种结构,在修辞上是非常乏味的。(2)这两个结构分别描述了竞技能力水平的两个极端。(3)进入同一个句式的差异部分的所指如果恰好处于这两个极端,可以构成一个完美的段子(结构急转弯伴随价值评判急转弯)。(4)常识(或大数据)支持第(3)条。 我: 谁也赢不了 / 谁都赢不了 入词典,两个义项:1 必赢;2 必输 歧义保留到底。 “打败”也有两个义项,不过条件清晰一些: (1)有句法主语没宾语:被打败 (2)主宾俱全,“打赢” 中国男足打败了 中国乒乓球打败了瑞典 我: 想起这句“成语”:毛主席保证! “毛主席”不是“保证”的【施事】,而是“保证”的【对象】。 尽管处于绝对标准的主语位置。历史大概是,原来有介词“向”的,后来说得常了,于是省略小词,有意造成似歧义但语用无歧义的效果,显得别致,结果就传播开了。如今只好词典绑架死记了。 什么叫似歧义语用无歧义? 从句法上看并无歧义,似乎只能是主语。但从语用上看,先王毛何等高高在上,皇帝是不用向子民“保证”任何事的,只有蚁民向他保证或效忠(文革时有早请示晚汇报)。 其实,严格说,这个向先王的保证是做给对方看的,真正的对象是说话的对方。但经过向先王的保证,就赋予了这种保证一种特别的严肃(实际是转化为滑稽了)的效果:君子无戏言,对君子的保证更不敢戏言。 这两天做语义中间件的逻辑语义补全,有些着魔,总琢磨这事儿。昨天想,逻辑语义的前辈董老师一辈子琢磨它,该是怎么个心态和功力呢。是不是看自然语言达到了穿透一切形式,无申报直达语义的境界? 【相关】 【 关于 parsing 】 【关于中文NLP】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3704 次阅读|0 个评论
科普小品:从汉语Topic句式谈起
热度 2 liwei999 2016-8-16 05:32
再谈汉语的 Topic 句式,这玩意儿说到底就是句法偷懒:不求甚解,凡是句首看上去像个实词的,贴个discourse意味上的标签 Topic 完事儿。管它逻辑语义上究竟是扮演什么角色,怎样达成深度的理解。说得难听一点儿,这就是汉语文法“耍流氓”。 宋老师的例子: “吃苦他在前”-- Topic【吃苦】Subj【他】Pred【在前】 这就交差了,句法算及格了。 更常见的其实是:“他吃苦在前”。 分析起来,也是一个套路: “他吃苦在前”--Topic【他】Subj【吃苦】Pred【在前】。 “他学习好” 也是如此,话题是某个人(“他”),说的是他的弱点:什么地方(aspect)好(evaluation)。“学习【,】他好”(不用逗号亦可,但有歧义:【学习他】好。)。话题是 “学习”这事儿,说的是哪些人(subset)这方面好(evaluation)。 英语大概是: he is good in study;his study is good; he studies well 逻辑语义呢,似乎有这几个关系: (1)他好;(2)学习好;(3)他学习。 人无完人。一个人的一个方面好了,就可以说这个人(整体)好,好的所在(优点,pros)就是其部分。整体与部分的相互关系。缺点(cons)亦然,如: “iPhone 屏幕不好。” 细节是屏幕的不如人意,但是屏幕(部分)不好,也就影响了iPhone(整体)的评价,所以也是 iPhone 不好。 说来归齐,就是 Topic 做句法的第一步没问题,但不是句法语义的终点。更像是偷懒,或者桥梁,最终要达到(1)(2)(3)才算完事儿。无论“iPhone屏幕不行”还是“屏幕iPhone不行”,无论中文英文,表达法可以不同,最终的逻辑归结点应该是一致的,大体上就是123。思考一下英语没有话题句式但用了至少三种其他的表达式(如上所述),想想这些表达式最终怎么归化到逻辑的123,是非常有意思和启迪的。 句法分析或逻辑语义上的123,最终要落地到语用去支持应用。语用上的定义可以依据应用层面的情报需求。下面是我们目前的自动句法分析及其相关的 sentiment analysis 的语用表达: 【相关】 【 关于 parsing 】 【关于中文NLP】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4708 次阅读|2 个评论
【deep parsing (140/n)::句法语义的萝卜与坑】
liwei999 2016-7-11 19:28
白: 张三对李四的批评一针见血。 张三对李四的批评置若罔闻。 梁: 白老师,这个挑战绝了,第一个是,张三批评李四,第二个是李四批评张三。 我: 白老师这个 minimal pair 是语言学的绝配样例。顺着它,可以 illustrate 一车的“萝卜与坑”的语言学:subcat 怎样工作,如何竞争,以及句法句型的的逻辑语义落地。这是语言学的魅力。我们先来 parse 一下,然后尝试做解读。 谁一针见血,谁置若罔闻,都是张三(S)。我们先看两句的总体句子架构,然后再论内层的逻辑谓词“批评”的句法逻辑语义。“一针见血”是不及物动词,只有主语一个坑,可以是人 也可以是观点类抽象名词或动作类的语词;“置若罔闻”有主语宾语两个坑,但这个成语性的语词谓语,其宾语在汉语句法(subcat pattern)中要求PP(对),而不是后置NP,置若罔闻的主语坑必须是 human,最多推广到 法人(机构、公司等)。 “X 一阵见血”,无论 X 是人是物还是动作: “human 对 X 置若罔闻”, 置若罔闻的X无论是物(信息)还是人(指代的仍旧是信息,是指那个人说的话:此乃“闻”的常识语义 ontology 所规定,但为了鲁棒,不必在句法上做这样的语义限制,因为介词“对”已经是一个很好的类似于“格变”的语言显性形式手段了,对于填这个坑已经足够精准了): 后一句意思是,张三不把李四的话当话(e.g. 张三逆反)。 接着我们考察一下“批评”的SVO句型,看看S和O的坑在中文是怎样要求和被填的: 这算是“批评”的三个最基本的 subcat patterns,逻辑语义不变,尽管第二个变式中的表层句法是以PP做状语(Adv)的面貌(和位置)出现,但语义中间件根据变式2的规定可以很容易确认其逻辑宾语(O)的角色。 下面来看汉语中利用“的字结构”的SVO句型变式:e.g. S对O的V 这是指称性 arg structure,通常用“的”(“之”),于此对应的是英语的动名词NP: John's criticism of Peter vs John's criticism by Peter Peter's criticism towards/of John the criticism of John by Peter the criticism of John towards Peter 可见,英语的 of 几乎与汉语的 “的” 一个臭德行 充满歧义。by 和 towards 就规矩多了。再举几个指称性SVO的例句: 如果不是逻辑动词的“意见类”语词,就是 human 对/关于 thing 的 意见,广义的 thing 包含 human: 张三对李四的看法 张三关于时局的一点意见 雷: 这个人不是东西 我: 人不是东西 但可以当东西看 在语义限制的时候 除非特地标明 NOT human,白马是马非马 的辩证法:“张三对李四的意见”。“李四”不是东西 但在这个句型当东西看 因为“意见”没有human逻辑宾语的坑 只有关于万事万物的坑。 梁: 张三对李四的评价很好。--》 评价很好--》评价是主语。 张三对李四的评价无所谓。 ——》 张三无所谓 ——》 张三是主语。 “对”管到哪儿的问题。 我: 到了 意见 的同义词 “看法” 就有趣了:“张三对李四的看法”。 句法上 仍然是 【关于】 万事万物;词法上,这个外化到句法的 pp 实际上是逻辑动词语素 “看” 的逻辑宾语,只不过 在 “看” 与 “法” 合成为黑箱子的词典化过程中,这种深度搭配被遮掩了。必须词典化、黑箱化,因为此法非彼法。只有词典化,才能绑架 “法” 的语义。 “张三对李四的看法” 结构上是 “ 张三 看 李四 的 ‘法’ ” “法” 不是默认的 method 语义,而是引伸的 perspective 语义,相当于英语的 point 在 viewpoint 或 point of view 中。黑箱的好处是可以把引申语义绑架为本义,英语的 viewpoint 就是用的同一种绑架的招数,否则 point 本身也意义含混。 John's viewpoint about Peter structurally is equivalent to John's perspective of (John) viewing Peter 昨天说过 虽然黑箱化 但在段子里可以休眠唤醒为白箱子: tv 新看法 就是。 总结:今天调试开发了的 unit test 的句子如下,工作成效颇不坏: 张三对李四的批评一针见血。 张三对李四的批评置若罔闻。 张三的批评一针见血。 张三一针见血。 批评一针见血。 张三对批评置若罔闻。 张三对李四置若罔闻。 张三置若罔闻。 张三批评李四 张三对李四批评 张三对李四的批评 张三之批评李四,毫无道理。 张三被李四所批评 张三被李四批评 张三为李四所批评 张三的被批评 李四对他批评 李四对他的批评 张三对李四对他的批评置若罔闻。 李四对他的批评一针见血。 张三对王五对李四的批评置若罔闻。 【相关】 【 tv 新看法 】 【立委科普:语法结构树之美(之二)】 【 关于 parsing 】 【关于中文NLP】 【置顶:立委NLP博文一览】 《朝华午拾》总目录 立委NLP频道
个人分类: 立委科普|3732 次阅读|0 个评论
【立委科普:实体关系到知识图谱,从“同学”谈起】
热度 1 liwei999 2016-6-29 22:42
同学 同乡 同桌 同门 同事 同仁 同性恋 朋友 对象 配偶 恋人 爱人 。。。 这类词(R),作为逻辑谓词,语义上实际上有两个 arguments 的坑要填。这两个坑是 reciprocal 的,其逻辑语义关系就是 human 实体之间的R关系。其汉语的句法表达是: 1. NE1 BE NE2 的 R 张三是李四的同学 == 李四是张三的同学 2 NE1 NE2 R 张三李四同学过 == 李四张三同学过 3 NE1 AND NE2 R 张三与(跟、和、同)李四同学 李四与(跟、和、同)张三同学 4. NE1 NE2 BE R 张三李四是同学 == 李四张三是同学 5 NE1 AND NE2 是 R 张三与(跟、和、同)李四同学 李四与(跟、和、同)张三同学 6 NP(Plural)R 她们从小同学 “她们” 不仅仅是 Plural 而且必然是指的 2 entities 7 NP(Plural) BE R 她们是同学 BE(联系动词)包括:成为、变成 、当、当成、疑似等,还有介词 “作为”也可归于此类。R 在汉语是名词,有时也“活用”为动词。逻辑上对应的是 (1) 指代;(2)逻辑谓词(表达实体关系)。最有意思的是 R 的双重身份(polymorph,学过C++的都知道这个)使得 R 可以自己给自己填坑。因此本来 R 是有两个坑的: 谁1与谁2 发生了 R 的关系,但由于实体(指代)的 R 可以自己填 谓词R 的坑,结果在简单的名词短语 “NP de R”(e.g. “我的同学”、“张三的同学”)的结构里面,语义坑填满了(saturated),很圆满的样子,一个是 R 本身,一个是 NP: “我的同学” 逻辑上等价于 ==【我】是【我的同学】的同学 ==【我的同学】是【我】的同学 假如我的同学叫“张三”,我叫“李四”,貌似同义反复的第二句其实是: 【我的同学(张三)】是【我(李四)】的同学。 == 张三是李四的同学。 逻辑表达式是: 同学{张三,李四} Note 谓词后是集合 { …… } 不是 list …… 因为此类关系是相互作用(reciprocal)的,没有逻辑的次序。 最后说一句,这类实体之间的关系的抽取挖掘,是建立知识图谱(knowledge graph)的一个核心任务。我们当年给起了个名字叫 CE(Correlated Entity) relationship。说话已经15+年前的事儿了,那时还没有知识图谱这个被谷歌炒热的术语。没必要谦虚,我们是知识图谱的 pioneers(之一)(《 知识图谱的先行:从Julian Hill 说起 》),当年的工作对于美国国防部立项知识图谱起了关键作用。这是旧话了,好汉不提当年勇,要往前看,看能借助 deep parsing 的核当量的威力,能不能施展一下拳脚,在中国和中文知识图谱大业上建功立业。 好风凭借力,送我做图谱。大数据图谱之上,种种应用在望,问答系统(QA)、智能浏览(intelligent browsing)、语义搜索(semantic search),等等等等。不求名利,无意宇宙,但求 put a ding 在我大唐。一切具备,只欠东风。求主保佑。 【相关】 《 知识图谱的先行:从Julian Hill 说起 》 【泥沙龙笔记:知识图谱是烧钱但靠谱的战略项目】 【立委科普:信息抽取】 《朝华午拾:信息抽取笔记》 《有了deep parsing,信息抽取就是个玩儿》 泥沙龙笔记:搜索和知识图谱的话题 《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》 【泥沙龙笔记:再谈知识图谱和知识习得】 前知识图谱钩沉: 信息抽取引擎的架构 前知识图谱钩沉: 信息体理论 前知识图谱钩沉,信息抽取任务由浅至深的定义 前知识图谱钩沉,关于事件的抽取 钩沉:SVO as General Events Pre-Knowledge-Graph Profile Extraction Research via SBIR (1) Pre-Knowledge-Graph Profile Extraction Research via SBIR (2) 置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录 立委NLP频道 : liweinlp.com
个人分类: 立委科普|3782 次阅读|1 个评论
Deep parsing 每日一析:内情曝光 vs 假货曝光
liwei999 2016-6-23 23:56
白老师出的那个 minimal pair: “这家公司卖给张三的内情曝光了。”“这家公司卖给张三的假货曝光了。” 测试一下,现在没有区分: 结构上粗线条是一样的 没大问题 可是 同位与动宾的区别没表达出来。既然句法大筐子不变,只是 roles miss 掉了,应该可以在语义中间件中轻易解决,透过定语从句的路径以及约束条件。 一觉醒来,在中间件加了一条简单的找逻辑宾语填坑的规则,看看怎么样?改进版: 这条规则是说,如果定语从句谓语句法完了以后仍然有宾语坑未填满,那么它所修饰的NP就来跳坑,除了 “消息” 类的NP。“内情” 于是被堵在外面 不跳,“假货”当然无所畏惧。至于 “内情” 与 定从 的同位语关系,可以做,但选择不做,因为定语的概念包含了同位语,比同位语大,目前没有感到有细分的必要。 上图中还有一个 catch,“公司”与 卖给” 的逻辑主语没有做,而只是做了 “公司”与“假货”和“内情”的句法定语关系。目前也选择不做,等到需要的时候也不难在中间件中补。主要理由与上面同,偷懒而已。主语是arguments中最接近adjunct(定语就是一种 adjunct)的角色,细分的必要性不强。当然语义落地真地需要,那就或者在语义中间件补上,或者在落地时候唤醒。 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|3885 次阅读|0 个评论
【泥沙龙笔记:语义可以绕过句法吗】
liwei999 2016-6-3 08:01
雷晓军: 可以直接语意吗?绕过句法。 我: 直接语义绕过句法是绝对错误的 雷: 愿闻其详 我: 这个以前谈过多次,也有历史案例(Wilks),董老师也一再教导,那是死路。但是对于pure research,是个可以探索的方向。 这里有其详:《 泥沙龙李白对话录:关于纯语义系统 》; 【 没有语言结构可以解析语义么?(之二) 】。 我的 NLP University 跟洪诗人的打油八宝盆似的,只要事关 NLP,里面啥都有 -- 除了深度神经算法。 雷: @wei 是没有走通,还是死路? 我: 从 scale up 和 real life 而言,没有走通,出不了实验室,因此是死路。更关键的是,句法tractable,更靠谱,多数情况下已经可以支持应用,不用白不用。句法多漂亮清晰 tractable 啊,语义多 dirty 混乱不讲道理不可收拾啊。舍此而求彼,殆也。舍近求远,是本末倒置。 雷: 动词的坑框架不是很清晰吗? 我: 动词的坑框架大多属于句法 subcat 的范畴。即便可以暗度陈仓地走私语义和常识进来,也不改句法制导的总体路线。 雷: 什么是语义?什么是句法? 我: 纯语义的模板是概念层的 “subcat”,基本上就是一个常识系统,HowNet 那一类。 雷: case theory是句法? 我: 对 费尔默的格语法是句法里面的语义派。 白: 没有明显形式标记的case不算 我: 不是纯语义。 雷: 什么是纯语义? 白: 我关心搭配,尤其是多对多的搭配算不算句法 雷: 对呀,搭配是语义搭配吧? 我: 譬如为了parse “我吃鸡” 或 “鸡我吃”,你不做 xp,也不做 主谓宾,你只用 Animal EAT Food 这样的语义模板,这就叫绕过了句法的纯语义路线。 雷: 主谓宾是什么?要主谓宾有什么用? 我: 主谓宾是句法关系啊。逻辑主谓宾是深度句法关系,反映深层结构,董老师叫做逻辑语义。 纯语义系统有两个组成部分:对应于词汇的概念本体(ontology),对应于句法的语义常识模板。 雷: 语义中有agent,object等不就可以了吗?为什么要主谓宾?我越来越糊涂了 我: 乔姆斯基你是怎么学的啊?乔姆斯基 50 年代不就说了吗,光深层结构不行,因为看不见,需要表层结构作为桥梁走到深层结构,这是 parsing。如果生成(generation),就需要深层结构走到表层结构。这个原理是亘古不变的。 雷司令是装糊涂。 雷: 乔姆斯基不讲语义的,只是偷用语义。 我: 乔姆斯基强调句法与语义分开,并不是说乔姆斯基不讲语义。不讲语义做什么语言呢?语言成为完全的积木。 雷: 乔姆斯基真的不讲语义,他只关心句法,而且认为句法就够了 我: 即便是积木,怎样搭建成一个目标建筑,那也是语义啊。 雷: 句法是innate的 我: 句法不能吃饭,只有落地为语义才能。 白: 如果想得到去伪歧义的句法分析结果,就要明里暗里使用各种盘外招。伟哥在分析器里内嵌了一部分盘外招,留了一部分盘外招给语义中间件。我认为两种盘外招可以统一于大数据。 我: 说的极是。 不过,“ 我认为两种盘外招可以统一于大数据 ”,这个还需要看看。能不能高效地走通大数据的这条路,我有些怀疑。 雷: 他的学生Jerry Fodor更极端,人脑中就有句法的modularity,语义的加入是NLP的事情,是为了工程,同语言无关 我: 乔姆斯基的确想让句法自制,但是那是句法系统内部的事儿。最后的结果仍然是句法导向语义的接口。 雷: 语言学中语义学不是显学吧? 我: 我觉得你被quasi-Chomsky洗脑了。什么是语义:不外两个落脚点,一个是本体,一个是逻辑语义。 雷: 我在的学校乔姆斯基的学生云集,都是被Jerry Foder弄来的。 本体和逻辑语义都是计算机的人在弄吧 我: 不是,费尔默是语义巨人( 《语义三巨人》 ),逻辑语义就源于他的格语法(Case Grammar)。 至于本体,其实就是词典,概念词典。 雷: 他只是龟缩在西部,东部的人不认 我: 那是因为乔姆斯基光芒太甚,费尔默没法跟乔对抗。但是对 NLP 的影响,其实 费尔默 比 乔老爷可能更大,特别是后期的 NLP 规则派,董老师啊 日本长尾真啊,都是受到费尔默的深刻影响的 NLP 代表人物。当然到了统计学习派,什么乔姆斯基 费尔默 都不尿他们了 董:据已故汉语语法学家林杏光先生的著作称,汉语语言学家提出并对于所谓的“格关系”的研究,要比Fillmore的“Case for Case”早四分之一个世纪。所谓的“格”的领悟是操汉语的人们的天生的智慧。例如:吃饺子、吃馆子中”吃“的意义不变,而宾语的语义不同,这样就有了受事宾语、处所宾语等的分别。 雷: 费尔默的动词坑框架不是被伟哥批评为不接地气吗 我: 费尔默有两段学术生涯。第一段是格语法,董老师发展为逻辑语义。这一个理论和实践是接地气的,关键的。 白: 句法也有坑的 雷: 句法的坑不同于格吗? 白: 句法的坑,你可以想象成某种“正式语序”下的直接成分。而真实语言中,除了正式语序之外,还有若干“变种语序”。 我: 费尔默后期的 FrameNet 虽然是格语法的自然延伸,朝着语义语用的方向进一步深入,但是不接地气,因为没有必要这样来连接语义和语用,直接从格语法进入语用要方便得多。FrameNet 是有道理的东西,但是没有什么实用价值。 白: 建立变种语序与正式语序之间的关联,就是“填坑”, 句法意义上的 雷: 这个要建立在词法上? 我: 白老师说,没有明显形式标记的case不算,,这个实际场景是这样的: 形式标记的 case (就是我说的语言形式,见 《 泥沙龙笔记: 漫谈语言形式 》) 是输入,逻辑语义是输出。这个输入条件可以是显性的语言形式,包括词法的格标记、词序,也可以是隐性的语言形式,包括 POS,包括 ontology,所谓 subcat 就是这样一个编码在词典里面的输入与输出的潜在对应关系。然后句法分析器根据它来实现输入对输出的映射。也就是实现从表层结构的语言形式对深层结构的逻辑语义的求解。deep parsing 说到底就是这么个事儿。 subcat 总是词(老爷)驱动的,里面规定了在哪里(词序)找什么样的(节点条件)放到什么 arg (逻辑语义)去。 洪: 伟爷天天摆龙门, 语法语义跨越坑。 Deep Parser有锋刃, 庖丁解牛想找新。 【相关】 《 泥沙龙李白对话录:关于纯语义系统 【 没有语言结构可以解析语义么?(之二) 】 NLP University 泥沙龙笔记: 漫谈语言形式 《语义三巨人》 【立委科普:本体知识系统的发展历程】 《泥沙龙铿锵三人行:句法语义纠缠论》 【没有语言结构可以解析语义么?浅论 LSA】 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|3549 次阅读|0 个评论
【deep parsing 小品:天涯若比邻的远距离关系】
liwei999 2016-5-31 22:40
notes 一哈: 1. “这个” 应该跟“房间”,而不是“(房间)衣服” , 可是“个”是万能量词,这个区分来自什么知识? 2. Next 应该是 O between “穿” and first NP “....衣服”, 这个不难,是搭配,语义中间件可以搞定,利用 Next 桥梁。 3. 定语“穿” 目前逻辑语义的既是 S 又是 O 的结果在搞定 2 时候可以修正成 S: 人 S - 穿 - 衣服 O(主谓宾)。 4. 这句里面,进来“ 与 ”房间“ 的远距离关系是最难对付的, 这是白老师出此题的精到的所在。 最妙的是,即便挨着,我们一般也不说“进来房间”(是可以说,但有些勉强),而是句法词法搅合地说“进房间来”, 何况这个 arg “房间”隐藏在第一个 NP 的内部做定语 Mod 或 话题 Topic。 这几乎是考验NLU的句法极致了。赞一下白老师此句。 4 暂时不指望做了。其余的都是脉路清晰可见可达,一步之遥而已。 远距离的 4 的关系,如果一定想做,我们可以看看在线性语句转化为平面树图以后,语义中间件里面,其距离到底有多远? 第一步:“房间”通过 Mod 到达 “衣服” 第二步:通过 Next 到达 “不允许” 第三步: 通过 OPred (动词性宾语成分)到达 “进来” 可见,即便如此复杂深奥的远距离关系,到了句法以后,相互距离不过是三步之遥: 句法的 trigram 而已。 可见句法之结构化的厉害。 数一数这个远距离在线性中的距离: 房间 -- 1 衣服 -- 2 穿 -- 3 得 -- 4 过于 --5 暴露 -- 6 的 -- 7 人 -- 8 不 -- 9 允许 --10 进来 换句话说,线性序列的 10-gram 一结构化就成了 3-gram。 古话说:海内存知己,天涯若比邻,信然。 因此 4 虽然从句法语义上看,差不多是最典型繁难的远距离自然语言理解的挑战的一个实例了,但实际上在句法核武器上了以后,还是有路径有希望的。 不过是暂时放放,不强求立马去做而已。非不能也,是不为也,是语言学家的 fascinating 的例子,但不是NLU实用上最当紧的任务。 白老师出得如此绝妙好句,也是醉了。声称 NLU 的人有福了,or 有的做了。 【相关】 【新智元笔记:搭配面面观】 【新智元笔记:搭配二论】 《泥沙龙笔记:漫谈自动句法分析和树形图表达》 泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 【立委科普:语法结构树之美】 【立委科普:语法结构树之美(之二)】 【立委科普:deep parsing 小讲座】 【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4143 次阅读|0 个评论
【新智元笔记:关于汉语介词的兼语句型,兼论POS】
liwei999 2016-1-25 11:23
白: 遇到一个问题:“自我调节”、“自我修复“等当中的“自我”是什么词性?当说“进入自我修复的阶段”时,“自我”是定语吗?当说“进行自我调节”时,“自我”是状语吗? 我: 二者看不出不同,可以认为都是状语。对于小词,词性的命名并不重要。 小词的pos基本上是纯粹为了方便,无一定之规。一个小词的类别包含三五个词,还是几十个词,有很大的任意性。反正小词的类别是强盗绑架、词典枚举,系统内部协调方便即可。这与开放词类别不同。 宋: 指称语的修饰成份是定语,阵述语(述谓语)的修饰成份是状语。上例中,自我调节和自我修复好象都是述谓语,所以两个自我都是状语。 白: “按照证监会部署”当中的“证监会”是定语吗?为什么? 我: again 关系命名不重要。 白: 这次没有小词 我: 按照+NP+Pred,是一种确定的pattern,有对应的关系语义。在这个 pattern 里面如何命名 NP 与 Pred 之间的句法关系的名称不重要。逻辑上 NP 是 Pred 的施事,句法上,这个 pattern 可以在中间加 “的”(句法定语的典型标志)而不改变逻辑语义,所以如果说不加“的”也是定语,也未尝不可。 宋: 我掉进白硕设下的陷阱里了。问题的关键在于,一个小句由指称语加陈述语组成,但更深层的结构如何区分指称和陈述,以及是否需要做这种区分,还需研究。 我: 如果有人说 NP 是“按照”的兼语,也未尝不可。句法的命名没有一定之规,也是方便原则。重要的是,无论怎么命名,一个句式(pattern)所对应的逻辑语义应该是确定性的。汉语介词(又叫“副动词”)与动词没有明显界限,如果动词可以带“兼语”,那么“按照”(一般认为是介词)采用兼语式的这种说法,也是可以说得通的。如果说是定语,则“按照”就与其他的介词一致,句法上只需要一个介词宾语的坑,但是这个宾语坑要求动词充当,并且它的逻辑主语通常也是出现的,无论加“的” 还是不加“的”。 白: 遵循,跟随,陪同,邀请,......逐渐就演变成兼语了 。 我: 是的,可以看出连续性 ,从虚化一点的副动词到一般动词 。 汉语语法研究中,经常看到为命名而争论 , 而忽略了其对应的逻辑语义的实质 , 常常是不毛之争 。其实 大多是 system internal 的协调问题,没有什么理论意义,也没有多少实践指导作用。兼语也就是个命名,类似的英语文法就不用这个术语,而直接说宾语(但其实有两种不同的宾语,一种是后面必须带宾语补足语的,一种是宾语就足够了的) 。 但无论怎么命名,关键还是一个 verb pattern or prep pattern 如何 map 到逻辑语义,这才是 句法 的实质。 白: 一头是倾向于“介词性”,好像说了半句话;一头倾向于“兼语性”,更加自足。英语,make him cry 。 我: 英语有形态,所以采纳“兼语”这种明显违反依存关系的句法原则(一个儿子最多有一个老子)的说法,一般认为不足取,但仍然不会改变其到逻辑语义的映射,因为后者是语言共性。 譬如 , We asked John to come. We asked that John come. 这是两个明显不同的 subcat verb patterns, 前者是 V+NP+Infinitive;后者是 V + (that) + S (subjunctive in the form of original verb form),这样就凸显了形态语言的句法依存关系原则,前者 John 是宾语(对应宾格 him),后者是主语 John (对应主格 he)。而且后者从句不能用词尾 -s 来与主语保持第三人称单数的一致,因为从句不是陈述式。可是逻辑语义是宇宙一致的。在英语有这样两个 patterns 来对应(当然有 nuance 细微差别),而在汉语因为缺乏形态,结果变成了一个 “兼语”句式。这种跨语言的句法对比很有启发性。总之,句法的系统带有很强的任意性,内部统一和协调就好。没有对与不对的硬性标准,只要逻辑语义映射对了就好了。 白: 这个“按照”是不是介词?“他们发表这个声明,没有按照正规流程。” 我: 最好是把介词与动词看成是一个大类别里面的两个子类,然后根据不同分布随时让介词可以充当动词谓语,如上例。而介词默认是做状语。这样处理就避免了词性标注的争论。 NLP 历史上,POS 作为一个独立任务,有模块化的好处,有历史的进步意义。但 POS 分割出来以后,加上毛病多多的 PennTree 标准的流行,实际上造成了极大的误导。更由于这个领域里面主导的都是统计出身的人,普遍缺乏语言学的准备,对POS做机械解读,本末倒置,成为领域中一个很突出的问题。 白: “张三找李四去自首”有几重歧义? 我: 白老师打一枪换一个地方,是在挖坑么?我不怕上钩,就随风而舞,胡喷? 白: 到处都是坑,相当于没坑。 我: 本来以为就是兼语,逻辑语义上,“李四”是“去自首”的施事。没想到我的 parser 不知何时被我教导走了另一条路,想想也对: 因此至少有两个解读了。“找李四”于是成为一种方式或陪伴状语 (adverbial of manner or accompanying attendance)。不知后者是否有些勉强? 白: 不勉强。非常正确。 我: 那我是歪打正着了,已经记不得什么时候教给机器那一招了。所以我说,如果你不断教机器学文法,总有一天它突然会出乎设计者的意料地做出某种设计者自己第一眼也看不出的解读来。机器的记性太好了,memory 容量太大。老师可以忘记,学生却不会。 白: 方式一解,李四是自首的对象,“找李四”相当于“向李四”。陪伴一解,李四是行为的共主,“找李四”相当于“同李四“。 所以一共有三重歧义。 我: 是, 一种兼语,两种状语。 白: 对 【相关】 【新智元:中文 parsing 在希望的田野上】 【立委科普:语法结构树之美(之二)】 【征文参赛:美梦成真】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|3432 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-1 15:45

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部