科学网

 找回密码
  注册

tag 标签: subcat

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

【李白之68:再扯NLP萝卜填坑】
liwei999 2017-8-13 20:37
李: 发现 “引进” 与 “引入” 可能方向不同 虽然应该是同义词。读【 李白之29 】(“ 依存关系图 引入 短语结构的百利一弊 ” ),突然觉得不对劲 这不是我的原意。原来想说的是,“依存关系图 引进 短语结构的百利一弊”,或者,“短语结构 引入 依存关系图的百利一弊”。a 引进 b,语义主体是 a 而 b 是逻辑修饰成分;b 引入 a,a is semantic head while b is modifying element。不知道这个语感对不对 是不是语言共同体的 还是语言学家的走火入魔? 另 并列排比的力量很大 汉语为最 英语也有: “One in the morning and one afternoon” 力量大到了可以生生把 one afternoon 拆散,棒打鸳鸯 可 NLP 界对这种现象研究和应对却远远不够。排比句式的自动处理及其与parsing 的无缝连接 可以做一些博士课题 排比是并列的延伸,而并列现象早就公认为是nlp的拦路虎之一。 白: 何以见得?程序员会首先说,编译通不过 李: 万一编译器鲁棒通过了呢。 两个什么?论最近原则 是两个西红柿。但还有一个更大的力量,就是前面说过的排比的力量:一个x ……两个【 】。 白: 通过的那种编译不叫鲁棒叫自作多情。如果论排比,那“一个啥啥”前面也得加“如果啥啥”。 李: 排比的力量真地很大 感觉强过距离 虽然这几句不 make sense. 白: “孩子”是称呼对方还是指称对方子女,这是个问题: 白: “拍的一手好照”……第一次见到这个说法。 李: 洗的一把好澡 吃的一桌好饭 拍的一屁股好马 吃的哪门子醋 吃的一坛好醋 双关 嘲讽 白: 你那些统计频率够高,这个不行 李: 露一手 拍一手好照片 踢一脚好球 踢的一脚好球 想一脑门心思? “脑门” 与 “心思” 搭配,“一手” 却与 “照片” 并不怎么搭,“一手” 与 “拍” 似乎搭。 白: 如果“所”负载“他所说”,那么“他所说的”就是“所”填“的”坑。交叉了不说,感觉有点怪。 “所”是个纯粹的逻辑宾语提取算子,“的”则广谱一些,既能提取逻辑宾语,也能提取逻辑主语,而且接名词能构成定语,不接名词自己就升格而名词化。 李: 小词负载结构 也负载语义吗?我想请问的是 白老师系统如何区别 “所” 提取宾语的标配,与 “的” 既可提取宾语 也可以提取主语?这个区别如何在语义上实现?体现 在 pattern rules 里面的话,这个区分很容易实现。 白: 词负载语义结构,使用的是subcat类型演算。也就是说,“所”和“的”的提取对象,在cat层面不做区分,在subcat层面做区分。“的”提取“剩下的那个不饱和坑”所携带的subcat,“所”提取“代表逻辑宾语的那个不饱和坑”所携带的subcat。如果两个以上坑不饱和,如“卖的”,则取两个坑的subcat的最小公共上位(上确界):sup(human,human,object)=object。等待一旦其他成分做出更加specific的限定,比如“买的不如卖的精”或者“卖的都是假货”,再图改变。 李: 那是 unification 的本来意义:unspecified until more specific 两个小词提取(代表)的不同,在 subcat 演算上实现。这个 subcat 是谁的 subcat,又是怎么做 subcat 演算的?对于实词,cat 决定句法(萝卜与坑 以及 mods),subcat 决定语义(semantic lebaling 解析逻辑语义),我们可以想见。 对于小词呢? 白: 小词要具体分析 李: 从哪里看出来 “所” 指的是宾语。 我的所爱在高山。 我所爱的在高山 我所爱在高山 我所爱的人在高山。 我所爱的东西在高山。 我爱的在高山。 爱我的在高山 *所爱我在高山 白: 上面讲的“所”和“的”,我们用的词是“提取”,意思就是说它的subcat是copy来的,在copy之前,它是一个指针变量。说清楚了,谁填你的坑,你提取谁的哪个坑所要求的subcat 李: “爱我” 只剩下一个萝卜 所以 “爱我的” 就是那个萝卜(代表)。为什么 “所爱我” 不成立?“所我爱” 其实也不成立,只有 “我所爱” 才成立,这个体现在哪里? 白: 我不管什么不成立啊,又不做生成只做理解。做生成也不这么做 李: 哈 这总是少了一个 leverage。赶巧了 词序不对的序列 不会出现 因此把词序 leverage 从 parsing 中扔开 貌似多数时候可行。但总是会遇到某种时候,词序的条件恰好就起到了帮助 parsing 的作用。 白: subcat完全相同才会考虑次序,这时逻辑宾语右侧填坑优先。但是“所”提取逻辑宾语是硬性的,比只是“优先”来得更加强大。所以有了“所”,就轮不上这些右侧优先了。 李: 这种优先度的调整 听上去是宏观算法的考量,而句型subcat里面所规定的词序(如果词典规定的话)则是微观的。后者比前者更加精准。 白: 前者更加robust。我之所以放弃pattern,就是因为它管了不该管的事儿。 李: 动词句型的subcat,管得恰到好处呀,句型里面说在左边,那就一定在左边。 白: 好好说话是生成该管的事儿。而在各种糟糕语序下尽可能猜测对方意思是分析的事儿。 李: 句型里面的词序规定,与对小词的规定,以及对实词的规定(强搭配规定实词本身,弱搭配规定实词的本体)。所有这些规定都是一以贯之的。不管是分析还是生成,一个句型长什么样子 是植根在句型 subcat 的词典里面的。这是词典内语言知识。至于这个知识用于分析,可以适当放宽而鲁棒,或者用于生成,适当收紧而顺溜,那是知识的实用层面的考量,而不是知识本性发生了变化。 譬如 “邮寄” 带三个坑,其句型就是: 1. 邮寄 2. 把 邮寄 (给) 白: 理想的词负载结构,是可以100%把句型语序再现出来的。使用刚性方式(override)还是柔性方式(优先级),只不过是实施当中的工程选择,与理论无关。如果我愿意,也可以都采用刚性方式。但是我不愿意。比如及物动词六种组合语序,双宾动词24种组合语序,其中有多少种是合法的,我不需要关心。也不会用罗列的方式去挑出合法的组合。 李: 不同策略的选择 如果信息无损 当然无所谓。说的就是,在采用优先级柔性方式对付词序的时候,至少在词典化的句型信息方面,条件是受损的,词序这个显性形式没有得到充分利用。弥补它的手段包括中间件的查询。但是中间件的查询,其本性是隐性形式的使用,而词序是显性形式。 白: 没看出来受损。 李: 受损在:本来是由谓词本身来决定萝卜的词序,作为条件之一来填坑,现在却交给了谓词以外的东西。交给了算法中的优先级 and/or 中间件的查询。这个损失蛮显然的,对于所有把谓词本身与其句型的词序规定分开的算法。 白: 搞混了吧,这是谓词自带的,不是交给了算法。 李: 谓词自带词序?? 白: 第一个坑、第二个坑谓词自己是有指针的,自带优先序。 李: NP1 eat NP2:NP1 NP2的词序是词典决定还是......?至少 S/2N 貌似没反映词序。这个2N 里面没看出词序信息。 白: 说的就是第一个坑优先左侧结合,第二个以后的坑优先右侧结合。句法不管而已,subcat管。但是句法和subcat是时时刻刻互通的啊。不相谐时看后续选择。 李: 第一个坑优先左侧结合,这个东西,是对于所有 2-arg 的谓词有效,还是可以对于不同谓词有不同?如果是前者,就不能说是词典信息决定词序。 for another example: 1. translation of NP1 by NP2 2. translation by NP2 of NP1 这类词序原则上都是谓词 translation 在词典就决定好的,到了具体句子坐实其中之一而已。 白: 比如“饭我吃了”,1、吃是S/2N。2、“我”最先从左侧遇到“吃”。3、“我”与其中一个坑相谐。4、锁定human,留下food。 “我饭吃了”:1、同上。2、“饭”最先从左侧遇到“吃”。3、查相谐性,发现是第二个坑subcat相谐。4、锁定food,留下human。 至于查相谐是否必须从左到右遍历,这纯粹是一个算法问题。数据库还允许做索引呢,我为什么一定要遍历?“饭”都有了,跟“吃”的第二个坑匹配为什么必须先查第一个坑。 李: 句型规定词序的做法有下列特点: 1 在词序占压倒优势的句型里面,根本不用查语义和谐。就是词序绑架。 2. 在词序不能决定语义的时候,可以明确提出是哪两对发生冲突:然后让语义在这两对中去比较力量来求解(消歧)。白老师的上述做法貌似在情形1的时候,不必要地查询了中间件,多做了功来锁定。 白: 总而言之,在部分分析树上匹配目标句型,是我N年前使用的方法,现在已经放弃了。放弃的道理是在分析环节追求更好的鲁棒性。在生成环节,有另外的做法。 李: 在情形2的时候,不知道是不是也是查询中间件的力量对比(牵涉两个可能的二元关系),还是只查询一个关系? 白: 没有。一步到位。 说的就是没有使用遍历的方法。只有一个匹配结果就是第二个坑,第一个不用出现都。 李: 遍历也不是“遍”历,n个元素并没有理论上的所有词序排列,而是句型决定了哪些词序排列是可能的,哪些排列根本就不可能。而这些决定都是那个词的知识。 白: 白名单制。 有点对不上频道,我说的遍历是查询时对坑的遍历,不是对可能语序的遍历。我的结论就是,不需要遍历。 李: 这二者在句型实现或坐实中是相交的。譬如两个坑加一个谓词,句型的所有排列是: 1. 谓词【1】【2】 2. 谓词【2】【1】 3. 【1】谓词【2】 4. 【1】【2】谓词 5. 【2】谓词【1】 6. 【2】【1】谓词 当然对于一个特定的谓词,其句型就是这里面的一个子集。 白: 3! 李: 对。如果牵涉小词,上述句型还要扩展。 白: 我现在是一个句型都不写。 李: 然后加上省略,也要扩展: 7. 谓词【1】 8. 谓词【2】 9. 【1】谓词 10. 【2】谓词 白: 嗯,你这充分说明了我不写句型的优越性。 李: 看上去很多,但第一很清晰,第二具体到谓词,只是一个子集,有些排列被句型一开始就抹去,第三,每一个这种句型排列都可以确定性地决定,是歧义还是不歧义,从而决定是不是要求助或留给后面的语义模块。所谓文法,主体也就是这些句型。没了句型,文法也就差不多消失了。 白: 专制的文法消失了,民主的文法还在。中心化的文法消失了,去中心化的文法还在。拉郎配的文法消失了,自由恋爱的文法还在。 李: 很多年前我们的英文文法大体稳定在 600 条规则左右,其中大约有 400 条就是这些句型排列。400 条还在可以掌控的尺度之内。为什么 400 条就可以包揽呢?这是因为上帝造语言有个仁慈的设计:args 不过三。以前说过这个。args要是过了三,排列就至少是5!,必然引起句型爆炸。自然语言的谓词绝大多是是 2 args or 1 arg,只有少量的 3 args or 0 arg。决定了机器人通天塔并非不可能建造。如果当年设计语言的上帝忘了人脑的有限,弄出不少 4-args or 5-args,就傻眼了。一个事件往往关涉很多成分。但人在描述这个事件的时候,总是碎片化描述,每个句子遵循 args不过三去描述,然后利用冗余和合一,最后在篇章中才拼凑出完整的语义图谱出来。这就是自然语言简约有效、与人类脑容量相匹配的奥秘之一。 白: 这就是老话说的,一碗豆腐豆腐一碗,本来不需要区分的,语序一成刚需,得,不区分也得区分了。 一碗豆腐和豆腐一碗,语义上没差别,差别在语用上。数量词后置,是“报账”场景专用,可以让人联想到饭馆里跑堂的。如果将来都用移动终端触摸点菜,“二者的语用差别”就会成为历史。跟自称“奴婢、在下”一样,只能在文艺作品里看到听到了。用于分析的句法,不适合画“毛毛虫”的边界,画出毛毛虫的“包络”就很好了。 【相关】 【立委科普:及物、不及物与动词subcat 及句型】 【李白董之51:说不完的subcat和逻辑语义】 【Parsing 的命根子是subcat,逻辑的和语言的】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4162 次阅读|0 个评论
【李白之41:Gui冒VP的风险】
liwei999 2017-4-28 17:31
白: “这些国家的统治者必须变革,不然就是在冒被一脚踢开的风险。” 1、“冒……风险”,离合词; 2、“风险”属于“N/S”型的名词,不反填定语从句; 3、“被”由N+升格为N,占“一脚踢开”提供的两个坑中的一个; 4、先行成分“这些国家的统治者”填“一脚踢开”提供的另一个坑。 李: 【冒VP的风险】 汉语离合词 是框式结构之一种,离合词里面的 XP 是啥 离合词本身决定。可以认为是由该词的subcat模板所规定。 这个case里面规定是要 VP。离合词“冒-险”(“冒-之|的 险|风险”)本身也是(动宾式)VP,于是我们赶上了内外两个 VPs:“Gui 冒杀头之险”。Subcat 如是说: 1 Gui 冒险。 2 Gui 杀头: 实际上是被杀头。“杀-头”本身也是离合词 里面应该是要的NP。NP外化就成了句法主语和逻辑宾语,也就是所谓隐式被动:Gui杀头 == Gui被杀头 == 把Gui杀头 == 杀Gui的头 == 对Gui杀头。这才叫语言学,微观语言学, subcat 执导。subcat 是语言个性与共性的接口 3 两个 VPs 之间的关系: 当然也由外面这个离合词“冒-险”来决定。具体说就是,内VP是外VP的同位语,是给外VP填充“冒险”的内容:冒什么险?杀头之险。这个同位语来源于内VP是外VP里宾语的定语这种形式,是随着离合词动态合成为动宾合成词,由宾语的同位语定语,捎带过来的(定语转状语,主子单位是变大了,但mod本性不变)。这个现象是动宾离合词的共性,再如:洗个痛快的澡 == 痛快洗澡. 4 剩下一些句法语义的鸡零狗碎 也仍然是外VP的subcat决定的:包括内VP是非谓语VP,因此不能用句法(或词法)的时体形式,语义上表达的是不定式。至于外VP,它当然是谓语VP, 譬如可以有进行体:“Gui正在冒杀头之险”。 总结一下:subcat 可以有很丰富的内容,很复杂的规定,它连接句法形式(模式s)与其对应的语义。好在 subcat 都是词典词条决定的,所以再复杂琐碎,在词典主义(lexicalist)看来也不难把控。 理论上 subcat 的这种复杂性最好由subcat的复杂特征结构(SUBCATT typed feature structure)来描述。上面举的例子及其相关句法语义的约束及其与逻辑语义的接口,可以非常从容、非常精细地在诸如 HPSG 的复杂特征结构里面透明地表达出来。如果是象牙塔玩符号逻辑,可说是进入了符号逻辑的天国:个性共性 词典grammar, 句法语义 燕舞莺歌,太平世界 同此凉热,在在美景 处处和谐。这就是我以前说的 玩 HPSG 可以入迷的原因。下面给几个HPSG 的复杂特征结构的图示,展现一下其叠床架屋背后的合一(unification)风采: 但我们终究还是抛弃了复杂特征结构,为了线速,为了简略,为了多层,为了模块化和易维护。总之是为了现世的便利,挥别了理想的符号天国。 【相关】 【语义计算:李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3768 次阅读|0 个评论
【李白董铿锵行:说不完的subcat和逻辑语义】
liwei999 2017-4-16 11:29
【立委按:30年前,董老师就是我学逻辑语义的启蒙老师。30年后还可以拜技术所赐,与老师坐而论道,由衷感激。逻辑语义这个术语的命名和流行 源自董老师的论文。类似的术语有 Deep case (菲尔墨),Theta role(乔姆斯基), Semantic role , 但我还是最喜欢用董老师的逻辑语义。】 白: 【今天冲击30度,明天骤降6度伴随雷阵雨】 为啥30度是目标值,6度是差值? 李: 逻辑语义 与 句法角色 的主要差别就是,前者依存的老子是细颗粒的概念或语义,后者依存的老子是粗颗粒的子范畴(subcat)。“冲击” 与 “降” 的概念差别,决定了所带的逻辑语义角色的分别。从subcat看 这两个动词属于一类,因此句法儿子相同 都叫宾语,但是从语义角度 这两个动作概念有距离,查一下 hownet 就知道了。细颗粒到什么程度呢 要看系统的设计了。譬如 hownet 有将近 100 个逻辑语义角色,相对应的语义颗粒度或分辨度就显得相当细。【升降变化】 这类肯定要单列出来,也可以想象 逻辑语义压缩到 20 到 30 的样子 合并一些接近的角色,那么统领逻辑语义的谓词的概念颗粒度就可以粗一些。 总之逻辑语义不象句法角色那样抽象 独立和粗线条,逻辑语义是比较紧密地配合谓词语义概念去 make sense 的。【心理】谓词的主语 在逻辑语义叫 experiencer(体验者),但【行为动作】谓词的主语 则逻辑语义叫 agent(施事)。这种呼应除了有本体知识(ontology)体系内在的设计需要外,还有让人看着舒服、容易理解的考量,也就是我以前说的,语义表达带有某种人类自己与自己玩的色彩。 在董老师面前说这些 难免显得浅薄。我等董老师打板子 批评纠正。 董: 按知网的规定:冲击30度,30度的逻辑语义是“StateFin-终状态”;降6度,6度的逻辑语义是“QCompare-比较量”。但是知网的分析系统我预计它做不对。因为这样的区别要有更加专门化的知识,气象的常识来解决。知网没有如此细的常识表达。单靠两个动词的语义差别,我想不出来如何解决。 李维说的没错。是会有自己玩的色彩。每个人有自己对客观世界的自己的认识,研究有自己的风格,有自己的要求,或遇到的不同的需求。总觉得自己那个好,不要紧,是正常的,但不要总觉得别人的一定不好,那也许就不太好了。 李: 也有的语义表达体系走极端,觉得哪怕细颗粒度也不够好,100个逻辑语义根本不足以表达语义关系的细微差别。譬如 hpsg,它在语义表达上不喜欢任何抽象,agent呀,patient 呀,experiencer 呀,都太过抽象,就更甭提逻辑主语、逻辑宾语了。一不做二不休,他们的语义关系的命名变成了一个开放集。本体有多少谓词语义终结节点(石实践中常常就用那个谓词的词),就有多少个对应的语义关系。逻辑主语加后缀 -er,逻辑宾语加 -ee,这样来命名逻辑语义。因此,like 的 主语叫 liker,宾语 叫 likee;hit 的主语 叫 hitter,宾语叫 hittee。完全没有概括性了,我把这种设计叫做词汇主义极端派,有点走火入魔了。但有一个优点,人一看就明白是什么角色。 我觉得其所以语义表达有自己跟自己玩的色彩和空间,是因为一个知识体系是某种连续的存在。语义学家在模型这个体系的时候,必须抽象到离散的点去。这就需要切刀。切几刀 怎样切 比较合理 比较适应人的理解和应用,不同的设计家会有不同的考量。 董: 再者,上例中30度是个”点“;6度是个”量“,没有气象知识怕不容易分别了。 李: “降6度” 感觉没有歧义。难的是 “冲击30度”。后者可能需要专业知识才能消歧。一个通用性常识本体的知识库,不足以做出这种区分。如果是 “降到 6度”,也没有歧义。 讲个故事: “我们实验室是做低温实验的。我们设计了一个装置可以不断降低实验空间的温度。第一天我们成功降低了10度 只用了三秒钟。第二天我们降了20度。我们改进了设计以后 正全力冲击30度。” 这个故事说明歧义在特定场景是可以翻盘的。在气象领域 他的标配歧义消解了,根据的是气象里面的领域常识。但场景可能打败这个标配语义。 白: 都不需要术语来指定角色。完全可以说,1号角色,2号角色。这是本源。施事受事的,都是次生的。 李: 有不少文法就是这么叫的:arg1、arg2,然后可以提供一个词典查询来求解:like 的 arg1 就是逻辑主语体验者,相当于 liker。这样看语义表达,就更凸显了人类在逻辑和语义上有相当浓厚的自己玩的色彩。 董: 说实在的,就是主谓宾定状补都不能弄对呢?少了,多了,又能怎样? 白: 信息抽取的角度看,弄不对,就可能提取不出来想要的情报,或者提取出错误的情报。从群体舆情分析的角度看,错一个漏一个都无妨。从个体观点分析角度看,错了,可能认友为敌或者认敌为友。 李: 信息抽取的模板定义本身,也有不少自己玩的色彩,当然是要玩得让客户高兴。譬如【公司购并】事件,谓词是 acquire 或 buy,句法的主语,逻辑语义的施事,与信息抽取模板中的角色【购并公司】的对应,就是在玩命名的游戏。句法的宾语,逻辑语义的受事,模板里面叫【被购并公司】。 白: 当然,只要语义对,句法错甚至没句法,又如何? 李: 没有楼梯爬上三楼的绝技人也是有的。事实是,尽管有这样的绝技存在,生产楼梯的厂家却不会倒闭。 董: 按李维说的,其实是不用再搞一套施事、受事等。 李: 我觉得100个这个量级是太细了一点儿。另外,逻辑主语、逻辑宾语的概念感觉很好使。这样 experiencer 和 agent 的区别就不重要了。因为这种区别,如果某个应用需要的话,总是可以通过查询谓词是什么得出来。 董: 你是能少则少,能省一个是一个。 李: 可能我来了美国19年,一头扎进了信息抽取。从抽取好用这个角度,我不需要那么细的逻辑语义。换其他应用,我不敢说。 董: 嫌多,少用就是了;如果嫌少了可就不那么好办了。关键是要能自圆其说。多有多的道理,少有少的道理。再一个,就是多了,能否乱。计算机不是不怕多吗? 白: 编号不怕多。 李: 这是一方面,多了总可以合:或者用逻辑或,或者用taxonomy定义一个上位关系。问题不在这里。问题在多了以后,deep parsing那边就不得不费工。费了力气做了区分,发现用到的场合不多,就觉得不值了。关键还是,对于概念之间的依存关系,谁与谁发生关系是第一位的,老子儿子必须区分清楚。关系的种类粗一点无关大局。 白: deep parsing的首要目标仍然是确定谁跟谁有关系,而不是确定是什么关系。所以角色再多,不应该影响deep parsing. 即便影响,也只是影响搂草打兔子的部分, 那本来就是天上掉馅饼, 可遇不可求的。 李: 因为语义是在句法图中决定的。有了依存关系图,有了节点的本体知识,粗线条关系随时可以细化, as needed,不必把这种细化搅合到parsing里面。 白老师讲的与我说的,是一样的呀。 白: 我是说,语义角色多了就导致deep parsing不得不费工,这样的设计是有问题的。 李: 多了一个 role labeling的细活。而这个细线条 roles 在落地时候大多不需要。认真说,也没那么多活,也不是不可以做,就是觉得没必要做。因为信息抽取的根本原理是词驱动。在词驱动的语义落地场景,语义关系的细化没有多少助益。 白: 语义角色第一不要设限,第二不要用跨词汇的概念绑死,第三不要跟句法绑死。需要的时候接的上就行,和句法松耦合。想多就多,不要影响句法。直接拿次范畴去玩。 李: IE根本连次范畴都不要,就是词驱动。多用几个逻辑或就齐了。范畴集合如此之小,爱怎么枚举怎么枚举,管它的谓词本体概念属于哪个集合呢。 白: IE和实体知识库的差别,实体知识库是照单全收,IE是只取自己那一瓢。只取自己那一瓢,当然不需要subcat;照单全收是不行的,必须有subcat。 董: 我看你们常说次范畴或subcat,谁是与之相对的主范畴呢? 李: 董老师,文法里面所谓subcat,其对应是cat或叫POS,尤其是POS里面的谓词:VB或JJ等,这些cat会进一步细分为subcats。 董: 那么subcat是诸如什么? 白: cat那东西,各家也有不同 李: 当然白老师泛化了subcat,一切的词汇子集给个词典标签都叫subcat了。但是在HPSG这类文法里面,subcat是一个谓词句型规则的浓缩。里面是一个丰富的 feature structure,句型方面的某个子集。文法里面的 subcat典型代表是vt、vi这类。 董: 你给个具体例子吧?我都快被绕糊涂了?名词是cat,那么sub名词是什么? 李: 名词是cat,那么subcat可以有带宾语和宾语补足语的名词,譬如 translation:其subcat就是:translate of NP【受事】 from NP1【来源】 into NP2【目标】。对于这个subcat的句型潜力,给它取个标签,这个标签就是 subcat 的 atomic feature,譬如 vt、vi。 董: 懂了,谢谢。 李: 但是在复杂特征集的文法里面,subcat不取一个简单的标签,而是展开来写到数据结构里面去,这样一来这个数据结构几乎就是一个产生式规则,虽然理论上这个数据结构不是过程性的。所以所谓的HPSG没有规则,其实就是玩的这么个游戏。 发现,思想活跃的知识分子永远不显老,而蓝领老人就特别容易衰老。董老师冯老师都有这个特点,我老爸也是。可见信息也是一种养分,比营养更重要。 董: 不看或极少看“养生堂”之类的胡说八道的,多半可以长寿。 冯: 多动脑子有益健康。 董振东: 有道理。 昨晚的有关arg、subcat、等的讨论,我明白了。其实我们是不同路上的车,可能都是被英文parsing误导的,至少我是被误导了。大家的目标、方法、资源等都不一样。但不论如何环视对我们的研发很有帮助的。关于诸如逻辑语义等问题,等你们真的要关心时,你们可以看我们的专著《HowNet and the Computation of the Meaning》。 李:30年前,董老师就是我学逻辑语义的启蒙老师。30年后还可以拜技术所赐,与老师坐而论道,由衷感激。 【相关】 【语义计算:李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4760 次阅读|0 个评论
【李白对话录之11:parser 的三省吾身】
liwei999 2016-12-23 14:38
我: 白老师有关于深度分析的名言曰: parser三省吾身:有坑填乎?有盘翻乎?有subcat相谐乎? 填坑乃细线条句法,翻盘为语义重新计算,subcat 相谐引入本体常识。 宋老师提出的例子很有意思,属于语义翻盘: Jogger's nipple happens when a runner's shirt rubs against his exposed chest. google译为 慢跑者的乳头发生在跑步者的衬衫摩擦他暴露的胸部时。 宋老师说:其实,”Jogger's nipple“应该译成“ 慢跑者乳头”,具有专指意义,可以看作临床医学的术语。汉语中,“慢跑者乳头”和“慢跑者的乳头”一字之差,决定了前者是术语,后者为普通的短语。但是,如果说“慢跑者乳头会被擦伤”时,只能理解成(慢跑者(乳头 会被擦伤)) 这个一字之差 很合理啊。这与 hidden ambigity 同,是 context 强拆词典词。为了维持词典的优先或默认地位,这种强拆就是我们讨论过的休眠唤醒问题。这与 “难过” sad 被唤醒为 difficult to cross 是一个套路。可以用词驱动的方式 局部重新洗牌。 按照 “难过” 的处理思路 此例不难。大体是第一遍粗线条parsing的时候 不check语义限制条件,所以得出 这种疾病 会被擦伤 的逻辑动宾关系,大面上的 parse 是不错的,尽管不 make sense 因为疾病 与 擦伤 不搭。到后面的模块 或者是语义落地的模块,我们可以再做局部的 parsing 调整。正因为它有两种可能性,才使得词驱动的反悔策略可以成功。这个策略的成功已经在我的sentiment语义落地模块得到应用和证实。我专门 有一篇博文,详细解说这种局部parsing反悔而使得语义正确落地 ,否则“难过”就是主观的负面情绪,可我的系统最终结论为客观的困难。“这条小河很难过” 于是不同于 “这个小孩很难过”。sentiment系统做到这个程度 没听说过第二家,但的的确确是可行的。它基于的机制就是与白老师讨论过好几回的休眠唤醒,而不是 nondeterministic 带着瓶瓶罐罐跑。原则上 只要是可以词驱动的这类现象 都可以做。 白: 方法论上,就是纵向不确定性(词汇歧义)和横向不确定性(填坑歧义)不要搅在一起。先撇开结构(但不排除非结构的各种信息包括subcat的使用)确定无歧义的词汇(WSD),再聚焦横向不确定性。当纵向自己冒出更加相谐的其他候选或者横向遭遇结构性不顺或者二者兼而有之的时候,启动WSD翻盘,即休眠唤醒。这里的潜台词是,随着填坑的进行,WSD一直在继续,类似阈下联想。但这种继续,只是横向填坑的结果单方面抛给纵向WSD,但是不到翻盘启动,WSD只不过瞎联想而已,并不反作用于横向填坑。 我: 白老师是哲学家 善于总结和抽象。 白: 段子就是这么产生的 包袱就是这么抖的 直到WSD的最后一根稻草打破僵局,启动翻盘 我: 人也是这么个理解过程,叫 恍然大悟。恍然前 其实在标配休眠。 所以说 以前很多人认为 hidden ambiguity 是中文分词的死穴、无解,那是因为误把分词当成了一个独立的死模块。 明明是 context parsing 的催眠唤醒的任务,硬要怪罪和强加给分词。现在清楚了 这个问题有解,但解不必在分词层面,解隐藏在词驱动规则里面,不到一定的时候 不 activate。这与以前的 exhaustive parsing 的方案虽然原理都是借助 parsing 之力,但却适应了 real life 系统多层模块化开发的需求。(我在博士论文中提过用 chart parsing 通过 exhaustive candidates 解决一切切词任务,包括 hidden ambiguity 的,是把切词看成 parsing 的一个有机成分,这个解决方案理论上可行,但难以 scale up。) 白: parser三省吾身:有坑填乎?有盘翻乎?有subcat相谐乎? 我: 笑喷。差点喷在手机屏幕上 我: 说 subcat 是命根子 等价于说教科书上的 cat(POS)为基础的 grammar 太粗线条,很误导,只是 toy,无法对付真实语料。subcat 与词典主义是一致的。 白: 两个粒度 没得可选时,pos很给力。选择太多时,pos就是累赘了。 我: hierarchy: literal -- subcat -- cat subcat includes sub-sub-cat and hownet taxonomy 白: 沿上下位链条有一个统计分布,并不是任何一个节点的传播强度都相同。 非常有意思的一个问题 比如说到“猴子”,可能其典型的上位词是“灵长类”,而“哺乳动物”“动物”“生物”这些上位词就不那么典型。也不一定就是直接上位最典型。比如“豹子”,可能“猫科”并不典型,而“野兽”更加典型。如果要做无监督学习,典型性分布是一个必须解决的问题。典型性还会“条件化”。比如上下文中有“吃”,则“动物”上位就会强化。说“产卵”,则卵生上位会强化。 这样才能把词典中的subcat标签如所愿地变成非标注语料的自动标签。也就是说,实现正确的subcat embedding, subcat embedding是比word embedding意义重大很多的一件事,难度也不在一个数量级上。如果subcat embedding成功,意味着从此告别苦力,进入自动化标注时代。 我: subcats (sets or clusters of words from any angles) or taxonomy 链条中的所谓典型 nodes,说到底,是作为语言特征,它是不是有区别性。 早早年做 MT 有个例子很有意思。说英语的 down 有一个用法和义项,与 along 同,翻译成汉语是 “沿着”。需要什么条件才翻译成 沿着 呢?研究了 data 发现,原来是它后面的名词都有一个特征,可以叫做“线条性”,于是这个特征就成为语言使用和理解中有意义的 feature 了: down the street down the line down the pipe down the corridor etc down + NP【线条性】 --》 沿着 NP 那么 along 呢? along 基本没有歧义,于是就不需要这个条件了: along + NP --》 沿着 NP 生物学上的 taxonomy 不一定具有语言学上的区别性特征,其中的有的 nodes 典型,具有语言意义,有的 nodes 就没有语言学意义。人、鬼、神、妖 很不同的。但是语言使用上,其搭配关系大同小异。 白: 所以闭门造taxonomy是不管用的 标签造出来就是为了区别的 如果不知道谁对区别敏感,就吃力不讨好 我: 完全从大数据去 clustering,也不好说结果就好使;闭门造车拍脑袋也容易偏差。最好还是二者的某种结合。 回到那个【线条性】的区别性feature来。一旦总结出来,我们就可以穷尽词典,根据这个特征给每一个具有线条性的名词标注。从此就可以说 down 的这个用法,我们基本搞定了,没有 sparse data 的顾虑了。如果没有总结出这个 feature,并在词典里面穷尽它,SMT 和 NMT 能自己学出这个 feature 并对 sparse data 免疫吗?它能够从 down the street 举一反三到 down the line 吗?---- 假如后者是 sparse data,训练数据里面没见的话。 白: 等会儿,两个问题要分开。词典标“线条性”特征是一件事,写不写规则是另一件事。用学习的方式,学down 和“线条性”subcat之间的搭配,机器学习方法是没问题的。 走半步,做词典里的subcat标注,另半步交给机器,这很正常。 我: 有理。不过,难点在发现“线条性”是一个值得标注的东西。假设人已经词典标注了,机器学习出这种条件,是自然的。还有一种就是不管3721,把几万个能想到的 features 都标注上,然后让学习自动筛选区别性特征,选出 top 1000 features 其他的舍去。然后,词典维护的负担就大大减轻了,只要把注意力集中在 1000 个最具区别性的概念上就可以了。其实 1000 以外的 features 也没啥概括性了,经验告诉我们舍弃没问题。反正后面还有 literal 做底。literal 做底的就是我们说的强搭配。 白: 语言学家灵感所至,想出一个“线条性”来,当然是一个好的启发。但是对于学习来说,有好的启发就很好了,不需要语言学家干脏活累活调规则。所有工作集中到词典,剩下的交给机器。 我: HowNet 和 WordNet 里面都有万以上的 features,我们都知道者万以上的 features 其实只有千这个量级的子集最有意义。具体是哪些有意义,目前是拍脑袋。这个选取工作应该是机器来做的。 白: 作用还不仅此。 有时一词多义,不是所有义项都有“线条性”含义,比如thread作为“线程”解,其“线条性”就很弱。string当弦乐器解的时候其实已经没有线条性。所以一个外部条件,可以只和词典里一部分义项勾搭,把另一些义项冷落在一边,形成事实上的WSD,就通过subcat做。WSD和用搭配筛选固化结构,一石二鸟。义项支持结构,结构支持义项,形成正反馈。环形支持,不是单边支持。 我: “WSD和用搭配筛选固化结构,一石二鸟。” 这就是我以前说过的,为什么 IE 可以绕过 WSD,因为 parse 基础上的 IE 语义落地根本不需要独立的 WSD 模块作为支持,因为 WSD 在 IE 过程中自然实现了。当然前提是 deep parsing 支持的 IE,而不是主流那种没有结构支持的 IE。一般而言,一个词有多义不可怕,可怕的是多义没有结构去制约。如果对于最终的语义落地,总是以 parsing 作为跳板的话,这种多义的困扰就自然消失了。 白: 当然,也少不了反悔 有subcat干扰的反悔总是比较艰难的。只需三省吾身。 我: 实际上,IE 落地不仅可以容忍词多义(WSD),也可以容忍结构歧义。因为到了 IE 的份上,domain 已经聚焦到要落地的语义。这时候,词驱动因为聚焦变得可行。因为词驱动变得对于歧义可以容忍而不失精度,这就是 deep parsing 是语义落地核武器的奥秘所在。 自然语言最让人困扰的问题是歧义性。恰恰在这个最困扰的地方,parsing + IE聚焦 使得对于歧义可以免疫的词驱动的 approach 变得切实可行。 不少人因为只知道 IE 是学出来的,不需要句法和结构,无法理解 parsing 的核武器性质。结果是 今天的 IE 与明天的 IE 被看成是两个独立的任务,具有各自的知识瓶颈。但在 parsing + IE 的架构里面,这就不再是独立的任务了,而是80%+ 相交的任务了。说白了就是,结构不够(结构歧义)词来弥补,词不够(歧义)结构来制约。要恰好赶上词的多义与结构的多义在给定的IE语义落地任务中重合,并且这种重合影响到落地的质量,很不容易呢。换句话说,如果是两条腿走路,想出错都难,想质量不高都不容易。一条腿是结构,哪怕是歧义的结构。一条腿是词(nodes),哪怕是歧义的词(当然这词所代表的不仅仅是词,还有其上的 ontology)。两条腿走路踏空掉悬崖去的例子,学者研究过,不能说没有,但真实应用中完全不足为虑。 我的黄学长(Wilks 的门生黄秀铭)在他的 Prolog MT 的博士论文中特地举了这个两脚踏空的倒霉案例,为了彰显 Prolog 回溯消歧的本领:tough coach, 第一条腿是结构:定中关系,很幸运这条腿本身没有结构歧义。第二条腿是词义,两边都是常用词,义项比较多。结果是,加上了结构以后,还留下了两个语义相谐(ontologically appropriate)的可能性,不能完全WSD消歧: 1. 严厉的教练;2. 牢固的马车。 原则上在这个 local 结构的 context 里面,这个罕见的多义案例是无解的,需要更大的上下文来消歧。要我说,拉倒吧,难得一错,认栽吧,否则不像是人造的 intelligence 呢。 白: 大数据说谁就是谁了 哪有那么纠结 我: 那倒是,不就是个 bigram 嘛。类似的例子如果远距离,不知道大数据会不会稀疏到不能定夺。譬如:The coach that has been there for years is known to be really tough. 白: 我理解WSD和分析器使用语义中间件是个动态递进的过程:随着分析的进展,原来远距离的会拉近,原来WSD的结论也会翻盘。 【相关】 《泥沙龙笔记:parsing 的休眠反悔机制》 【立委科普:歧义parsing的休眠唤醒机制再探】 【立委科普:结构歧义的休眠唤醒演义】 【李白对话录之10:白老师的麻烦不是白老师的】 【李白对话录之九:语义破格的出口】 【 李白对话录之八:有语义落地直通车的parser才是核武器 】 【李白对话录之七:NLP 的 Components 及其关系】 【李白对话录之六:如何学习和处置“打了一拳”】 【李白对话录之五:你波你的波,我粒我的粒】 【李白对话录之四:RNN 与语言学算法】 【李白对话录之三:从“把手”谈起】 【李白隔空对话录之二:关于词类活用】 《李白对话录:关于纯语义系统》 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|2870 次阅读|0 个评论
【Parsing 的命根子是 subcat,逻辑的和语言的】
热度 1 liwei999 2016-12-21 08:29
细说起来有两类句型分类:一类是逻辑上的,一类是语言上的。二者相互呼应,前者是内容(output 目标,也隐含了语义条件),后者是形式(input 的句法条件)。 逻辑上说,一个谓词需要几个 arguments,是由这个谓词的意义决定的,譬如 “哭/笑” 这样的谓词概念,需要一个施事 argument 来表达谁哭了笑了,所谓不及物谓词。 “爱/恨” 这样的谓词需要两个 arguments (所谓及物谓词),表达 谁 爱/恨 谁了。 “给/赠与” 这样的谓词,需要三个 arguments,表达 谁 把 什么 给 谁 了。 “认为/声明” 这样的谓词,需要两个 arguments,其中一个是实体,表达谁的认为/声明,第二个 argument 要求一个 statement (嵌套的谓词结构),表达认为/声明的内容。 这种逻辑上的谓词子类的区分是语言通用的,因为它的根基是概念及其意义的完整性(谓词加上arguments就是所谓的argument structure,表达的是一个 statement)。 逻辑工作方面的集大成者就是董老师的 HowNet。 以上的逻辑谓词子类表现在不同语言,就是语言学上的 verb subcategories 及其 patterns。到了语言这个层次,辞典中一个动词的动词句型子类可以标示以下的subcategorization 的信息(及物不及物只是其简化标识,vt/vi, 牛津词典曾经用20多个子类标注每个词条的subcat,v1,v2, ..v21,...): 1. 能带几个 arguments 2. 这些 arguments 要求处于什么形态(主格,宾格,要什么介词,处于什么位置) 词典中这种子类信息的标注直接决定了一个parser的质量,是非常关键的预示信息。对于学习英语,熟悉这些句型信息也非常有用。我以前教英语的时候,经常要求学生看牛津词典或者朗曼词典后面的句型附录(朗曼的分类略有不同,印象是分了30多子类),务必熟悉这些句型的概念,然后在翻阅词典时候注意其标注。 一个词经常分成n个义项,每个义项下的subcat分类标注往往不同,回去翻翻词典就看到了。 这后一步的工作,英语和中文我一直在做,n年了。董老师的中文系统目前也在做。只做不说的白老师或其团队也一定在做。subcat 是 quality parsing 的命根子。大家具体做法可能不同,但大而言之,还是差不多的。就是我们以前说的句法词典化。 【相关】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|2657 次阅读|1 个评论
【一日一parsing:从“见面”的subcat谈起】
liwei999 2016-9-12 23:50
白: “三两面”和“两三面”很不一样啊…… 我借过他三两面。我见过他两三面。 我: 三两面 两三面 我见过他三两面 ditransitive, no problem, but: separable verb jian-mian is still not connected 还有: (0)我见过他两三面。 (1)我见过他。 (2)我与他见过面。 (3)* 我见过面 (4)我们见过面。 (5)我与他,见面过。 “见面” 要求或者主语是复数(4),或者主语是并列结构(5),或者带有介词短语“与(with)”(PP或并列在汉语界限不清,(2)),或者动量词疑似的“两三面”前必须有定语【human】。所有的这些句法subcat要求都是满足语义(或常识)的一个【human】的坑:常识是,“见面“”必须在两个或以上的 human entities 之间进行。 HPSG 这类极端依赖subcat数据结构的词驱动的理论和语言学表达,尽管繁缛,但有一个亮点, 就是把上述的句法要求作为 input 的匹配条件描述,与内在的语义要求(类似于 HowNet 的描述)作为语义的 output,一条一条形式化,细致入微,丝丝入扣。用的是 label 的unification(就是 label 所代表的子结构的 sharing)机制。多数系统对于 subcat 的内部结构,input到output的映射,以及背后的句法与语义的关系(语义是句法的动因,同时也是句法的目标:句法匹配,语义实现),都显得太简陋了。 过犹不及,不及犹过。我们一直在探索在 subcat 的表达和实现中,如何做到中庸而不平庸,简约而不简陋。 白: 他我见过几面 我: 简陋之极的一个例证是给人用的 Oxford 高级词典和朗曼词典的那些 subcat codes,类似 v1,。。。v23 之类。后来纽约大学专门组织CL的研究生做 CompLex 和 NomLex 等 subcat 词典。中文方面,社科院语言所的【现代汉语800词】开 subcat 先河,【动词用法词典】等系列辞典,开始试图把 subcat 用某种编码加例句予以表达。所有这些工作,从数据表达和关系看,都显得有些简陋。其根子是,句法和语义没有厘清。 对于一个 NLP practitioner,拿来这些资源,必须在肚子里做这个句法语义的连接和消化,然后确定数据结构,找寻自己的实现途径。实现的时候,很难达到 unification 文法的漂亮,大多是凑合事儿,为的是避免 HPSG 这类的实现起来的低效率和数据结构的难维护。 董老师的 HowNet 对于汉语和英语的 subcat,语义上登峰造极了,但是句法方面还是显得不够细致周全。譬如“见面”这类的上述6-7种句法规定,好像就没有一一描述(董老师指正:也许我没吃透),也没见哪家描述清楚过。也都需要一个重新咀嚼消化,然后去实现。 (3)的 generation 不合法(*),但对于 parsing,鲁棒性要求这样parsing,没错。 没调试,居然出来了,912 的狗屎运吧。(911恐袭,913林跑,都不是好日子。)只剩下 “我见过他两三面” 这个 case 了。这个类似动量补语的东西其实仅限于:“一面”,“几面”,“两三面”,“三两面”,等少数几个。起码,100+ 面 基本不可能 除非是恋人。 张: 崇拜严重中 我: 张老师谬赞。清谈误国,我只要不误“人”子弟就好了,一辈子没当过教授,要误也都是人家子弟,哈。 张: 白求恩 我: 认真说,其实真地涉嫌误人子弟,因为凡事都有一个大环境和背景,我说的这些个多少有些异类,结果是,主流学生雾里看花。雾里看花也算增加视野,最误人的是,看到花,却够不着。这就好比鲁老爷子说的,本来人家黑屋子里面睡得蛮香甜,你非要去【呐喊】,唤醒了,可屋子还是黑屋子,这就不仅仅是残忍了。不残忍的法子就是,等以后退休了,开一个 Deep Parsing 开源公园,每条代码,每个词条,每段规则,全部公开,然后看看能不能靠众人的力量,弄一个无敌系统来。大家一起玩符号逻辑,让两条路线永远。 【相关】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3371 次阅读|0 个评论
【一日一parsing:汉语单音节动词的语义分析很难缠】
liwei999 2016-8-22 05:27
白: “她拿来一根漂亮的海草,围在身上做装饰物。” 我: “围” 与 “做” 的逻辑主语阙如。原因之一是这两个动词本身的subcat没有要求“她”【human】或“海草”【physical object】。语义中间件目前是保守策略,因为逻辑填坑是无中生有,宁缺毋滥,rather underkill than overkill,精度优先。 人的理解是怎么回事呢:单个儿的“围”不好说,但是VP【围在身上】从“身上”继承了【human】的未填之坑,正好让“她”填做逻辑主语。同理,“做”是万能动词,也没有特定语义要求的坑,但是VP【做装饰物】(act as NP)则挖了一个同位语的语义坑【physical object】,可以让“海草”来填:【human】“把”(“用”)【physical object】“围在身上”;【physical object】“做装饰物”。 “围在身上”的句法主语可以是【human】,也可以是【physical object】:“一根漂亮的海草围在身上”。但是背后的逻辑语义都是 【human】为逻辑主语。 白: 此例引自小学一年级水平的课外读物 围,属于具有“附着、固定”subcat的动词子类,如果做话题,可以单独表示起始动作完成后的遗留状态。话题化 被固定物做话题 我: 而“海草”可以看做【工具】(包括【材料】状语),也可以看做是 VP【围在身上】内部的“围“的【受事】 白: 是逻辑宾语 我: 这是层次不同造成的逻辑角色的不同。 实际上,对这一类汉语单音节动词做如此细致的语义分析,挑战性很大。它们太多义了,只有组成合成动词、甚至形成 VP 以后,才逐渐排除多义而收心。这个动态的 subcat 的确定和填写过程,相当繁难,if not impossible。 白: 房子盖在山上做行宫 我: “盖-房子”算合成词。 again “做” 的逻辑主语(深层同位语)没连上“房子”。 白: 他给你打了一副手镯当嫁妆 我: SVO 齐活了,主句的O却断了。这叫顾腚不顾头,需要好好debug一哈: 这个比较完美了。也把“打手镯”当成“打酱油”一样做进离合词了。这样处理很重要,因为“打”是个万能动词,不知道有多少词义(如果考虑搭配中的词义的话)。 【相关】 【 关于 parsing 】 【关于中文NLP】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|5690 次阅读|0 个评论
【deep parsing (140/n)::句法语义的萝卜与坑】
liwei999 2016-7-11 19:28
白: 张三对李四的批评一针见血。 张三对李四的批评置若罔闻。 梁: 白老师,这个挑战绝了,第一个是,张三批评李四,第二个是李四批评张三。 我: 白老师这个 minimal pair 是语言学的绝配样例。顺着它,可以 illustrate 一车的“萝卜与坑”的语言学:subcat 怎样工作,如何竞争,以及句法句型的的逻辑语义落地。这是语言学的魅力。我们先来 parse 一下,然后尝试做解读。 谁一针见血,谁置若罔闻,都是张三(S)。我们先看两句的总体句子架构,然后再论内层的逻辑谓词“批评”的句法逻辑语义。“一针见血”是不及物动词,只有主语一个坑,可以是人 也可以是观点类抽象名词或动作类的语词;“置若罔闻”有主语宾语两个坑,但这个成语性的语词谓语,其宾语在汉语句法(subcat pattern)中要求PP(对),而不是后置NP,置若罔闻的主语坑必须是 human,最多推广到 法人(机构、公司等)。 “X 一阵见血”,无论 X 是人是物还是动作: “human 对 X 置若罔闻”, 置若罔闻的X无论是物(信息)还是人(指代的仍旧是信息,是指那个人说的话:此乃“闻”的常识语义 ontology 所规定,但为了鲁棒,不必在句法上做这样的语义限制,因为介词“对”已经是一个很好的类似于“格变”的语言显性形式手段了,对于填这个坑已经足够精准了): 后一句意思是,张三不把李四的话当话(e.g. 张三逆反)。 接着我们考察一下“批评”的SVO句型,看看S和O的坑在中文是怎样要求和被填的: 这算是“批评”的三个最基本的 subcat patterns,逻辑语义不变,尽管第二个变式中的表层句法是以PP做状语(Adv)的面貌(和位置)出现,但语义中间件根据变式2的规定可以很容易确认其逻辑宾语(O)的角色。 下面来看汉语中利用“的字结构”的SVO句型变式:e.g. S对O的V 这是指称性 arg structure,通常用“的”(“之”),于此对应的是英语的动名词NP: John's criticism of Peter vs John's criticism by Peter Peter's criticism towards/of John the criticism of John by Peter the criticism of John towards Peter 可见,英语的 of 几乎与汉语的 “的” 一个臭德行 充满歧义。by 和 towards 就规矩多了。再举几个指称性SVO的例句: 如果不是逻辑动词的“意见类”语词,就是 human 对/关于 thing 的 意见,广义的 thing 包含 human: 张三对李四的看法 张三关于时局的一点意见 雷: 这个人不是东西 我: 人不是东西 但可以当东西看 在语义限制的时候 除非特地标明 NOT human,白马是马非马 的辩证法:“张三对李四的意见”。“李四”不是东西 但在这个句型当东西看 因为“意见”没有human逻辑宾语的坑 只有关于万事万物的坑。 梁: 张三对李四的评价很好。--》 评价很好--》评价是主语。 张三对李四的评价无所谓。 ——》 张三无所谓 ——》 张三是主语。 “对”管到哪儿的问题。 我: 到了 意见 的同义词 “看法” 就有趣了:“张三对李四的看法”。 句法上 仍然是 【关于】 万事万物;词法上,这个外化到句法的 pp 实际上是逻辑动词语素 “看” 的逻辑宾语,只不过 在 “看” 与 “法” 合成为黑箱子的词典化过程中,这种深度搭配被遮掩了。必须词典化、黑箱化,因为此法非彼法。只有词典化,才能绑架 “法” 的语义。 “张三对李四的看法” 结构上是 “ 张三 看 李四 的 ‘法’ ” “法” 不是默认的 method 语义,而是引伸的 perspective 语义,相当于英语的 point 在 viewpoint 或 point of view 中。黑箱的好处是可以把引申语义绑架为本义,英语的 viewpoint 就是用的同一种绑架的招数,否则 point 本身也意义含混。 John's viewpoint about Peter structurally is equivalent to John's perspective of (John) viewing Peter 昨天说过 虽然黑箱化 但在段子里可以休眠唤醒为白箱子: tv 新看法 就是。 总结:今天调试开发了的 unit test 的句子如下,工作成效颇不坏: 张三对李四的批评一针见血。 张三对李四的批评置若罔闻。 张三的批评一针见血。 张三一针见血。 批评一针见血。 张三对批评置若罔闻。 张三对李四置若罔闻。 张三置若罔闻。 张三批评李四 张三对李四批评 张三对李四的批评 张三之批评李四,毫无道理。 张三被李四所批评 张三被李四批评 张三为李四所批评 张三的被批评 李四对他批评 李四对他的批评 张三对李四对他的批评置若罔闻。 李四对他的批评一针见血。 张三对王五对李四的批评置若罔闻。 【相关】 【 tv 新看法 】 【立委科普:语法结构树之美(之二)】 【 关于 parsing 】 【关于中文NLP】 【置顶:立委NLP博文一览】 《朝华午拾》总目录 立委NLP频道
个人分类: 立委科普|3736 次阅读|0 个评论
【语言学小品:送老婆后面的语言学】
热度 2 liwei999 2016-7-4 21:57
谁会误读?为什么误读?研究一下背后的语言学 and beyond。 双宾两个坑 human 默认的坑是对象 “老婆”是“送”的对象,这是正解。 对于心术不正的人 human 也可以填受事的坑,“老婆”跟礼物一样,成了“送”的受事。 这是 “送” 的歧义,到了 caption 里面的合成词 “送给”,subcat 有细微变化,就没歧义了。为什么 “送-个” 也没歧义呢?因为“个”是不定的,而对象这个角色通常是有定的。 这里面细说起来还有一摞的语言学。 (1)双宾句型的对象一般是有定的,不定的对象不是绝对不可以,譬如: “我把一大批书送(给)一所学校了。” “一所” 是不定数量词,作为对象。 汉语中的 “一+量词”与光杆“量词”通常认为是等价的,范畴都是不定(indefinite),后者是前者省略了“一”而得。但是二者并非完全等价。 对象这个角色默认有定(definite,虽然汉语没有定冠词),如果是有定,不可以省略“一”,或者说,不可以由带光杆量词的NP充当。 汉语句法里面可以总结出这么一条细则:带有光杆量词的NP只能充当直接宾语,不能充当间接宾语(对象)或其他。 (2)再看合成词 “送给” 里面的语言学。 汉语反映双宾概念的语词,常常可以进一步与“给”组成合成动词,意义不变,但注意合成前后的subcat的微妙变化:“送” vs “送给” (寄给,赠给,赠送给,等) “送”的 subcat patterns: (1) 送 + 对象NP + 受事NP: 送她一本书 (2) “把”受事NP+送+对象: 把一本书送她 (3)受事NP+送+对象: 这本书送她了 (4)送+受事NP: 送个老婆 (5)送+对象NP(human,definite):送(我)老婆。 请留心(4)和(5):两个patterns有相交竞争的时候,于是歧义产生。当“送+给”构成合成动词后,subcat 的 patterns(1)(2)(3)(5) 保持不变,而(4)基本失效(退出)了。说基本失效,是因为:虽然 “送给老婆”只能循 pattern 5,但“送给个老婆”(稍微有限别扭,但仍在语言可接受之列)似乎仍然需要理解为 pattern 4,这是怎么回事呢? 这就是语言的微妙之处:pattern 4 本来应该退出,因为“给”已经决定了后面是对象而不是受事;但是因为汉语有另一条很细但是很强的规则说,光杆量词的NP只能做受事,不能做对象或其他。在这两条规则(pattern 5的对象规则与光杆受事规则)发生冲突的时候,后一条胜,因此“送给个老婆”就不得不做 pattern 4 的受事解了。这叫规则与规则打架,谁胜谁输也是语言学的一部分,电脑实现的时候可以运用一个priority的机制来model。 上图还涉及一个常见的促销句式: 买NP1送NP2 买iPhone 6 送耳机 买 Prius 送三年保修 这个语用句式的存在,加强了NP2作为受事的可能性,使得 human 本来默认为对象的力量受到制衡。这似乎涉及语用与句法的交界了。 这些算是语言学。Beyond 语言学,也可以从文化上看这个误解或歧义的现象: 对于来自落后农村的人,老婆作为受事的理解几乎是理所当然,因为农村的封建落后使得娶不起媳妇的光棍汉太多,白捞一个媳妇的渴望诱使他们更多向受事而不是对象方面联想,何况手机对于他们是天价,卖肾才可得之,因此对于促销句式也就更加敏感。反之,对于一个知识分子或富裕阶层人士,“送老婆”可能更偏向于理解为对象。 就跟王若水老老年谈桌子的哲学类似,这则小品主要是想谈谈日常的语言学。哲学家满眼都是哲学,语言学家以语言学看世界。语言人人会说,背后的语言学却不是老妪能解。语言如水如空气,一般人熟视无睹了,语言学家来揭示。这是 real life linguistics,琐碎而不乏规律,似海却仍可见底。 【相关】 《立委随笔: 语言学家是怎样炼成的》 《朝华午拾》总目录 【关于立委NLP的《关于系列》】 【置顶:立委NLP博文一览(定期更新版)】 【 立委NLP频道 】
个人分类: 立委科普|3676 次阅读|3 个评论
【立委科普:实体关系到知识图谱,从“同学”谈起】
热度 1 liwei999 2016-6-29 22:42
同学 同乡 同桌 同门 同事 同仁 同性恋 朋友 对象 配偶 恋人 爱人 。。。 这类词(R),作为逻辑谓词,语义上实际上有两个 arguments 的坑要填。这两个坑是 reciprocal 的,其逻辑语义关系就是 human 实体之间的R关系。其汉语的句法表达是: 1. NE1 BE NE2 的 R 张三是李四的同学 == 李四是张三的同学 2 NE1 NE2 R 张三李四同学过 == 李四张三同学过 3 NE1 AND NE2 R 张三与(跟、和、同)李四同学 李四与(跟、和、同)张三同学 4. NE1 NE2 BE R 张三李四是同学 == 李四张三是同学 5 NE1 AND NE2 是 R 张三与(跟、和、同)李四同学 李四与(跟、和、同)张三同学 6 NP(Plural)R 她们从小同学 “她们” 不仅仅是 Plural 而且必然是指的 2 entities 7 NP(Plural) BE R 她们是同学 BE(联系动词)包括:成为、变成 、当、当成、疑似等,还有介词 “作为”也可归于此类。R 在汉语是名词,有时也“活用”为动词。逻辑上对应的是 (1) 指代;(2)逻辑谓词(表达实体关系)。最有意思的是 R 的双重身份(polymorph,学过C++的都知道这个)使得 R 可以自己给自己填坑。因此本来 R 是有两个坑的: 谁1与谁2 发生了 R 的关系,但由于实体(指代)的 R 可以自己填 谓词R 的坑,结果在简单的名词短语 “NP de R”(e.g. “我的同学”、“张三的同学”)的结构里面,语义坑填满了(saturated),很圆满的样子,一个是 R 本身,一个是 NP: “我的同学” 逻辑上等价于 ==【我】是【我的同学】的同学 ==【我的同学】是【我】的同学 假如我的同学叫“张三”,我叫“李四”,貌似同义反复的第二句其实是: 【我的同学(张三)】是【我(李四)】的同学。 == 张三是李四的同学。 逻辑表达式是: 同学{张三,李四} Note 谓词后是集合 { …… } 不是 list …… 因为此类关系是相互作用(reciprocal)的,没有逻辑的次序。 最后说一句,这类实体之间的关系的抽取挖掘,是建立知识图谱(knowledge graph)的一个核心任务。我们当年给起了个名字叫 CE(Correlated Entity) relationship。说话已经15+年前的事儿了,那时还没有知识图谱这个被谷歌炒热的术语。没必要谦虚,我们是知识图谱的 pioneers(之一)(《 知识图谱的先行:从Julian Hill 说起 》),当年的工作对于美国国防部立项知识图谱起了关键作用。这是旧话了,好汉不提当年勇,要往前看,看能借助 deep parsing 的核当量的威力,能不能施展一下拳脚,在中国和中文知识图谱大业上建功立业。 好风凭借力,送我做图谱。大数据图谱之上,种种应用在望,问答系统(QA)、智能浏览(intelligent browsing)、语义搜索(semantic search),等等等等。不求名利,无意宇宙,但求 put a ding 在我大唐。一切具备,只欠东风。求主保佑。 【相关】 《 知识图谱的先行:从Julian Hill 说起 》 【泥沙龙笔记:知识图谱是烧钱但靠谱的战略项目】 【立委科普:信息抽取】 《朝华午拾:信息抽取笔记》 《有了deep parsing,信息抽取就是个玩儿》 泥沙龙笔记:搜索和知识图谱的话题 《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》 【泥沙龙笔记:再谈知识图谱和知识习得】 前知识图谱钩沉: 信息抽取引擎的架构 前知识图谱钩沉: 信息体理论 前知识图谱钩沉,信息抽取任务由浅至深的定义 前知识图谱钩沉,关于事件的抽取 钩沉:SVO as General Events Pre-Knowledge-Graph Profile Extraction Research via SBIR (1) Pre-Knowledge-Graph Profile Extraction Research via SBIR (2) 置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录 立委NLP频道 : liweinlp.com
个人分类: 立委科普|3782 次阅读|1 个评论
《新智元笔记:汉语parsing以及所面对的汉语的意合特点》
热度 3 liwei999 2016-1-30 08:10
宋: 北京西郊宾馆大堂门口有个电子屏幕,显示了两行字。第一行:“水中有毒污染物多”,第二行“指标快速检测仪器项目启动会”。 能parser吗? 白: 这个换行对parser不是个事儿吧?只有视觉对此敏感 宋: 就是所谓“花园幽径”问题,但汉语的意合太难把握了,人认为不可能的机器不一定认为不可能。不知委哥的parse结果如何? 白:“检测”挖坑,前面毒物填坑。但是这个例子基本是在玩构词法。构词法搞定了,句法就不复杂了。 宋: “指标”能填“检测”的坑,但“指标”本身可以带坑,也可以不带坑。 白: 是 宋: “污染指标”、“健康指标”都好说,现在是“多指标”,又是关于“污染物”的指标,而“污染物多”是一个很顺的主谓结构。 白: 水中有毒,也是个很顺的句子。 宋: 汉语主语-话题研究中的一个经典例子是“这场火,幸亏消防队来得快。” 白: 不必加逗号。 宋: 我又看到一个类似的例子,出自《围城》:这车票难买得很,【这车票】天没亮就得上车站去挤,【这车票】还抢买不到, 白:第二句有问题。人去挤。 我: 试一试吧: 上句对,下句(不是句子. 是NP?)不对。 白: 其实这个换行不一定是一个符号,更不一定是句分隔符 我: 这一句基本没问题,都照顾到了 宋: 从论元角度看,“挤”应当有个施事的坑,由“人填,但真实汉语中未见的如此。 白: 这个例子里,两种策略的长短有所显现,方便对比。 我: 注意到没有,”这车票“ 我的 parser 分析出两种可能,既是主语也是宾语。 哈哈。给我一点意外惊喜。英语也有类似的动宾远距离搭配: this mistake is easy to make “买票”与“洗澡”一样是可分离动宾结构的合成动词。以前做过处理的。 这就是开心时刻:你不知何时教给机器 something,你或者忘了,或者不确定机器是否学会了,后来看到它差不多通过“图灵式”测试,你就不会不开心得意。此前在英语开发过程中,这种开心时刻更多、更频繁,因为日积月累多了,而它又不笨,总免不了制造惊喜。要是训狗的话,表现好肯定会多砸给它几个肉包子奖励。可死机器,任劳任怨,没任何要求,还不如小冰。 宋: “公司总经理王大明” 这是一个NP吗?中国大百科全书的”北伐战争“条目有这样的话:国民革命军总司令蒋介石。 白: 为啥不是NP? 宋: 汉语的句法结构严重依赖于上下文。这个例子中是NP+NP=主谓 我: euiv 是同位语,dummysubj 就是平常说的汉语句法中的话题。 白: 我不认为是主谓。 我: “我一个穷学生”。的确是主谓。那个不是主谓,而是同位语。逻辑上说第一个NP是谓词也可以。 宋: 要看上下文。“我一个穷学生能有什么办法?”中“我一个穷学生”是NP+NP=NP “我一个穷学生,只能这样了”。NP+NP=主谓。 “我一个穷学生能有什么办法”也可以看成“我,一个穷学生,能有什么办法”,因而可以看成Subj,Pred,Pred “国民革命军总司令(是)蒋介石,副总司令是……”。 百科全书说的是:“编组情况是”。既然是“情况”,就是命题,而非命题项。 我:目前的parse是这样: 宋:汉语的组织是意合,就是直接冲着语义去的,有时做主谓分析反而误事。但为了理解语义,还得有一个语法结构,但这个结构不一定非得是主谓宾定状补。 “谢兰英的腰身也微微地挺了挺, 扶在椅背上的两只手也挪下来” (莫言《倒立》) “谢兰英的腰身”是定中,但定语的核心“谢兰英”有被拆出来做了第二句的主语。 有人说“谢兰英”不是第二句的主语,而是主语的定语。那就更复杂了。人脑的理解过程真的要这样捆了又拆,拆了又捆吗?似乎不大符合经济性原则。 董振东老师曾说过,“星期一二三”应该捆起来,成为一个词。这是汉语的实际。但是,还有这种情况: “星期一二三是结婚的好日子, 尤其是星期三; 四五六一天坏似一天。” 所以汉语的词和语的体系也需要研究。 白: 这些问题有一大半是不该parser来做的。parser可以只看字面,不理会号称省略的部分,分析不成句子,能分析出phrase没有任何不妥,其实无需试图“还原”任何句子。只要在语义层面借助能够已有的结构或成分组装新结构,就足够了。借助的既然是语义层面的东西,句法就随他去了。 宋: 你说的有道理,但是“字面”如何界定?上例中“四五六一天坏似一天”前后都是标点,如何parse? 白: 四五六做主语, 宋: 要留多大的修正余地呢?怎么知道“四五六”不是寻常意义的四五六呢? 白: 先不管,交给语义 宋: 这样语义就没边没沿了。单纯看“四五六一天坏似一天”,第一个可接受的理解是四五六号。所以,字面还得看上下文。星期一二三是结婚的好日子,四五六一天坏似一天,需要将第二句和第一句一截一截地对接,看如何接最顺,也就是你说过的接“桩”。 白: 四五六是需要“桩”的,优先嫁接上下文当中可用的“桩”。但这个上下文当中,句法不要有“桩”,交给语义。 宋: 所以也许应该要先接桩,再分析。你的意思是先parse,再接桩?接桩的时候再把parse捆上的东西打开来? 白:以标点句为单位,句法先到语义,再下一个标点句 宋:我还不大明白,你具体说说看。就以这两个标点句为例。 【相关】 《泥沙龙笔记:parsing 的休眠反悔机制》 【新智元:中文 parsing 在希望的田野上】 《新智元笔记:NLP 系统的分层挑战》 《泥沙龙笔记:连续、离散,模块化和接口》 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|3521 次阅读|3 个评论
【立委科普:及物、不及物 与 动词 subcat 及句型】
热度 1 liwei999 2012-2-24 14:57
理呆说法:“只要找到一个及物反例就可以推翻其不及物的说法”。 及物动词、不及物动词、双及物动词等等叫做 subcat, 是动词大类里面的子类标识(subcategory)。 如果只要找到一个及物反例就否 定不及物,那么就不存在 不及物动词 的子类。比如,英语的 walk / go 是典型的不及物动词,但是就有如下反例: He walks his dog every morning. Go your own way. 这样的话,及物不及物的区别就没有了,那还分子类做什么? 语言学家给词分类,又进一步给动词分子类,是为了归纳句型,parse 语句的方便。如果因为一个反例就不做分类,语言中的分类几乎寸步难行。这样一来,任何概括性规则都写不了,任何语法都玩完儿。语言只能被视为完全无章可循不可理解的怪物。 语言现象中反例太多了,因此才有把文法建立成个性规则和共性规则的层级体系(hierarchy)的设计思想。共性规则靠的就是分类,允许反例。个性规则对付反例,让它 override 共性规则。 所有语言都有这种子类(subcat)。细说起来有两类句型分类:一类是逻辑上的,一类是语言的。 日期: 02/23/2012 19:14:02 逻辑上说,一个谓词需要几个 arguments,是由这个谓词的意义决定的,譬如 “哭/笑” 这样的谓词概念,需要一个人的实体(assuming 动物以及其他实体不能哭笑)作为施事 argument 来表达 “谁(1)哭了笑了”,所谓不及物谓词。对“人”的要求,是所谓语义上的 selection restriction “爱/恨” 这样的谓词需要两个 arguments (所谓及物谓词),前者是人,后者没什么限制,表达 “谁(1) 爱/恨 谁/什么(2)了“。 还有其他 subcats。“给/赠与” 这样的谓词,需要三个 arguments,表达 “谁(1) 把 什么(2) 给/赠与 谁(3)了”,(1)和(3)是人或者机构实体,2 通常是物件。 “认为/声明” 这样的谓词,需要两个 arguments,其中一个是施事实体,表达 “谁(1)的认为/声明”,要求的是人或者机构,第二个 argument 要求一个 statement (嵌套的谓词结构,相当于语言中的宾语子句),表达 “认为/声明的内容(2)”。 这种逻辑上的谓词子类的区分是语言通用的(universal),因为它的根基是概念及其意义的完整性:谓词加上arguments 构成作为 statement 语义核心(所谓 argument structure),核心外围才是时间、地点、条件等附加性语义细节。 以上的逻辑谓词子类表现在不同语言,就是语言学上的 verb subcategories 及其 patterns(句型)。到了语言这个层面,辞典中一个动词的句型子类需要标出以下的subcategorization 的信息(及物 vt / 不及物 vi 只是其简化标识,牛津词典曾经用20多个子类标注每个词条的subcats): 这些 arguments 要求的语言形式(名词短语、介词短语还是还是动词短语?名词是主格还是宾格?介词短语要的是什么介词?每个 argument 所处的位置,语序自由还是固定,等等)。 与逻辑层不一样,subcat 的句型,是针对各个语言的,譬如一个语言用名词或者词尾(如宾格词尾)表达的 argument,到另一个语言可能要借助介词。如:You should serve us (宾格)/ 你要为我们服务(借助介词“为”)。 正是词典中给出的这种子类信息的标注决定一个词可能的潜在句型用法。因此,subcat 信息的完备直接决定了一个parser的质量,是语言研究中非常关键的预示信息。逻辑和语义虽然是人类共同的,subcat 信息各个语言却不同,后者是对前者的语言学映射。 分别以英语和汉语为例,下面把上述逻辑层的示例化为语言层的subcat信息,来揭示对语言形式的要求及其句型的不同: 英语的 cry 是不及物动词(vi),具体说来其 subcat 信息如下:cry 需要一个名词短语(NP)做主语,词序上这个主语通常位于 cry 的前面(词序也是语言形式),如果该名词短语是代词,则需要使用主格形式。 汉语的 “哭”的 subcat 信息与英语类似,也需要一个名词短语做主语,词序上这个主语通常位于 cry 的前面,但是汉语的主语代词没有“格”的形式要求,因为汉语没有格这个语法范畴。 英语的 love 是及物动词(vt),它连接主语和宾语,及物动词的subcat 信息涵盖了主动语态的句型和被动语态的句型两大类。前者的基本句型是主谓宾(SVO)结构:即名词短语位于 love 的前面做主语(如果主语是代词,则需要主格 如 he/she),位于 love 的后面的名词短语做宾语(如果是代词,则要求宾格 如 him/her):He loves her. 这是英语及物动词主动句型的要求。同样的动词还有一系列被动句型的 subcat 要求,除了 love 要转换成被动语态形式的动词以外(如 is loved / has been loved/...), 还要求使用介词 by 来引出原主动语态的主语(介词短语PP引出的逻辑主语),语法主语却变成了逻辑宾语,这就是我么所熟知的主动举行到被动句型的英语转换式:He loves her -- She is loved by him. 汉语的 “爱” 是及物动词,它也连接主语和宾语,但是 subcat 所要求的语言形式与英语不同。基本句型“主谓宾”结构,词序虽然与英语相同,但没有代词主格宾格的区分:他 爱 她【爱得很久了】。汉语及物动词第二个句型是所谓“把字句”,要求在动词前主语后,用介词“把”引出逻辑宾语:他 把 她 爱【得很久了】 。相对于英语被动语态句型的是汉语及物动词的所谓“被字句”:她 被 (他) 爱 【得很久了】。 下面说明从简,懂英语和汉语的人都很熟悉这些 subcat 句型之间的转换,请注意英语汉语之间的异同: Subcat patterns for the ditransitive verb “give”:(1) NP1 + give + NP2 + NP3 (e.g. She gives him a hug); (2) NP1 + give + NP3 + PP(to+NP2): She gives a hug to him; (3) NP2 + give + NP3 + PP(by+NP1): He is given a hug (by her); (4) NP3 + give +PP(to+NP2) + PP(by+NP1): A hug is given to him (by her). 汉语的动词 “给” 的双宾语结构的句型转换如下:(1)基本句型:他 给了 她 一个拥抱;(2)把字句:他 把 一个拥抱 给了 她;(3)被字句: 一个拥抱 (被 他) 给了 她。 Subcat pattern for the verb “think”:(1) NP + think + that-clause (e.g. She thinks ); (2) that is allowed to be omitted, hence: She thinks . 汉语的动词 “认为” 的句型与英语类似,但是没有从句引导词 that:他 认为 【他 爱 她】 逻辑到语言的mapping不是简单的对应,譬如,在逻辑上,语言中的 like 和 please 基本是一个概念,这个概念是及物谓词,需要两个 arguments,可是在语言中,这两个arguments 的指向由于不同的动词选择,可以正好相反: I like iPod 等价于 iPod pleases me. (这种说法英语不常见,但是其他欧洲语言常见) 两种不同的语言表达方式,说的都是人和一个物体的关系,是那个物体带给人心理上的愉悦感受。 对于学习语言,熟悉这些句型信息也非常有用。令人惊异的是,很多人学了多年英语居然没有对动词句型的subcat 的系统认识,语言实践没有上升到语言学理论的高度。我以前教英语的时候,经常要求学生看牛津词典或者朗曼词典后面的句型附录(朗曼的分类与牛津略有不同,分得更细),务必熟悉这些句型的概念,然后在翻阅词典时候注意其标注。 一个词(不仅是动词,还包括形容词和名词)经常分成 n 个义项,每个义项下的 subcat 分类标注往往不同,回去翻翻词典就看到了。 拉拉杂杂,今天就先说到这里。随笔写来,条理性不够,先凑合看吧。(也不能写得太好,太好了若干年后怕有现代红卫兵质疑有代笔,受网络大字报的轰炸,不值。) 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|6786 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 15:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部