科学网

 找回密码
  注册

tag 标签: 中文NLP

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

【新智元笔记:汉语 parsing 涉及重叠的鸡零狗碎及其他】
热度 2 liwei999 2016-3-20 01:20
我: 条件反射了,一看到 ”伟大的中文“ 或 ”精妙的中文“ 的标题,就忍不住想 parse parse 看看(重叠reduplication)。 我: 虽然是对联似的歌词,结构其实与现汉一样蛮清晰的 白: “有”应该彻底做定语 我: why??这不是典型的 有+宾+宾补 句型么 白: “有NP VP”和“一个NP VP”逻辑上是同构的。有不当动词用,更接近本质。“没”单用也是一样。 我: 明白你说的意思,不过这事儿很微妙,两说着 我对于这类现象,也有那种处理,目前条件是要求 “有” 在句首。句首的“有”,虚化得厉害,其他的“有”真地不好说,因为前面可能再出现主语或其他的谓语连带成分,不能就把它一杆子打下去。 白: 当然不是所有。 我: 句首的“有”:“有个教授下午来”;“有教授下午来” 白: “我猜有人会紧张了”。 这不是问题,裸量词也是定语,相当于定语叠加了。“有”和“个”分别被“教授”吸收。一个表存在,一个定数量。 我: 语言学上是不定(indefinite),相当于英语的 some 或不定冠词 a 白: 不出现“个”,就是some;出现“个”,就是a。“拿个(根)鸡毛当令箭”,裸量词也是一样作定语。在这个意义上,数词就是状语。 我: 个 = 一个,省略了“一” 如果是修饰宾语N的话。但主语N的量词则不能省“一”。可以没有数量,但一旦有量,必须有数。量却可以省。“一妹子来看你”。量一般不能省,偶尔可。 白: 有个名句“把个特务跑了”,逻辑主语,虽是宾格。“给我一枪吧……” 我: 一枪是动量结构做补语,不是带有名量结构的“一把枪” NP 做宾语。 白: 俩=两个;仨=三个,一个,没有俩仨那样的字对应 我: 方言性质,我们江南就没有“俩”和“仨”。 白: 一+名词,北京口语这么说不少,普通话不是 梁: @wei 你这个 parser 很厉害! 我: @梁 谢谢,来之虽晚,却之不恭。kidding ... 还没有加 ontology 的核心呢(正在加),只可算爬到了半山腰,但山巅已然可见。 再过三个月半年看,可以不可以感受一次会当凌绝顶的VR(虚拟现实)。 我:这个句型算什么状语?v 是重叠词或短语(重叠以前做过的句型有: x 是 x , y 是 y): v 就 v,(反正)。。。 不 v 就 不 v “走就走,谁稀罕你似的” “不要就不要,有啥了不得” “没做就没做,你能拿我怎么样?” “瞎了眼就瞎了眼,反正是我倒霉,关你什么事” “坏就坏,我不在乎” “有钱就有钱,反正我也高攀不上” “不关机就不关机, 反正不上飞机老子一辈子不关机!!” “罚站两小时就罚站两小时,我扛得住” 以前说过,重叠(reduplication)现象在汉语不仅限于造合成词(abab,aabb,abb之类),而且也常用作句法手段在各种句式里。 “要我走就要我走,我早就不想呆了” 该句式呼应的小词有:反正 、大不了、早就、不在乎、稀罕、最多、顶多、扛得住、顶得住、受得了。。。 很像让步状语,但让步状语( 即使......)和条件状语(倘若......),都是虚拟,而这个状语却是针对 “已然”(已经发生的动作)。一般是负面的、有害的行为,主句说的是不畏惧,自己给自己打气。这个表达法有点意思。好像这类状语还没个名字?还有其他的表达方式么? 还有一个句式: 爱 x x “爱谁谁” “爱咋咋” “爱走走 不留你” “爱微信微信 爱非死不可非死不可” “爱阴谋阴谋 爱阳谋阳谋 谁怕谁” “爱堕落堕落 我爱莫能助” 可以加“就”,或者说上述句式省略了“就”: “爱吃鳕鱼就吃鳕鱼,反正不是我的选择。” “爱点豆酥鳕鱼就豆酥鳕鱼 我没有意见 领导说。” “你爱点鳕鱼就点鳕鱼” 意思是,“你如果想点鳕鱼 你就点” 白: 这不应是句法管的事情,只不过重复模式可以强化提示某种复句标签而已,就算啥都不提示,不是还有Next兜底么。 我: 不管如何 parse? 结果都成了: vp NEXT vp NEXT vp ...... 白: 不上规则主体,最多当成trigger…… 我: 谁 VP1 谁 VP2 ,“谁”的重叠句式,对应于英语 whoever,或者 those who VP1 will VP2 “谁出问题谁擦屁股。” 类似的句型还有: 什么 AP 就 V 什么 “什么热就学什么” == whatever is hot, go for it. 也可以是主句主语: 什么 AP 什么就 VP “什么热什么就招财” 类似的还有疑问词“哪个”和“怎么”: “哪个漂亮就找哪个” “哪个漂亮哪个就一路顺风” “哪个愚蠢哪个就完蛋” “怎么方便怎么来” “怎么”这个句式的扩展性似乎弱一些。 汉语口语,这些鸡零狗碎的句式还真不少。这些玩意儿 pattern matching 最拿手,就是扩展的 ngram,gram 是动态句素,不仅仅是静态的 token(词)。匹配不仅仅是 fsa formalism,而是带有 unification 的 fsa++ 机制。 统计模型怎么对付这些个玩意呢?譬如 smt(统计型机器翻译)怎么翻译?“爱咋咋”好办,它不扩展,应该从语料中学出来的,到了英语就是 whatever。“爱吃鳕鱼吃鳕鱼”,smt 是不是就傻了?试一下: smt 任重道远涅!(连“爱咋咋”都没对,往好里揣度是训练数据集可能压根就没有口语或社会媒体的双语材料。) 才意识到我前句的歧义:“不管如何parse” (1)(If) not handling (this pattern) how (can we) parse (it?) (2)No matter how to parse it 汉语口语的条件状语经常省略小词“如果”,真心可恨。这是铁心要逼我们上fsa+++梁山的阵势。 【相关】 《新智元笔记:汉语parsing以及所面对的汉语的意合特点》 【新智元:中文 parsing 在希望的田野上】 【征文参赛:美梦成真】 【立委科普:语法结构树之美(之二)】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5091 次阅读|2 个评论
【新智元笔记:中文处理中的POS、搭配和句法】
热度 1 liwei999 2015-12-1 23:02
白: 今天再砸一块砖:大家说说看,词类标记(POS)有用吗?什么地方有用? 我: 有用,但对于中文parsing不是必要的,词典里的分类是必需的,pos tagging 模块不是。词典里的分类标注可以是 pos 或 pos related 的大类,也可以是更细化的语义类别: 人 家具 电器 等,后者对汉语分析更有用。 白:有些语言有形态变化,形态对POS是敏感的。汉语呢?形态不发达是不是POS就失去了一大依托?另外一大依托来源于“分布”,也就是说用POS写CFG规则,恰好同词类的相互替换都满足同样的规则,可进入同样的句法结构。这个就有点扯了。大部分伪歧义都这么来的。 我: 对,就是扯,成了鸡-蛋的问题了,需要句法 context 来定 POS,然后需要 POS 来简化句法。 聚类总是有用的,它是隐性形式,没有聚类,就没有规则的抽象度。一切靠直接量(显性形式),规则会组合爆炸,除了特别狭窄的领域和用场,是不可能 work 的。功能词可以靠直接量,实词是开放集,一般不能靠直接量,而是要靠聚类标注这种隐性形式(implicit form)。但这并不是说 POS 作为一个模块是必要的,因为聚类可以直接来自词典的标注,歧义的就标注歧义好了(keep ambiguity untouched),反正到了句法阶段,有上下文。 如果细说,词典里面标注的 POS 应该是逻辑POS,而不必是句法 POS。举例来说,工作、学习这些词就是逻辑动词,没有歧义,标在词典就好了,可是以前的POS大都是从句法来考量,于是认为这些词POS有动词和名词的歧义,需要增加一个POS模块在上下文中去消歧,然后再送给句法模块,其结果就产生了鸡和蛋的相互依赖问题,反而捉襟见肘扯不清,容易导致错误放大(error propagation,前面 POS 消歧错了引致句法parse错,所谓POS消歧很多时候是强人所难,因为 POS 在浅层,上下文条件通常不如 parsing 的时候成熟,硬逼迫 POS 去消歧,而不是 keep it as is,其结果是句法擦不完的屁股 ) 。 这些逻辑POS(如逻辑名词、逻辑动词、逻辑形容词)是语义(lexical semantics)分类的最上层,沿着taxonomy (借助类似知网、WordNet等 hierarchy),可以一路往下走,大概走到1000左右的类别数,就可以收了,因为再多,无论人用还是机器用,都有点受不了了,而且过细的分类,对分析理解也没多大用处。 WordNet 的 synsets 数目与词条量相当,都是万这个级别,HowNet 也类似,在万这个级别上。这些语义大师们追求的是自身语义概念系统的自足,不约而同的一路细化到底。 白: 小类多了也麻烦,不敏感的地方好好的一个规则非要分裂成好多个。 我: 但是实际上对 NLP,只有飘在上面的 1/3 或 1/4 的前 1000 个才真正有价值。 白: 这应该可以量化,究竟到哪里就不那么敏感了。 我: 另外,有些词 WordNet 标注有 5 个义项,对应 5 个 synsets,可是砍掉过细分类后,会发现,其实只有两个大的义项区别。譬如,头两个标注的义项其实差别只在 nuance,另三个也是大同小异。对于这种“人为制造”出来的过多歧义,是不用理它的,除非应用场景需要做这种区分(譬如恰好要机器翻译到一个没有亲属关系的目标语言,其翻译对等物不同;而在亲属关系近的语言之间做机器翻译,往往粗线条的义项区分就足矣了)。对于分析,这种细分是没有价值的,只会添乱。 白: 比如,打电话的打,和打酱油的打,对搭配敏感,对句式不敏感。搭配属于波动性,句式属于粒子性。但是义项把他们搅和在一块了。因为搭配敏感性造成的差异,应该从句法规则中剔除。 我: 那是,这就是个性与共性的关系,表现在个性语义搭配与共性动宾关系。说到底就是搭配词典与抽象句法的接口。完全可以既分开又连接。分开的时候只考虑句法,连接的时候解决语义。this is a solved problem for long,在实践中有好几种很漂亮的解决途径。 白: 搭配是个统计现象,不决定合语法性。 我: 关于 POS,以前详细论过,与白老师和王伟等都有相当共识,应该是站得住脚的:见【 中文处理的迷思之二:词类标注是句法分析的前提 】 还有这篇讨论记录也很相关: 泥沙龙笔记:句法语义,粗细不同,POS 靠边 。 搭配是强盗逻辑,可以从大数据的用法统计上找到依据,本质上还是属于词典的特性。属于成语或半成语的固定搭配、黑箱子或半透明的语义组合,不具有纯粹的 semantic compositionality。人是在语言应用过程中死记的,机器当然应该词典化。为什么说“打酱油”不说“击酱油”,没有道理,就是词典绑架。虽然语义是词典绑架的,句法却不是,它完全符合句法的自由特性,可以遵从所有的动宾相关 patterns 的变换:打了酱油;酱油打了;把酱油打了;酱油不值得打;酱油没法去打;无酱油可打 。。。。。。只有在需要语义区分的时候,才需要做这种词典绑架与自由结构的连接(接口)。 白: 打了电话;电话打了;把电话打了;电话不值得打;电话没法去打;无电话可打。。。。。。 我: exactly,所以句法该怎么做还是怎么做,该怎么抽象还是怎么抽象,不能被搭配绑架。 马: “把酱油打了”我理解就是酱油瓶子打碎了 白: 不是啊,让人路过的时候捎带脚做个打酱油的事情,也这么说的。 马: 在这个语境下确实这个意思。 我: 顺带把酱油也打了。 马: 有“顺带”就没有问题了 白: 命令式也没有问题 我: 当然,把字结构的确与 动补合成词(e.g.打碎) 用在一起的概率,高于与 单音节动词的。与此议题相关的隔壁沙龙的讨论反映在 : 《立委科普:固定成语的不固定用法及其机器对策》: http://blog.sciencenet.cn/blog-362400-934716.html 白: 搭配是和句式正交的一种东西,体现波粒二象性。 湖: 1句法:打酱油,把酱油打了; 2语义:打酱油,打电话 3语用:把酱油打了,一指打酱油,一指把酱油瓶打了。 各位老师把语法、语义、语用都说全了 研究容易在三个层面间串 我: 语用不好串,可以搁置(通常语用相关的东西处于信息抽取模块里面,信息抽取放在 parsing 模块后面做比较合理,可以以一当百,以不变应万变,大幅度增强系统的移植性,以前反复论过这种 parser+IE 的系统架构的优越性),先把句法语义接口做好,其实是句法和搭配词典的接口。 困了,撤了。明早起来看各位的讨论。 白: 伟哥好把式 wang: 看了今天的讨论,收益匪浅!真是一个很好的学习机会!谈的都是干货,抓的都是硬骨头。 【相关】 《立委科普:固定成语的不固定用法及其机器对策》 【 中文处理的迷思之二:词类标注是句法分析的前提 】 《泥沙龙铿锵三人行:句法语义纠缠论》 泥沙龙笔记:汉语牛逼,国人任性!句法语义,粗细不同,POS 靠边 泥沙龙笔记:漫谈语言形式 泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(1/2) 泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2) 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4615 次阅读|4 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-1 22:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部