《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【新智元笔记:中文处理中的POS、搭配和句法】

已有 4588 次阅读 2015-12-1 23:02 |个人分类:立委科普|系统分类:观点评述|关键词:学者| 句法, 搭配, POS, 中文NLP

白: 今天再砸一块砖:大家说说看,词类标记(POS)有用吗?什么地方有用?

我: 有用,但对于中文parsing不是必要的,词典里的分类是必需的,pos tagging 模块不是。词典里的分类标注可以是 pos 或 pos related 的大类,也可以是更细化的语义类别: 人 家具 电器 等,后者对汉语分析更有用。

白:有些语言有形态变化,形态对POS是敏感的。汉语呢?形态不发达是不是POS就失去了一大依托?另外一大依托来源于“分布”,也就是说用POS写CFG规则,恰好同词类的相互替换都满足同样的规则,可进入同样的句法结构。这个就有点扯了。大部分伪歧义都这么来的。

我: 对,就是扯,成了鸡-蛋的问题了,需要句法 context 来定 POS,然后需要 POS 来简化句法。

聚类总是有用的,它是隐性形式,没有聚类,就没有规则的抽象度。一切靠直接量(显性形式),规则会组合爆炸,除了特别狭窄的领域和用场,是不可能 work 的。功能词可以靠直接量,实词是开放集,一般不能靠直接量,而是要靠聚类标注这种隐性形式(implicit form)。但这并不是说 POS 作为一个模块是必要的,因为聚类可以直接来自词典的标注,歧义的就标注歧义好了(keep ambiguity untouched),反正到了句法阶段,有上下文。

如果细说,词典里面标注的 POS 应该是逻辑POS,而不必是句法 POS。举例来说,工作、学习这些词就是逻辑动词,没有歧义,标在词典就好了,可是以前的POS大都是从句法来考量,于是认为这些词POS有动词和名词的歧义,需要增加一个POS模块在上下文中去消歧,然后再送给句法模块,其结果就产生了鸡和蛋的相互依赖问题,反而捉襟见肘扯不清,容易导致错误放大(error propagation,前面 POS 消歧错了引致句法parse错,所谓POS消歧很多时候是强人所难,因为 POS 在浅层,上下文条件通常不如 parsing 的时候成熟,硬逼迫 POS 去消歧,而不是 keep it as is,其结果是句法擦不完的屁股

这些逻辑POS(如逻辑名词、逻辑动词、逻辑形容词)是语义(lexical semantics)分类的最上层,沿着taxonomy (借助类似知网、WordNet等 hierarchy),可以一路往下走,大概走到1000左右的类别数,就可以收了,因为再多,无论人用还是机器用,都有点受不了了,而且过细的分类,对分析理解也没多大用处。

WordNet 的 synsets 数目与词条量相当,都是万这个级别,HowNet 也类似,在万这个级别上。这些语义大师们追求的是自身语义概念系统的自足,不约而同的一路细化到底。

白: 小类多了也麻烦,不敏感的地方好好的一个规则非要分裂成好多个。

我: 但是实际上对 NLP,只有飘在上面的 1/3 或 1/4 的前 1000 个才真正有价值。

白: 这应该可以量化,究竟到哪里就不那么敏感了。

我: 另外,有些词 WordNet 标注有 5  个义项,对应 5 个 synsets,可是砍掉过细分类后,会发现,其实只有两个大的义项区别。譬如,头两个标注的义项其实差别只在 nuance,另三个也是大同小异。对于这种“人为制造”出来的过多歧义,是不用理它的,除非应用场景需要做这种区分(譬如恰好要机器翻译到一个没有亲属关系的目标语言,其翻译对等物不同;而在亲属关系近的语言之间做机器翻译,往往粗线条的义项区分就足矣了)。对于分析,这种细分是没有价值的,只会添乱。

白: 比如,打电话的打,和打酱油的打,对搭配敏感,对句式不敏感。搭配属于波动性,句式属于粒子性。但是义项把他们搅和在一块了。因为搭配敏感性造成的差异,应该从句法规则中剔除。

我: 那是,这就是个性与共性的关系,表现在个性语义搭配与共性动宾关系。说到底就是搭配词典与抽象句法的接口。完全可以既分开又连接。分开的时候只考虑句法,连接的时候解决语义。this is a solved problem for long,在实践中有好几种很漂亮的解决途径。

白: 搭配是个统计现象,不决定合语法性。

我: 关于 POS,以前详细论过,与白老师和王伟等都有相当共识,应该是站得住脚的:见【中文处理的迷思之二:词类标注是句法分析的前提

还有这篇讨论记录也很相关: 泥沙龙笔记:句法语义,粗细不同,POS 靠边

搭配是强盗逻辑,可以从大数据的用法统计上找到依据,本质上还是属于词典的特性。属于成语或半成语的固定搭配、黑箱子或半透明的语义组合,不具有纯粹的 semantic compositionality。人是在语言应用过程中死记的,机器当然应该词典化。为什么说“打酱油”不说“击酱油”,没有道理,就是词典绑架。虽然语义是词典绑架的,句法却不是,它完全符合句法的自由特性,可以遵从所有的动宾相关 patterns 的变换:打了酱油;酱油打了;把酱油打了;酱油不值得打;酱油没法去打;无酱油可打 。。。。。。只有在需要语义区分的时候,才需要做这种词典绑架与自由结构的连接(接口)。

白: 打了电话;电话打了;把电话打了;电话不值得打;电话没法去打;无电话可打。。。。。。

我: exactly,所以句法该怎么做还是怎么做,该怎么抽象还是怎么抽象,不能被搭配绑架。

马: “把酱油打了”我理解就是酱油瓶子打碎了

白: 不是啊,让人路过的时候捎带脚做个打酱油的事情,也这么说的。

马: 在这个语境下确实这个意思。

我: 顺带把酱油也打了。

马: 有“顺带”就没有问题了

白: 命令式也没有问题

我: 当然,把字结构的确与 动补合成词(e.g.打碎) 用在一起的概率,高于与 单音节动词的。与此议题相关的隔壁沙龙的讨论反映在 : 《立委科普:固定成语的不固定用法及其机器对策》: http://blog.sciencenet.cn/blog-362400-934716.html

白: 搭配是和句式正交的一种东西,体现波粒二象性。

湖: 1句法:打酱油,把酱油打了;

2语义:打酱油,打电话

3语用:把酱油打了,一指打酱油,一指把酱油瓶打了。

各位老师把语法、语义、语用都说全了

研究容易在三个层面间串

我: 语用不好串,可以搁置(通常语用相关的东西处于信息抽取模块里面,信息抽取放在 parsing 模块后面做比较合理,可以以一当百,以不变应万变,大幅度增强系统的移植性,以前反复论过这种 parser+IE 的系统架构的优越性),先把句法语义接口做好,其实是句法和搭配词典的接口。

困了,撤了。明早起来看各位的讨论。

白: 伟哥好把式

wang: 看了今天的讨论,收益匪浅!真是一个很好的学习机会!谈的都是干货,抓的都是硬骨头。


【相关】

 《立委科普:固定成语的不固定用法及其机器对策》

中文处理的迷思之二:词类标注是句法分析的前提

《泥沙龙铿锵三人行:句法语义纠缠论》

泥沙龙笔记:汉语牛逼,国人任性!句法语义,粗细不同,POS 靠边

 泥沙龙笔记:漫谈语言形式

 泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(1/2)

 泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2)

【置顶:立委科学网博客NLP博文一览(定期更新版)】





https://m.sciencenet.cn/blog-362400-940355.html

上一篇:【新智元沙龙笔记:谈不完的知识图谱】
下一篇:【李白隔空对话录:关于词类活用】

0

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-17 14:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部