博文

泥沙龙笔记：从 sparse data 再论parsing乃是NLP应用的核武器

已有 7375 次阅读 2015-7-28 15:14 |个人分类:立委科普|系统分类:教学心得|关键词:学者| NLP, parsing, 信息抽取, 自然语言

白：parsing准确率，如果把所有未尽事宜都丢给语义语用，有点自说自话的味道，最终用户无感。

Wei：用户感不感没大关系，关键是它节省了语用层面的开发。

没有parsing，抽取是在表层进行，存在的困境是 sparse data 和长尾问题。

表层的东西学不胜学，而有了 deep parsing 的支持，抽取规则可以以一当百，至少从规则量上看，这绝不是夸张。这是其一。

其二，deep parsing 使得领域移植性增强太多。

没有 parsing 抽取任务变了，一切须推到重来。

对于规则体系，有了 deep parsing，抽取任务随领域变了就不需要那么大的返工。parsing 吃掉了约 90% 的重复劳动（语言知识和结构本质上是跨领域的），返工的部分不到 10%。

parsing 意义之重大正在于此。

对于机器学习，NLP应用的知识瓶颈在（1）sparse data；（2）任务变，训练库必须重新标注：前一个任务的标注对后续任务基本没有可重复使用的可能，因为标注是在语用层进行的。

如果有 parsing support，理论上讲，机器学习可以更好地克服 sparse data，但实践上，到目前为止，结合 structure features 和 keywords 在机器学习中一锅煮，目前还处于探索研究阶段，没有多少成熟的案例。我们以前尝试过这种探索，似乎parsing的参与有推进系统质量的潜力，但是还是很难缠，模型复杂了，features 混杂了，协调好不是一件容易的事儿。

事实上，规则体系做抽取，没有 parsing 差不多有寸步难行的感觉。因为人的大脑要在语言表层写规则，数量太大，写不过来。只有机器学习，才可以绕开parsing去学那数量巨大的抽取规则或模型，但前提是有海量标注的训练集。否则面对的是 sparse data 的严重困扰。

sparse data 远远不是单指表层的出现频率低的 ngrams （习惯用法、成语等）的累积，那种 sparse data 相对单纯，可以当做专家词典一样一条一条编写，愚公或可移山。如果训练数据量巨大，譬如机器翻译，那么这类 sparse data 对于机器学习也有迹可循。当然大多数场景，标注的训练集始终大不起来，这个知识瓶颈 is killing ML。

更重要的 sparse data 是由于缺乏结构造成的，这种 sparse data 没有parsing就几乎无计可施。表层的千变万化，一般遵循一个正态分布，长尾问题在结构化之前是没有办法有效捕捉的。而表层的变化被 parsing 规整了以后，表层的 sparse 现象就不再 sparse，在结构层面，sparse patterns 被 normalize 了。这是 parsing 之所以可以称为NLP应用之核武器的根本。

没有 parsing，结构性 sparse data 就玩不转。

乔姆斯基纵有一万个不是，一千个误导，但他老人家提出的表层结构和深层结构的思想是不朽的。parsing 就是吃掉各种表层结构，生成一个逻辑化的深层结构。在这种深层结构上做抽取或其他语义语用方面的应用型工作，事半功倍。

Deep parsing consumes variations of surface patterns, that's why it is as powerful as nuclear bombs in NLP。

别说自然语言的语句的表层多样化，咱们就是看一些简单的语言子任务，譬如 data entity 的自动标注任务，就可以知道表层的 sparse data 会多么麻烦：如 “时间”的表达法，再如“邮件地址”的表达法，等等。这些可以用正则表达式 parse 涵盖的现象，如果在表层去用 ngram 学习，那个长尾问题就是灾难。

自然语言文句之需要 parsing，与标注 data entity，正则表达式优于 ngram 学习，其道理是相通的。

【相关】

泥沙龙笔记：parsing 是引擎的核武器，再论NLP与搜索

【置顶：立委科学网博客NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://m.sciencenet.cn/blog-362400-908894.html

上一篇：科研考核的话题
下一篇：回答［自动扶梯“右立左行”道理何在？］

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

泥沙龙笔记：从 sparse data 再论parsing乃是NLP应用的核武器

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

泥沙龙笔记：从 sparse data 再论parsing乃是NLP应用的核武器

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)