博文

《立委随笔：语言自动分析的两个路子》

已有 7592 次阅读 2010-4-17 12:42 |个人分类:立委科普|系统分类:科研笔记|关键词:学者| 语言, 自动分析, parser

以前断续写过一些随笔。 (899 bytes)
Posted by: 立委
Date: September 22, 2008 12:18AM

不外是两个路子，基于语法规则的路子，基于统计的机器学习（ML）路子，或者是二者的某种结合。不过，语法的路子并不大用乔姆斯基的转换生成语法。除了教授在实验室做玩具系统外，应用系统中最多用最熟练的是基于模式匹配的有限状态自动机（FSA）的formalism，而不是常提到的上下文自由语法。

自然语言理解（NLU）的核心是自动句法分析（parsing）. 这个领域的发展使得 parsing 这样一个繁复的的任务逐渐细化成由浅及深的很多子任务，从词类识别（Part-of-speech tagging），基本短语抱团（phrase chunking）, 到句法主谓宾关系（SVO parsing）, 语义角色标注（Role Labeling）等等。这就为系统的模块化创造了条件，有利于软件系统的开发和维护。通常的做法是为每个子任务编制模式匹配规则，构成一个一环套一环的系列（pipeline structure）, 前一个模块的输出就是下一个模块的输入, 搭积木一样构筑语言理解的大厦（via some form of cascaded FSAs）。

随着硬件的飞速发展，parsing 已经可以处理海量数据（terabyte 量级），应用型开发不再是梦想了。

【置顶：立委科学网博客NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://m.sciencenet.cn/blog-362400-312996.html

上一篇：《甜甜花絮：Practice Makes Perfect》
下一篇：《朝华点滴：插队的日子（一）》

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

《立委随笔：语言自动分析的两个路子》

当前推荐数：1 推荐人：武夷山

该博文允许注册用户评论请点击登录评论 (2 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

《立委随笔：语言自动分析的两个路子》

当前推荐数：1 推荐人： 武夷山

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：1 推荐人：武夷山

该博文允许注册用户评论请点击登录评论 (2 个评论)