李维
【科普随笔:NLP主流之偏见重复一万遍成为反真理】
2013-6-28 15:56
阅读:5668
标签:NLP, 偏见, 主流, 规则系统, 谬见

【科普随笔:NLP主流的傲慢与偏见】中有些广为流传或广为采信的观点,岂止偏见,谬见是也,无需一驳,因为事实胜于雄辩 :

【偏见三】规则系统的手工编制注定其不能 scale up,无法胜任 real world application,只能做实验室里的玩具。

谬!以我们在社交媒体大数据上运行的最新系统为例(当然这不是我的功劳,是工程师的成就):

整个舆情挖掘系统由前后两个子系统组成。核心引擎是后台子系统(back-end indexing engine),用于对社交媒体大数据做自动分析和抽取。分析和抽取结果用开源的Apache Lucene文本搜索引擎(lucene.apache.org) 存储。生成后台索引的过程基于Map-Reduce框架,利用计算云(computing cloud) 200虚拟服务器进行分布式索引。对于过往一年的社会媒体大数据存档(约300亿文档跨越40多种语言),后台索引系统可以在7天左右完成全部索引。前台子系统(front-end app)是基于 SaaS 的一种类似搜索的应用。用户通过浏览器登录应用服务器,输入一个感兴趣的话题,应用服务器对后台索引进行分布式搜索,搜索的结果在应用服务器经过整合,以用户可以预设(configable)的方式呈现给用户。这一过程立等可取,响应时间不过三四秒。前台系统负责搜索、挖掘、整合和表达,设计成一个三层的混合后备式模型(hybrid back-off model),以求最大程度地满足不同用户的情报需求

【偏见四规则系统只能在极狭窄的领域成事,无法做跨领域的系统

谬!见我们开发的两款跨领域产品,回答 how 的问答系统 illumin8 和多语言社交媒体舆情挖掘的系统 ConsumerBase。

【偏见五规则系统只能处理规范的语言(譬如说明书、天气预报、新闻等),无法应对 degraded text,如社会媒体、口语、方言、黑话、OCR 文档

谬!见我们开发的社交媒体舆情挖掘系统以及粤语前处理系统。


【系列姐妹篇】

【科普随笔:NLP主流的傲慢与偏见】

【科普随笔:NLP主流最大的偏见,规则系统的手工性】

【科普随笔:NLP主流偏见之二,所谓规则系统的移植性太差】

【科普随笔:NLP主流之偏见重复一万遍成为反真理】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客。

链接地址:https://m.sciencenet.cn/blog-362400-703513.html?mobile=1

收藏

分享到:

当前推荐数:3
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?