科学网-【科普随笔：NLP主流之偏见重复一万遍成为反真理】-李维的博文

【科普随笔：NLP主流之偏见重复一万遍成为反真理】

2013-6-28 15:56

阅读：5668

标签：NLP, 偏见, 主流, 规则系统, 谬见

【科普随笔：NLP主流的傲慢与偏见】中有些广为流传或广为采信的观点，岂止偏见，谬见是也，无需一驳，因为事实胜于雄辩：

【偏见三】规则系统的手工编制注定其不能 scale up，无法胜任 real world application，只能做实验室里的玩具。
谬！以我们在社交媒体大数据上运行的最新系统为例（当然这不是我的功劳，是工程师的成就）：

整个舆情挖掘系统由前后两个子系统组成。核心引擎是后台子系统（back-end indexing engine），用于对社交媒体大数据做自动分析和抽取。分析和抽取结果用开源的Apache Lucene文本搜索引擎(lucene.apache.org) 存储。生成后台索引的过程基于Map-Reduce框架，利用计算云(computing cloud) 中200台虚拟服务器进行分布式索引。对于过往一年的社会媒体大数据存档（约300亿文档跨越40多种语言），后台索引系统可以在7天左右完成全部索引。前台子系统（front-end app）是基于 SaaS 的一种类似搜索的应用。用户通过浏览器登录应用服务器，输入一个感兴趣的话题，应用服务器对后台索引进行分布式搜索，搜索的结果在应用服务器经过整合，以用户可以预设（configable）的方式呈现给用户。这一过程立等可取，响应时间不过三四秒。前台系统负责搜索、挖掘、整合和表达，设计成一个三层的混合后备式模型（hybrid back-off model），以求最大程度地满足不同用户的情报需求。

【偏见四】规则系统只能在极狭窄的领域成事，无法做跨领域的系统。
谬！见我们开发的两款跨领域产品，回答 how 的问答系统 illumin8 和多语言社交媒体舆情挖掘的系统 ConsumerBase。
【偏见五】规则系统只能处理规范的语言（譬如说明书、天气预报、新闻等），无法应对 degraded text，如社会媒体、口语、方言、黑话、OCR 文档。

谬！见我们开发的社交媒体舆情挖掘系统以及粤语前处理系统。

【系列姐妹篇】

【科普随笔：NLP主流的傲慢与偏见】

【科普随笔：NLP主流最大的偏见，规则系统的手工性】

【科普随笔：NLP主流偏见之二，所谓规则系统的移植性太差】

【科普随笔：NLP主流之偏见重复一万遍成为反真理】

【置顶：立委科学网博客NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。

链接地址：https://m.sciencenet.cn/blog-362400-703513.html?mobile=1

分享到:

当前推荐数：3

推荐人：

文克玲陈辉李宇斌

推荐到博客首页

网友评论0 条评论

博文发布时间已经超过87600小时，评论已关闭。