博文

转：舆情监控四步走之二：定义内容

已有 3186 次阅读 2008-9-18 12:07 |个人分类:NLP|关键词:学者

获取内容是最麻烦的工作，一旦内容收集过来了，接下来的工作就开始好办了。就像普通的Web analytics一样，只要定义什么是ＰＶ，什么是ＵＶ等ＫＰＩ即可。

　　那么用户通过键盘行为创造的数据应该如何分析呢？计算机如何识别文字呢？我有几个比较容易获取的ＫＰＩ想法：

１、文章与论文的文字长度。即字节数。
２、内容中关键词出现的次数。
３、内容的展示数。
４、发布者信息。（根据内容不同的渠道，可以获得发布者的ＩＤ、性别、ＩＰ地址、活跃指数等）

或者还有很多ＫＰＩ可以获取，欢迎大家集思广义。

交流会上Bjorn曾问，如何判断言论的正反性呢？在下一篇的“过滤”文章会有详细的介绍。

转载本文请联系原作者获取授权，同时请注明本文来自李斌科学网博客。
链接地址：https://m.sciencenet.cn/blog-39714-39428.html

上一篇：写博要慎重：说说舆情监控软件
下一篇：警惕经济危机会到来