随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

转:舆情监控四步走之二:定义内容

已有 3186 次阅读 2008-9-18 12:07 |个人分类:NLP|关键词:学者

获取内容是最麻烦的工作,一旦内容收集过来了,接下来的工作就开始好办了。就像普通的Web analytics一样,只要定义什么是PV,什么是UV等KPI即可。

  那么用户通过键盘行为创造的数据应该如何分析呢?计算机如何识别文字呢?我有几个比较容易获取的KPI想法:

1、文章与论文的文字长度。即字节数。
2、内容中关键词出现的次数。
3、内容的展示数。
4、发布者信息。(根据内容不同的渠道,可以获得发布者的ID、性别、IP地址、活跃指数等)

或者还有很多KPI可以获取,欢迎大家集思广义。

交流会上Bjorn曾问,如何判断言论的正反性呢?在下一篇的“过滤”文章会有详细的介绍。

 




https://m.sciencenet.cn/blog-39714-39428.html

上一篇:写博要慎重:说说舆情监控软件
下一篇:警惕经济危机会到来

0

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-8 05:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部