面向网络论坛的高质量主题发现 陈友 程学旗, 杨森 软件学报 2011 摘要: 提出了一种通用的高质量主题发现框架.在该框架下,利用 特征抽取技术 提取内容特征,利用结构特征去 发现高质量主题.提出了一种基于遗传算法、禁忌搜索与机器学习的 特征选择算法 ,用来评价被抽取特征的重要性.在腾讯论坛数据集上进行了大量的实验.实验结果表明,该框架能够很好地发现高质量主题.提出的特征抽取算法、特征选择算法以及高质量主题发现框架能够在很多Web2.0 领域得到应用,例如,博客、社会网络平台等. 关键词: 网络论坛;高质量;特征选择;特征抽取;分类 用户产生的内容(user generated content,UGC): 信息来源 urgent work: 如何从庞大的UGC 中发现高质量的内容? the hot research focus: 网络论坛上的高质量主题发现? the idea of this paper: 提出一种通用的框架,以发现网络论坛上的高质量主题(thread). 该框架包括特征抽取、特征选择以及分类器3 部分. -- 特征抽取的目的是抽取高质量主题与低质量主题之间的区别性特征.可以用来发现高质量主题. -- 特征选择用来从抽取的特征中选择主要特征.提高效率,精度. -- 分类器利用选择后的特征作为输入,以检测高质量的主题. the contribution of this paper: (1) 提出一适用于Web2.0 的通用检测框架,可快速、自动地发现网络论坛上的高质量主题. (2) 在特征抽取上,包含小波特征与突发特征的时序特征被挖掘出来.挖掘出的特征能够很好地发现高 质量主题,并且这种时序特征的挖掘方法可以在很多领域得到应用. (3) 实验分析以及实验结果表明了哪些特征以及哪些分类器可以很好地用于高质量主题发现. 1 相关工作 Web2.0 环境下的UGC 质量评估: -- 从UGC 质量评估的任务 -- 质量评估需要的特征 -- 质量评估使用到的技术 -- 那些领域需要质量评估 UGC 质量评估任务3 个要素: 质量的等级、质量评估的层次以及质量评估的输入、输出 -- 质量等级: 高质量与低质量 -- UGC 质量评估的层次: 基于post 的质量评估与基于thread 的质量评估 -- HITS 算法: 寻找权威用户 2 Thread 结构 Def: • 帖子(post): • 论题(title): • 入口(entry): • 主题(thread): 3 高质量主题识别框架 面向网络论坛的高质量主题识别框架: -- 特征抽取 -- 特征选择 -- 分类器. the work of this paper: -- 内容特征: 依据论坛上thread 的树形结构来挖掘结构性特征,帮助框架识别高质量的主题. -- 结构特征挖掘: 考察thread 在时间轴上的变化来区别高质量主题与低质量主题. -- 首先,把thread 的生命周期划分成等时间窗口的时间片 -- 然后,在每一个时间片上计算该时间段内新增用户数量、新增回帖(reply)数量及新增回帖文本长度; -- 最后,把这些时间片段连接起来形成3 个时间序列:user-series(新增用户数量时间序列),reply-series (新增回帖时间序列),size-series(新增回帖文本长度时间序列) the methods: -- 首先,利用小波变换技术来提取时间序列上的能量特征; -- 然后,利用离散点检测技术来提取时间序列上的突发性特征 高质量主题: 内容特征、能量特征以及突发性特征, 高质量主题识别框架图. 识别框架组成: -- 源数据预处理 -- 特征抽取 -- 特征选择 -- 分类 3.1 内容特征 3.2 结构特征 3.2.1 小波变换 3.2.2 离群点检测 突发检测: -- 网络流检测 -- 离群点检测: LOCI 3.3 特征选择与分类器 特征选择目的: 对特征集合中每一个特征的重要性进行评估 特征选择方法: -- 基于过滤器的特征选择方法 -- 基于封装器的特征选择方法 . the strategy of this paper: 遗传算法(genetic algorithm,GA) + 禁忌搜索(Tabu search,TS) comparison: 分类器决策树、Nave Bayes、SVMs 4 实验与评估 criteria: (1) 正确率(accuracy): (2) 准确率(precision): (3) 召回率(recall): 4.1 实验数据 4.2 实验评估 4.3 特征选择 4.4 Blog数据集上的评估 5 结论 I comment: author proposes a classificate framework to identify the high quality post in web forum. Firstly, they present their criteria or pattern of high quality post from the content and structure feature perspective. With regard to contnet feature, author pay attention to Gain entropy of information, while author consider the time seriesof reply, time andthe length of reply post by means of wavelet transform and find the brust situation from liar mining. Then author utilize the hybrid algorithms, which integrate genetic algorithm with tabular search, to select the feature. Although I don'tcomprehensive the methods presented by this paper., I appreciate this article since this subject is suit for my trust research based on web community. 面向网络论坛的高质量主题发现.pdf