科学网

 找回密码
  注册

tag 标签: 风格树

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

文献阅读笔记(9)-基于风格树的网页去噪方法
FangliXie 2014-6-29 12:05
基于风格树的网页去噪方法 风格树 (StyleTree) StyleTree 由 DOM 演化而来 , 包含两类节点 , 风格节点 (style nodes) 和元素节点 (element nodes). 风格节点 (S) 描述布局 (layout) 或呈现 (presentation) 风格 , 用 (Es,n) 表示 , 其中 Es 是元素节点序列 ,n 是含有相同样式的页面数量 . 元素节点 (E) 用 (TAG,Attr,Ss) 表示 , 其中 TAG 是标签名 ,Attr 是 TAG 的属性 ,Ss 是该元素节点下一层的风格节点集 . 为了便于区别通常把风格节点用一个标签序列来表示 , 而元素节点直接用标签名表示 . 如下图 ,P-IMG-P-A,P-BR-P 都是是风格节点 ,n=1. 前提假设 1) 元素节点的呈现风格越多样表明节点越重要 , 反之亦然 . 2) 元素节点的实际内容越多样表明节点越重要 , 反之亦然 . 去噪过程 上图是整个去噪过程的算法表示 , 解释如下 : 1. 爬取 k 个页面 . 2. 为 SST( 风格树 ) 虚拟一个根节点 . 3. 逐一调用每个页面 . 4. 对每一个页面生成一棵 DOM 树 , 也即单个页面的风格树 (PST). 5. 将 k 个 PST 组合成一棵完备的 SST. 6-7. 计算 SST 中每个元素节点的 复合重要度 (compositeimportance) . 复合重要度由形式重要度 (presentation importance) 和内容重要度 (content importance) 组成 . 复合重要度 (composite importance) 用信息熵来衡量 , 对于 SST 内部元素节点和叶子元素节点 , 计算公式依次如下 : 8-9. 通过元素节点的复合重要度与阈值进行比较 , 判断出是噪声节点 , 还是意义节点 . 去掉噪声节点 , 保留意义节点 , 得到一棵简化后的 SST, 即用于去噪的模板 . 10. 取出待去噪的页面 . 11. 生成该页面的 PST. 12. 将 PST 与 SST 进行模式匹配 , 进行去噪 . 13. 返回去噪后的页面 . 实验分析 1 )数据集 . 2 )衡量指标 . 将该去噪方法分别用于网页聚类 (k-means 聚类 ) 和网页分类 ( 朴素贝叶斯分类 ), 利用 F Score 指标对比处理前后的结果 . 论文评价 这是一篇经典文献 , 有很多借鉴和学习的地方 . 参考文献 Yi L,Liu B,Li X.Eliminating noisy information in Webpages for datamining Proc of the 9th ACM SIGKDDIntConf on Knowledge Discovery and Data Mining.NewYork:ACM,2003:296-305
个人分类: 科研笔记|3167 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 12:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部