||||
基于风格树的网页去噪方法
风格树(StyleTree)
StyleTree由DOM演化而来,包含两类节点,风格节点(style nodes)和元素节点(element nodes). 风格节点(S)描述布局(layout)或呈现(presentation)风格,用(Es,n)表示,其中Es是元素节点序列,n是含有相同样式的页面数量. 元素节点(E)用(TAG,Attr,Ss)表示,其中TAG是标签名,Attr是TAG的属性,Ss是该元素节点下一层的风格节点集. 为了便于区别通常把风格节点用一个标签序列来表示,而元素节点直接用标签名表示. 如下图,P-IMG-P-A,P-BR-P都是是风格节点,n=1.
前提假设
1) 元素节点的呈现风格越多样表明节点越重要,反之亦然.
2) 元素节点的实际内容越多样表明节点越重要,反之亦然.
去噪过程
上图是整个去噪过程的算法表示,解释如下:
1. 爬取k个页面.
2. 为SST(风格树)虚拟一个根节点.
3. 逐一调用每个页面.
4. 对每一个页面生成一棵DOM树,也即单个页面的风格树(PST).
5. 将k个PST组合成一棵完备的SST.
6-7.计算SST中每个元素节点的复合重要度(compositeimportance).复合重要度由形式重要度(presentation importance)和内容重要度(content importance)组成. 复合重要度(composite importance)用信息熵来衡量,对于SST内部元素节点和叶子元素节点,计算公式依次如下:
8-9. 通过元素节点的复合重要度与阈值进行比较,判断出是噪声节点,还是意义节点.去掉噪声节点,保留意义节点,得到一棵简化后的SST,即用于去噪的模板.
10. 取出待去噪的页面.
11. 生成该页面的PST.
12. 将PST与SST进行模式匹配,进行去噪.
13. 返回去噪后的页面.
实验分析
1)数据集.
2)衡量指标. 将该去噪方法分别用于网页聚类(k-means聚类)和网页分类(朴素贝叶斯分类),利用F Score指标对比处理前后的结果.
论文评价
这是一篇经典文献,有很多借鉴和学习的地方.
参考文献
[1] Yi L,Liu B,Li X.Eliminating noisy information in Webpages for datamining[C] Proc of the 9th ACM SIGKDDIntConf on Knowledge Discovery and Data Mining.NewYork:ACM,2003:296-305
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2023-4-1 03:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社