学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮,吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记(9)-基于风格树的网页去噪方法

已有 3160 次阅读 2014-6-29 12:05 |个人分类:科研笔记|系统分类:科研笔记|关键词:学者| SST, 网页去噪, 风格树

基于风格树的网页去噪方法

风格树(StyleTree)

StyleTreeDOM演化而来,包含两类节点,风格节点(style nodes)和元素节点(element nodes). 风格节点(S)描述布局(layout)或呈现(presentation)风格,(Es,n)表示,其中Es是元素节点序列,n是含有相同样式的页面数量. 元素节点(E)(TAG,Attr,Ss)表示,其中TAG是标签名,AttrTAG的属性,Ss是该元素节点下一层的风格节点集. 为了便于区别通常把风格节点用一个标签序列来表示,而元素节点直接用标签名表示. 如下图,P-IMG-P-A,P-BR-P都是是风格节点,n=1.


前提假设

1) 元素节点的呈现风格越多样表明节点越重要,反之亦然.

2) 元素节点的实际内容越多样表明节点越重要,反之亦然.

去噪过程


上图是整个去噪过程的算法表示,解释如下:

1.        爬取k个页面.

2.        SST(风格树)虚拟一个根节点.

3.        逐一调用每个页面.

4.        对每一个页面生成一棵DOM,也即单个页面的风格树(PST).

5.        kPST组合成一棵完备的SST.

6-7.计算SST中每个元素节点的复合重要度(compositeimportance).复合重要度由形式重要度(presentation importance)和内容重要度(content importance)组成. 复合重要度(composite importance)用信息熵来衡量,对于SST内部元素节点和叶子元素节点,计算公式依次如下:



8-9.  通过元素节点的复合重要度与阈值进行比较,判断出是噪声节点,还是意义节点.去掉噪声节点,保留意义节点,得到一棵简化后的SST,即用于去噪的模板.

10.  取出待去噪的页面.

11.  生成该页面的PST.

12.  PSTSST进行模式匹配,进行去噪.

13.  返回去噪后的页面.

实验分析

1)数据集.


2)衡量指标. 将该去噪方法分别用于网页聚类(k-means聚类)和网页分类(朴素贝叶斯分类),利用F Score指标对比处理前后的结果.

论文评价

这是一篇经典文献,有很多借鉴和学习的地方.

参考文献

[1] Yi L,Liu B,Li X.Eliminating noisy information in Webpages for datamining[C]  Proc of the 9th ACM SIGKDDIntConf on Knowledge Discovery and Data Mining.NewYork:ACM,2003:296-305




https://m.sciencenet.cn/blog-719488-807577.html

上一篇:文献阅读笔记(8)-基于DIV位置的网页正文抽取方法和装置
下一篇:文献阅读笔记(10)-利用信息熵进行网页去噪的方法

1 Vetaren11

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 06:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部