学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮,吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记(20)-基于同层网页相似性的去噪方法

已有 3286 次阅读 2014-7-20 14:50 |个人分类:科研笔记|系统分类:科研笔记|关键词:学者| VIPS, 同层网页相似性

基于同层网页相似性的去噪方法

同层网页是指在网站的导航结构中同属于一个栏目下的网页。由于现在的网页设计多采用自动生成程序(如PHP)或模板,从而使得大部分同层网页具有类型的显示效果。本文基于同层网页相似性的假设来设计去噪方法。

同层相似性验证

首先对同层网页相似性的假设进行验证,分别考察页首相似、导航栏相似、页尾相似以及广告部分相似。相似度用以下公式衡量:

相似性度量

根据同层网页的相似特性,将相似程度超过某一给定阈值的网页部分滤除来得到主体部分。考虑到网页表示使用的超文本标签语言(HTML)是一种半结构化语言,其结构信息和字体信息等保存在标签里面,内容信息保存在文本里面。因此用结构相似度(TAGsimilarity)和内容相似度(TEXTsimilarity)来度量两个HTML的相似性,公式如下:

去噪步骤

滤除噪音块的过程大致可以分为 3 个步骤:(1)使用网络爬虫获取源网页的同层网页(2)调用 VIPS 算法将要过滤网页切割成合理数目的子树(3)对于由 VIPS 算法得到的每一个子树,调用子树匹配算法和同层网页进行匹配,如果计算出的相似度大于预先设定的阈值,就认为是噪音部分,否则就认为是信息部分。(本文算法中,认为结构相似是最重要的,故允许其在颜色、字体和内容上有一定的不同。为此,定义了最低相似值:(α,β)

子树匹配算法

子树匹配算法的目的是为了判断输入的两个 DOM  Tree 是否存在包含关系。算法的一个输入为通过 VIPS 算法得到的源网页的一棵子树A,另一个输入为其同层网页树B。通过匹配算法,可得到 A 是否为 B 的一部分的结论。(算法代码见原文献)

实验分析

1) 数据集. 从新浪、搜狐、中华网和 TOM 网站中分别选取 15 个网页作为测试用例。VIPS 算法中文件相关度 pdoc 5,相似度 (α,β)设定为经验值  (0.8,0.6)

2) 衡量指标. 召回率、查准率。

参考文献

[1] 袁明轩,张选平,蒋宇,.一种基于同层网页相似性去除网页噪音的方法_袁明轩[J].计算机工程, 2006, 卷缺失(23):61-63.



https://m.sciencenet.cn/blog-719488-813179.html

上一篇:文献阅读笔记(19)-基于Crunch的网页内容提取的应用
下一篇:文献阅读笔记(21)-条件随机场用于信息抽取

1 Vetaren11

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 12:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部