科学网

 找回密码
  注册

tag 标签: 同层网页相似性

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

文献阅读笔记(20)-基于同层网页相似性的去噪方法
FangliXie 2014-7-20 14:50
基于同层网页相似性的去噪方法 同层网页是指在网站的导航结构中同属于一个栏目下的网页。由于现在的网页设计多采用自动生成程序(如 PHP )或模板,从而使得大部分同层网页具有类型的显示效果。本文基于同层网页相似性的假设来设计去噪方法。 同层相似性验证 首先对同层网页相似性的假设进行验证,分别考察页首相似、导航栏相似、页尾相似以及广告部分相似。相似度用以下公式衡量: 相似性度量 根据同层网页的相似特性,将相似程度超过某一给定阈值的网页部分滤除来得到主体部分。考虑到网页表示使用的超文本标签语言 (HTML) 是一种半结构化语言,其结构信息和字体信息等保存在标签里面,内容信息保存在文本里面。因此用结构相似度( TAG similarity )和内容相似度( TEXT similarity )来度量两个 HTML 的相似性,公式如下: 去噪步骤 滤除噪音块的过程大致可以分为 3 个步骤: (1) 使用网络爬虫获取源网页的同层网页 (2) 调用 VIPS 算法将要过滤网页切割成合理数目的子树 (3) 对于由 VIPS 算法得到的每一个子树,调用子树匹配算法和同层网页进行匹配,如果计算出的相似度大于预先设定的阈值,就认为是噪音部分,否则就认为是信息部分。(本文算法中,认为结构相似是最重要的,故允许其在颜色、字体和内容上有一定的不同。为此,定义了最低相似值: (α,β) ) 子树匹配算法 子树匹配算法的目的是为了判断输入的两个 DOM Tree 是否存在包含关系。算法的一个输入为通过 VIPS 算法得到的源网页的一棵子树 A ,另一个输入为其同层网页树 B 。通过匹配算法,可得到 A 是否为 B 的一部分的结论。(算法代码见原文献) 实验分析 1) 数据集 . 从新浪、搜狐、中华网和 TOM 网站中分别选取 15 个网页作为测试用例。 VIPS 算法中文件相关度 pdoc 为 5 ,相似度 (α,β) 设定为经验值 (0.8,0.6) 。 2) 衡量指标 . 召回率、查准率。 参考文献 袁明轩 , 张选平 , 蒋宇 , 等 . 一种基于同层网页相似性去除网页噪音的方法 _ 袁明轩 . 计算机工程 , 2006, 卷缺失 (23):61-63.
个人分类: 科研笔记|3291 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 18:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部