学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮,吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记(24)-基于URL-DOM的网页去噪方法

已有 3203 次阅读 2014-7-25 08:56 |个人分类:科研笔记|系统分类:科研笔记|关键词:学者| DOM, URL相似性

基于URL-DOM的网页去噪方法

URL 相似性定义

在一个 URL中,每两个“/”间的内容称为一小段URL。如果满足以下条件:1)第一小段的URL 相同;2“/”的数量相同;3URL 的后缀名相同或没有后缀名4)除第一小段外,其余每个对应小段URL 的内容相似,则称其 URL结构相同,即这两个URL是相似的。

DOM树匹配

首先判断两棵树的根节点是否相同,如果不同就返回0;否则顺序比较两棵树的叶子节点,记录并删除相同节点(名字和属性都相同),并返回相同节点的数目。删除相同节点是为了在递归计算中,防止该节点再次进行计算。用相似度计算公式来计算两颗简单DOM树之间的相似度:

其中表示树TaTb的相似度;表SimpleTreeMatch(Ta,Tb)示树TaTb 的相同节点的个数; |Ta||Tb|分别表示TaTb的节点数。

网页类型判断框架

网页统计模型

主题型网页一般拥有大量的文字,链接型网页拥有大量的链接,图片型网页的图片较多或者较大,文字较少。可见这三类网页在文本数量、链接数量、图片信息量(数量和大小的结合)上是有差异的。

图片的信息量通过下式计算:

其中,widthheight分别为<img> 标签中的width属性值与height 属性值,γ是被预先定义的一个常数(本文取γ=1000),用来达成图片尺寸与字节大小的联合。即200×200大小的图片相当于40 字节。

文本信息量通过下式计算:

其中,文本字节数定义为B(text),字体大小定义为fs(text),文本大小未被明确指定时,其默认大小为12

净化后的链接文本长度和净化后的body节点信息量的比值:

类型判定:当P>=a时,判定为链接型网页;当P<aI1>I2时,判定为图片型网页;当P<aI1<I2时,判定为主题型网页。

实验分析

1)数据集. 实验用的HUB 型网页的基准网页是从国内大型导航类网站 2345、123114 啦、搜26536036900569991等网站上下载的 6145 个各不相同的网页,且均以“/”结尾的URL 作为链接型基准网页。主题型网页和图片型网页的基准网页是从新浪网、网易163、腾讯网三大门户网站上下载的网页。共收集了42306 个各不相同的网页。

2)衡量方法. P值分布。P [0,1] 范围内,本文将此范围平均分成100 等分进行统计。横坐标为 0~100 的整数,代表 0%~100%,纵坐标为对应网页数量的百分比。如下图所示:

   

 

参考文献

[1] 薛丽敏,薛虹军.一种新型的网页去噪及网页类型判断方法_薛丽敏[J].信息网络安全, 2013, 卷缺失(6):30-34.




https://m.sciencenet.cn/blog-719488-814478.html

上一篇:文献阅读笔记(23)-基于网页框架和规则的去噪方法
下一篇:文献阅读笔记(25)-结合网页结构与文本特征的正文提取

1 Vetaren11

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 16:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部