科学网

 找回密码
  注册

tag 标签: URL相似性

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

文献阅读笔记(24)-基于URL-DOM的网页去噪方法
FangliXie 2014-7-25 08:56
基于 URL-DOM 的网页去噪方法 URL 相似性定义 在一个 URL 中,每两个 “/” 间的内容称为一小段 URL 。如果满足以下条件: 1 )第一小段的 URL 相同; 2 ) “/” 的数量相同; 3 ) URL 的后缀名相同或没有后缀名 ; 4 )除第一小段外,其余每个对应小段 URL 的内容相似,则称其 URL 结构相同,即这两个 URL 是相似的。 DOM 树匹配 首先判断两棵树的根节点是否相同,如果不同就返回 0 ;否则顺序比较两棵树的叶子节点,记录并删除相同节点(名字和属性都相同),并返回相同节点的数目。删除相同节点是为了在递归计算中,防止该节点再次进行计算。用相似度计算公式来计算两颗简单 DOM 树之间的相似度: 其中 表示树 Ta 与 Tb 的相似度;表 SimpleTreeMatch(Ta,Tb) 示树 Ta 与 Tb 的相同节点的个数; |Ta| 与 |Tb| 分别表示 Ta 与 Tb 的节点数。 网页类型判断框架 网页统计模型 主题型网页一般拥有大量的文字,链接型网页拥有大量的链接,图片型网页的图片较多或者较大,文字较少。可见这三类网页在文本数量、链接数量、图片信息量(数量和大小的结合)上是有差异的。 图片的信息量 通过下式计算: 其中, width 和 height 分别为 img 标签中的 width 属性值与 height 属性值, γ 是被预先定义的一个常数(本文取 γ=1000 ),用来达成图片尺寸与字节大小的联合。即 200×200 大小的图片相当于 40 字节。 文本信息量 通过下式计算: 其中,文本字节数定义为 B(text) ,字体大小定义为 fs(text) ,文本大小未被明确指定时,其默认大小为 12 。 净化后的链接文本长度和净化后的 body 节点信息量的比值: 类型判定:当 P=a 时,判定为链接型网页;当 Pa 且 I1I2 时,判定为图片型网页;当 Pa 且 I1I2 时,判定为主题型网页。 实验分析 1 )数据集 . 实验用的 HUB 型网页的基准网页 是从国内大型导航类网站 2345、 好 123 、 114 啦、搜 狗 、 265 、 360 、 369 、 0056 、 9991 等网站上下载的 6145 个各不相同的网页,且均以 “/” 结尾的 URL 作为链接型基准网页。 主题型网页和图片型网页的基准网页 是从新浪网 、网易 163 、腾讯网 三大门户网站上下载的网页。 共收集了 42306 个各不相同的网页。 2 )衡量方法 . P 值分布。 P 在 范围内,本文将此范围平均分成 100 等分进行统计。横坐标为 0~100 的整数,代表 0%~100% ,纵坐标为对应网页数量的百分比。如下图所示: 参考文献 薛丽敏 , 薛虹军 . 一种新型的网页去噪及网页类型判断方法 _ 薛丽敏 . 信息网络安全 , 2013, 卷缺失 (6):30-34.
个人分类: 科研笔记|3242 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 23:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部