科学网 › 标签 › URL相似性

标签: URL相似性

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

文献阅读笔记（24）-基于URL-DOM的网页去噪方法: FangliXie 2014-7-25 08:56; 基于 URL-DOM 的网页去噪方法 URL 相似性定义在一个 URL 中，每两个 “/” 间的内容称为一小段 URL 。如果满足以下条件： 1 ）第一小段的 URL 相同； 2 ） “/” 的数量相同； 3 ） URL 的后缀名相同或没有后缀名； 4 ）除第一小段外，其余每个对应小段 URL 的内容相似，则称其 URL 结构相同，即这两个 URL 是相似的。 DOM 树匹配首先判断两棵树的根节点是否相同，如果不同就返回 0 ；否则顺序比较两棵树的叶子节点，记录并删除相同节点（名字和属性都相同），并返回相同节点的数目。删除相同节点是为了在递归计算中，防止该节点再次进行计算。用相似度计算公式来计算两颗简单 DOM 树之间的相似度：其中表示树 Ta 与 Tb 的相似度；表 SimpleTreeMatch(Ta,Tb) 示树 Ta 与 Tb 的相同节点的个数； |Ta| 与 |Tb| 分别表示 Ta 与 Tb 的节点数。网页类型判断框架网页统计模型主题型网页一般拥有大量的文字，链接型网页拥有大量的链接，图片型网页的图片较多或者较大，文字较少。可见这三类网页在文本数量、链接数量、图片信息量（数量和大小的结合）上是有差异的。图片的信息量通过下式计算：其中， width 和 height 分别为 img 标签中的 width 属性值与 height 属性值， γ 是被预先定义的一个常数（本文取 γ=1000 ），用来达成图片尺寸与字节大小的联合。即 200×200 大小的图片相当于 40 字节。文本信息量通过下式计算：其中，文本字节数定义为 B(text) ，字体大小定义为 fs(text) ，文本大小未被明确指定时，其默认大小为 12 。净化后的链接文本长度和净化后的 body 节点信息量的比值：类型判定：当 P=a 时，判定为链接型网页；当 Pa 且 I1I2 时，判定为图片型网页；当 Pa 且 I1I2 时，判定为主题型网页。实验分析 1 ）数据集 . 实验用的 HUB 型网页的基准网页是从国内大型导航类网站 2345、好 123 、 114 啦、搜狗、 265 、 360 、 369 、 0056 、 9991 等网站上下载的 6145 个各不相同的网页，且均以 “/” 结尾的 URL 作为链接型基准网页。主题型网页和图片型网页的基准网页是从新浪网、网易 163 、腾讯网三大门户网站上下载的网页。共收集了 42306 个各不相同的网页。 2 ）衡量方法 . P 值分布。 P 在范围内，本文将此范围平均分成 100 等分进行统计。横坐标为 0~100 的整数，代表 0%~100% ，纵坐标为对应网页数量的百分比。如下图所示：参考文献薛丽敏 , 薛虹军 . 一种新型的网页去噪及网页类型判断方法 _ 薛丽敏 . 信息网络安全 , 2013, 卷缺失 (6):30-34.; 个人分类: 科研笔记|3242 次阅读|0 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: URL相似性

相关帖子

相关日志

关闭安全验证