学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮,吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记(14)-布局信息/锚文本/块分析

已有 2432 次阅读 2014-7-7 11:15 |个人分类:科研笔记|系统分类:科研笔记|关键词:学者| 网页去噪, 布局信息, 块分析, 锚文本

布局信息/锚文本/块分析

[1] 荆涛,左万利.基于可视布局信息的网页噪音去除算法_荆涛[J].华南理工大学学报(自然科学版),2004(0):90-93+104.

 

主要探讨了网页中的噪音去除问题.针对单一页面中包含的丰富的可视信息,提出了一个更加精确的噪音去除算法:首先获得页面中各元紊标记的布局信息,然后利用布局信息对页面进行划分,最后在此基础上去除噪音.与采用布局信息的算法相比,本文提出的算法时页面布局信息的提取更加准确,并能处理动态HTML页面.实脸结果表明,该算法优于同类算法,可有效地去除网页噪音.

算法源文献

Kovacevic, Milos, et al. "Recognition ofCommon Areas in a Web Page Using Visual Information: a possible application ina page classification." Data Mining, 2002. ICDM 2003. Proceedings.2002 IEEE International Conference on. IEEE, 2002.

算法改进点

1)采用精确的页面显示算法,将源文献中显示算法未能处理的包含框架、图层及CSS的页面进行了显示,使得页面划分时所用的布局与用户浏览时所见的一致.

2) 以实际的页面大小来决定各区域闷值的选取,而非源文献中采用固定大小页面及固定阈值的方法,使页面划分与实际一致.

3) 划分过程中可根据页面中任一标记元素的布局信息来决定此元素属于哪一块,而非源文献中强依赖于TABLE标记作为分块的依据.

4) 在划分结束后,Cenetr区域中的页面内容作为主题返回,而将处于其余四个区域中的内容视为嗓音.虽然此仅为一启发式规则,但在实验中发现此规则对大多数页面是合理的.

实验设计

由于目前对于网页噪音去除仍未有标准数据集,故本实验采用与源文献中类似的方法实现.首先在已由爬行器下载的页面集中选取5000页面集,然后手工对这些页面进行区域标记,记录结果.然后应用算法对这些页面进行自动处理,并记录结果.对两结果进行比较对照以验证页面划分的正确性.

 

[2] 欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法_欧健文[J].清华大学学报(自然科学版),2005(0):17-21.

摘 要

为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法.该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取.对国内2588个新闻网页进行了检测.实验结果表明,该方法可以快速、有效地提取模板生成的网页集主题信息,准确率达99.5%.将该方法应用于搜索引擎系统(木棉检索),与原来的检索系统相比较,索引文件的大小减少约50%,检索的速度和精确度也得到提高.

URL

算法假设

本文算法基于以下3个假设:1)URL树中,模板节点下的网页存在大量由同一模板生成的网页.2)由模板生成的网页结构布局是基本一致的,如上图所示,只是黑点为根节点的子树所表示的网页主题部分不同.3)网页链接中的锚点文本是对目标网页主题内容的概括.下图是模板的生成过程.

实验分析

1)数据集.实验数据来源于木棉搜索引擎对新浪网在2005-05-152005-05-18期间所抓取的230894个网页.

2)衡量指标.实验结果分为3种情况:1)正确提取,表示达到网页主题信息提取效果;2)错误提取,表示提取效果不好,仍存在较多网页噪音;3)无法提取,表示提取算法对该网页没有作用.

论文点评

该方法的主要特点为: 1)直接对主题信息进行提取,而不需要通过去除网页噪音的方式来提取主题信息;2)对同模板产生的大量网页,通过机器学习生成模板后,便可直接提取网页主题信息,而不需要对每一个网页都进行分析处理.

 

[3] 刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法_刘晨曦[J].广西师范大学学报(自然科学版),2007(2): 155-158.

算法思想

(1) 对于〈IMG,SCRIPT,STYLE〉等节点,过滤器简单地将这些节点从网页中移除,即删除这些节点.

(2) 对DOM树中的每一个分块节点,计算其相应的链接个数和非链接文字长度,并计算分块节点的大小.根据块的大小和位置调整阈值,根据节点的链接个数/非链接文字长度的比值来判断,当比值大于阈值的时候,即认为该节点是链接列表并移除该节点.

实验分析

1) 数据集. 原始网页分类器基于北京大学天网实验室提供的CWT100G中的180M数据集,该数据集共有12个顶层类,共包括15571篇网页,在对训练集中的网页进行切词后,使用SVM进行训练和分类.在分类时,我们将数据集随机划分出3/4用于构建分类器模型,剩余的1/4作为开放测试集,连续测试10次求平均值作为最终测试数据.

2) 衡量指标. 查准率、查全率和F1.




https://m.sciencenet.cn/blog-719488-809670.html

上一篇:文献阅读笔记(13)-消去网页模板以提升信息检索性能
下一篇:文献阅读笔记(15)-基于STU-DOM的网页主题信息自动提取方法

1 Vetaren11

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 22:51

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部