科学网

 找回密码
  注册

tag 标签: 启发式规则

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

文献阅读笔记(23)-基于网页框架和规则的去噪方法
FangliXie 2014-7-24 08:50
基于网页框架和规则的去噪方法 摘要: 提出基于网页框架和规则的去噪方法。根据 TABLE 标签将网页分成若干部分,对各个 TABLE 的长宽比属性进行比较,去掉长宽比很大的部分,并对其余的 TABLE 中的内容进行分析,根据内部是否存在和段落文字有关的标签 p 或 br 等来区分主题内容和噪音内容。 噪声分类 (1) 导航类:为了维持网页间的链接关系,方便浏览者对网站进行浏览而设置的链接。 (2) 修饰类:为了美化页面而采用的背景、修饰图片等。如站点标志图片、广告条。 (3) 交互类:为了收集用户提交信息或提供站内搜索服务的表单等。如在线问卷调查表。 (4) 其他类:网页中声明的版权信息、创建时间、作者等描述性信息。 参考文献( 文献笔记 ) : 荆涛 , 左万利 . 基于可视布局信息的网页噪音去除算法 _ 荆涛 . 华南理工大学学报 ( 自然科学版 ), 2004, 卷缺失 (0): 90-93+104. 启发式规则 (1) 标签 table 和 /table 之间如果有标签 p 或 br ,可以看为是正文内容; (2) 若标签 table 的 width 或 height 属性为其占页面的百分比,则需要根据这个百分比的值来确定其是否为主题内容。若 width 或 height 属性的百分比数值较大,则认为有可能是主题内容; (3) 对于多层嵌套的标签 table ,认为只在其中某一层 table 中存在主题内容; (4) 对于没有标签 table 的网页,即不是由表格分割的网页,如果存在段落文字,则认为是主题内容。 算法思想 对于有标签 table 的网页 ,认为重要的信息都放在网页的中间区域,而且该区域长度和宽度都比较大。而网页边缘区域的重要性相对于中间区域都很弱,而且该区域比较狭长; 对于没有标签 table 的网页 ,只是根据其是否存在段落文字来判断是否为主题内容,并没有考虑更多。 实验分析 1) 数据集 . 选用 CWT200G(Chinese Web testcollection with 200 GB Web pages) 中的 125 个站点的 132 559 个网页进行测试。 2) 衡量指标 . 检查结果用 “ 优、良、中、差 ”4 个标准进行判断。其中 “ 优 ” 代表网页主题内容正确提取,且噪音基本去除; “ 良 ” 代表网页主题内容正确提取,噪音存在一部分; “ 中 ” 代表网页主题内容基本能正确提取,噪音存在较多; “ 差 ” 代表网页噪音基本没有消除或者主题内容没有正确提取。 参考文献 时达明 , 林鸿飞 , 杨志豪 . 基于网页框架和规则的网页噪音去除方法 . 计算机工程 ,2007, 卷缺失 (19):276-278.
个人分类: 科研笔记|2690 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 17:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部