学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮,吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记(4)-使用网页分割识别网页的信息内容块

已有 2093 次阅读 2014-6-20 23:08 |个人分类:科研笔记|系统分类:科研笔记|关键词:学者| DOM, 网页分块

Identifying Informative Web Content Blocks using Web Page Segmentation

使用网页分割识别网页的信息内容块


解决问题

     网页由信息内容块和非信息内容块组成。信息内容块是指网页的主题内容,非信息内容块是指网页中的广告、导航、隐私声明等等。前者是搜索引擎检索的主要目标,后者则是噪声。从网页中抽取信息的过程需要去除非信息块,本文使用网页分割来识别网页的信息内容块。

 

解决思路

1.      对网页的HTML文档进行预处理,去掉一些无意义的标签,如<a>,<b>,<script>

2.      基于处理后的HTML文档构建DOM

3.      基于DOM树,取one-depth的子节点生成序列,该序列及保留了原DOM树的层次特征,又减少了计算量

4.      从序列中找出关键模式,即序列(长度为n)中重复出现至少两次的子序列(长度为m ),并满足1<m<=n/2

5.      利用找出的关键模式,通过引入虚拟节点对原序列进行的划分

6.      计算块中的标签数目,得出块的重要性

7.      将重要性低于预定的阈值的块认定为噪声块,并且把它去掉

8.      用Precision,Recall,F Score对这种方法进行评估

结论

用从康奈尔大学获得的数据集进行实验,最终平均查准率为0.732456,平均召回率为0.80175439,平均F值为0.73807596.

参考文献

[1] Stevina Dias,Jayant Gadge.Identifying Informative Web Content Blocks using Web Page Segmentation, International Journal of Applied Information System,p.37-41,2014.




https://m.sciencenet.cn/blog-719488-805179.html

上一篇:文献阅读笔记(3)-网页去噪效果评价方法
下一篇:文献阅读笔记(5)-网页分块相关研究综述

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 09:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部