博文

文献阅读笔记（4）-使用网页分割识别网页的信息内容块

已有 2093 次阅读 2014-6-20 23:08 |个人分类:科研笔记|系统分类:科研笔记|关键词:学者| DOM, 网页分块

Identifying Informative Web Content Blocks using Web Page Segmentation

使用网页分割识别网页的信息内容块

解决问题

网页由信息内容块和非信息内容块组成。信息内容块是指网页的主题内容，非信息内容块是指网页中的广告、导航、隐私声明等等。前者是搜索引擎检索的主要目标，后者则是噪声。从网页中抽取信息的过程需要去除非信息块，本文使用网页分割来识别网页的信息内容块。

解决思路

1. 对网页的HTML文档进行预处理，去掉一些无意义的标签，如<a>,<b>,<script>等

2. 基于处理后的HTML文档构建DOM树

3. 基于DOM树，取one-depth的子节点生成序列，该序列及保留了原DOM树的层次特征，又减少了计算量

4. 从序列中找出关键模式，即序列（长度为n）中重复出现至少两次的子序列（长度为m ），并满足1<m<=n/2

5. 利用找出的关键模式，通过引入虚拟节点对原序列进行块的划分

6. 计算块中的标签数目，得出块的重要性

7. 将重要性低于预定的阈值的块认定为噪声块，并且把它去掉

8. 用Precision,Recall,F Score对这种方法进行评估

结论

用从康奈尔大学获得的数据集进行实验，最终平均查准率为0.732456，平均召回率为0.80175439，平均F值为0.73807596.

参考文献

[1] Stevina Dias,Jayant Gadge.Identifying Informative Web Content Blocks using Web Page Segmentation, International Journal of Applied Information System,p.37-41,2014.

转载本文请联系原作者获取授权，同时请注明本文来自谢方立科学网博客。
链接地址：https://m.sciencenet.cn/blog-719488-805179.html

上一篇：文献阅读笔记（3）-网页去噪效果评价方法
下一篇：文献阅读笔记（5）-网页分块相关研究综述

收藏分享

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

谢方立

扫一扫，分享此博文

学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮，吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记（4）-使用网页分割识别网页的信息内容块

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

谢方立

全部作者的其他最新博文

全部精选博文导读

相关博文

学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮，吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记（4）-使用网页分割识别网页的信息内容块

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

谢方立

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)