博文

文献阅读笔记（25）-结合网页结构与文本特征的正文提取

已有 2710 次阅读 2014-7-29 22:41 |个人分类:科研笔记|系统分类:科研笔记|关键词:学者| 正文提取, 网页结构, 文本特征

结合网页结构与文本特征的正文提取方法

摘要

通过正则表达式去除网页中的无关元素，完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块，依据各个块的文本特征将其区分为链接块与文本块，并利用噪音块连续出现的结果完成对正文部分的定位，得到网页正文信息。

网页处理

1. 将网页源代码下载后，先将其表示为字符串的形式；

2. 然后通过正则表达式将其中的与正文内容无关的代码（Script 脚本、NoScript 脚本、CSS 样式、注释、空白行）删除；

3. 经过预处理之后的代码以字符串webstr的形式表示；

4. 将字符串中的<div>、<table> 等容器标签用#text代替；

5. 通过#text将webstr分割成子串，将每个子串表示为块Block[i]。

正文提取步骤

1. 找出含有文本最多的文本块；

2. 从该文本块向前搜索找到第 1 个连续出现的链接块（即噪音区域）；

3. 从最大文本块向后搜索找到第 1 个连续出现的链接块；

4. 将向前与向后搜索得到的链接块之间的内容取出作为当前网页的正文内容。

实验分析

1）数据集. 本文从新浪、腾讯、搜狐、人民网等网站随机选择了3200个主题型网页作为实验数据。进行了2组实验：a.用了4种不同的方法来验证将文本密度与标点数目特征结合起来作文文本块特征的有效性以及加入“噪音”块连续出现特点后正文提取的效果；b.跟已有的3 种不同的方法进行比较，即跟基于阈值的方法(CETR-TM)，基于 K-means 聚类方法(CETR- KM)以及改进的聚类方法(CETR) 进行比较。

2）评价指标. 查全率(Recall)、查准率(Precision)及 F1 评价指标。

参考文献

[1] 熊忠阳,蔺显强,张玉芳,等.结合网页结构与文本特征的正文提取方法_熊忠阳[J].计算机工程, 2013, 卷缺失(12):200-203+210.

转载本文请联系原作者获取授权，同时请注明本文来自谢方立科学网博客。
链接地址：https://m.sciencenet.cn/blog-719488-815676.html

上一篇：文献阅读笔记（24）-基于URL-DOM的网页去噪方法

收藏分享

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

谢方立

扫一扫，分享此博文

学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮，吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记（25）-结合网页结构与文本特征的正文提取

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

谢方立

全部作者的其他最新博文

全部精选博文导读

相关博文

学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮，吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记（25）-结合网页结构与文本特征的正文提取

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

谢方立

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)