科学网

 找回密码
  注册

tag 标签: 实验系统设计

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

文献阅读笔记(18)-网页信息抽取实验系统设计
FangliXie 2014-7-17 21:36
网页信息抽取实验系统设计 本文主要概述硕士论文 的实验系统设计。本系统实现对中文网页的主题信息抽取,系统主要分为以下几个功能模块: DOM 树构建模块、划分内容块模块、特征提取模块、相似度计算模块、聚类模块和主题信息识别模块。 模块结构如图所示: 1. DOM 树构建模块 首先对网页进行标签规范化,使用 CyberNeko HTMLParser 。在将 HTML 语法进行规范化以后,网页被解析成一棵 DOM 树,以便于标签的遍历以及 VIPS 算法进行网页内容块的划分。 该模块的输入为一个原始网页,输出为一棵 DOM 树。 2. 划分内容块模块 该模块对输入的 DOM 树进行解析,利用 VIPS 算法,根据网页视觉特征对网页进行语义分块,在判断是否达到划分粒度要求时,需要一个阈值来控制,通过大量的研究和反复的实验验证,在 pDoC 为 6 时分块效果最佳,因此将 pDoC 设置为 6 。 3. 特征提取模块 对于每一个数据块,本文提取 12 个特征来表示,特征如下表所示: 本系统利用 正则表达式 来抽取出 HTML 源代码中的文本,因为特征提取的需要,我们最终的特征项为一个个独立的词,因此需要将各个数据块文本进行分词处理,本文采用了 中科院的分词软件( ICTCLAS ) 进行中文分词。每一个网页被表示为一个 n 维向量 (w1,w2,w3, … ,wn) , w 代表该特征词的权值。使用 TF-IDF 函数来计算特征词的权重,公式如下: 其中 tfi 表示该特征词在给定网页中出现的次数; ni 表示出现该特征词的网页数量; N 表示训练集中所含网页的总数。该模块的输入为网页数据块,输出为各个数据块的量化特征向量和文本特征向量。 4. 相似度计算模块 任意两个数据块,首先根据余弦公式计算它们的 量化特征 向量相似度,然后计算文 本特征 相似度。假设 Bx 和 By 是两个可视数据块, Vx 和 Vy 是它们的可量化特征向量,那么 Bx 和 By 之间的相似度 Simxy 计算方法如下: 其中, sim1xy , sim2xy 分别是数据块 Bx 和 By 之间的可量化特征相似度和文本特征相似度, w1 是可量化特征的权重, w2 是文本特征的权重。 5. 聚类模块 本模块包括两个步骤:第一个步骤是相似数据块聚类,第二步是合并相似聚类。下图是聚类模块流程图: 参考文献 董娟 . 基于页面结构分析的网页信息抽取方法研究 _ 董娟 . 中国石油大学 , 2010, 硕士论文
个人分类: 科研笔记|3698 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 01:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部