科学网

 找回密码
  注册

tag 标签: STU-DOM

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

文献阅读笔记(15)-基于STU-DOM的网页主题信息自动提取方法
FangliXie 2014-7-11 22:27
基于 STU-DOM 的网页主题信息自动提取方法 STU(SemanticTextual Unit) 语义文本单元, DOM(Document ObjectModel) 文档对象模型。首先将网页划分为几个块 (block ) ,然后以这些块为结点构建 STU 树, STU 树反映了源网页的上下文语义关系。如下图所示,图 1 中对网页进行了块的划分,图 2 基于块的嵌套关系构建了 STU 树。 WEB 信息提取系统分为 5 个部分: HTML 解析器 à 过滤器 à 分块器 à 语义分析器 à 剪枝器 2 HTML 解析器 ( HTMLParse )将 HTML 文档解析成 DOM 树 2 过滤器 是从 DOM 树中删除无关节点 2 分块器 是向 STU 结点中添加语义属性,将 DOM 树转化为 STU-DOM 树 2 语义属性值由 语义分析器 计算 2 剪枝器 从 STU-DOM 树中删除无关链接列表和没有内容的块,最后输出只含主题信息的 HTML 文档 实验分析 1 )数据集 . 选取了新浪新闻 1252 个网页,搜狐娱乐 1168 个网页,网易财经 1121 个网页, e 国电子商务 1613 个网页,京卫大药房医药 1159 个网页进行分析。 2 )衡量指标 . 实验提取结果如下图所示 完整性: 主题内容完整的网页数占源网页数的百分比 无关链接比: 删除的无关链接数占源网页中所有链接数的百分比 压缩比: 结果网页的大小占源网页大小的百分比 平均无关链接比和平均压缩比是自动计算的结果,完整性是随机抽样 10% 进行人工分析的结果。 参考文献 王琦 , 唐世渭 , 杨冬青 , 王腾蛟 . 基于 DOM 的网页主题信息自动提取 . 计算机研究与发展 ,2004(10):1786-1792.
个人分类: 科研笔记|3290 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 20:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部