科学网

 找回密码
  注册

tag 标签: 主题相关性

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

文献阅读笔记(22)-基于主题相关性判定的信息提取方法
FangliXie 2014-7-23 10:29
基于主题相关性判定的信息提取方法 摘要: 采用 DOM 规范将 HTML 表示成树结构,本文提出 结点主题相关性的判定方法 ,依此方法判定出要抽取的主题内容,并删除无关内容。 主题相关性判定 判定流程如下: 局部相关性判定 局部相关性 = 结点所有子树中的非链接文字数(中文字符数)之和 / 结点所有子树中的链接数之和。当 local(block i )L (其中 L 是局部相关度的阈值),称该块局部相关。公式如下: 上下文相关性判定 为了减少判定的复杂性,设定两个值 minw 和 maxw , minw 值规定分块结点的非链接中文字符总数的最小值, maxw 是规定分块结点的非链接中文字符总数的标准值。若 words(blocks)minw ,则该块是主题不相关的;若 words(blocks)maxw , words(blocks) 则该块是主题相关的。 上下文相关性判定即判定该块的兄弟结点 block i-1 和 block i+1 的主题相关性。 如果 blocki-1 和 blocki+1 不存在时 ,则按 blocki 的局部相关度来处理,即 blocki 局部相关则为主题相关,反之则不是。 如果 blocki 是子树中的第一个结点 ,则只须判定 blocki+1 是否为主题相关。若相关,则 blocki 是主题相关的,反之则不是。 如果 blocki 是子树中的最后一个结点 ,则只须判定 blocki-1 是否为主题相关。若相关,则 blocki 是主题相关的,反之则不是。 其它情况 则判定 blocki-1 和 blocki+1 是否为主题相关的,若二者都是,则 blocki 就是主题相关的。若二者即使有一个不是主题相关的,则 blocki 也是与主题无关的。 参考文献 许文, 都云程, 李渝勤, 等. 一种通用HTML网页主题信息提取方法 . 现代图书情报技术, 2007, 卷缺失(1):40-43.
个人分类: 科研笔记|3004 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 19:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部