学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮,吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记(22)-基于主题相关性判定的信息提取方法

已有 2537 次阅读 2014-7-23 10:29 |个人分类:科研笔记|系统分类:科研笔记|关键词:学者| 主题相关性

基于主题相关性判定的信息提取方法

摘要:采用DOM规范将HTML表示成树结构,本文提出结点主题相关性的判定方法,依此方法判定出要抽取的主题内容,并删除无关内容。

主题相关性判定

判定流程如下:

局部相关性判定  

局部相关性=结点所有子树中的非链接文字数(中文字符数)之和/结点所有子树中的链接数之和。当local(blocki)>L(其中L是局部相关度的阈值),称该块局部相关。公式如下:

上下文相关性判定 

为了减少判定的复杂性,设定两个值minwmaxwminw值规定分块结点的非链接中文字符总数的最小值,maxw是规定分块结点的非链接中文字符总数的标准值。若words(blocks)<minw,则该块是主题不相关的;若words(blocks)>maxwwords(blocks)则该块是主题相关的。

上下文相关性判定即判定该块的兄弟结点blocki-1blocki+1的主题相关性。如果 blocki-1 blocki+1不存在时,则按blocki的局部相关度来处理,即blocki局部相关则为主题相关,反之则不是。如果 blocki是子树中的第一个结点,则只须判定blocki+1是否为主题相关。若相关,则blocki是主题相关的,反之则不是。如果 blocki是子树中的最后一个结点,则只须判定blocki-1是否为主题相关。若相关,则blocki是主题相关的,反之则不是。其它情况则判定blocki-1blocki+1是否为主题相关的,若二者都是,则blocki就是主题相关的。若二者即使有一个不是主题相关的,则blocki也是与主题无关的。


参考文献

[1] 许文,都云程,李渝勤,等.一种通用HTML网页主题信息提取方法[J].现代图书情报技术, 2007, 卷缺失(1):40-43.

 




https://m.sciencenet.cn/blog-719488-813917.html

上一篇:文献阅读笔记(21)-条件随机场用于信息抽取
下一篇:文献阅读笔记(23)-基于网页框架和规则的去噪方法

1 Vetaren11

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-12-1 05:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部