学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮,吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记(17)-几个Extractor算法

已有 2570 次阅读 2014-7-16 10:21 |个人分类:科研笔记|系统分类:科研笔记|关键词:学者| Extractor, 网页内容块

几个Extractor算法

本文的主要贡献在于提出了四个算法ContentExtractor,FeatureExtracotr,K-FeatureExtracotr,L-Extractor,这些算法用于切分HTML页面获取相应的页面块。

GetBlockSet(获取页面的块)

输入:页面H,有序标签集T

输出:页面H的块集

ContentExtractor

输入:页面集S,有序标签集T  

输出:页面集S的主要内容块

Sim(比较两个块的相似性)

FeatureExtractor

输入:页面集H,有序标签集T,期望特征F1

输出:H的内容块

K-FeatureExtractor(基于FeatureExtractor的改进算法)

参考文献

[1] Anon.Automatic Identificationof Informativesections of Web Pages[J].Ieee Transactions on Knowledge and Data Engineering,2005,17(9):1233-1246.

 



https://m.sciencenet.cn/blog-719488-812082.html

上一篇:文献阅读笔记(16)-网页的块重要性学习模型
下一篇:文献阅读笔记(18)-网页信息抽取实验系统设计

1 Vetaren11

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 13:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部