博文

文献阅读笔记（17）-几个Extractor算法

已有 2616 次阅读 2014-7-16 10:21 |个人分类:科研笔记|系统分类:科研笔记|关键词:学者| Extractor, 网页内容块

几个Extractor算法

本文的主要贡献在于提出了四个算法ContentExtractor,FeatureExtracotr,K-FeatureExtracotr,L-Extractor,这些算法用于切分HTML页面获取相应的页面块。

GetBlockSet（获取页面的块）

输入：页面H，有序标签集T

输出：页面H的块集

ContentExtractor

输入：页面集S，有序标签集T

输出：页面集S的主要内容块

Sim（比较两个块的相似性）

FeatureExtractor

输入：页面集H，有序标签集T，期望特征F1

输出：H的内容块

K-FeatureExtractor（基于FeatureExtractor的改进算法）

参考文献

[1] Anon.Automatic Identificationof Informativesections of Web Pages[J].Ieee Transactions on Knowledge and Data Engineering,2005,17(9):1233-1246.

转载本文请联系原作者获取授权，同时请注明本文来自谢方立科学网博客。
链接地址：https://m.sciencenet.cn/blog-719488-812082.html

上一篇：文献阅读笔记（16）-网页的块重要性学习模型
下一篇：文献阅读笔记（18）-网页信息抽取实验系统设计

数据加载中...

返回顶部

扫一扫，分享此博文