学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮,吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记(16)-网页的块重要性学习模型

已有 2230 次阅读 2014-7-13 11:34 |个人分类:科研笔记|系统分类:科研笔记|关键词:学者| 块重要性, 学习模型

网页的块重要性学习模型

摘要:已有的研究提出了很多网页分块的方法,但是并没有提出对页面中块的重要性(Block Importance )进行统一测量的方法和模型。由于页面中不同块的重要性是不同的,因此本文提出了一种对块重要性自动赋值的模型。首先运用VIPS算法对页面进行分块,然后利用空间特征和内容特征构造块的特征向量,接下来应用SVM和神经网络的学习算法来训练块重要性模型,最后对模型进行样本测试。

块重要性的用户调查

实验方法:从405个网站中采集news,science,shopping(雅虎分类)三个类别共600个网页并对其划分得到4539个块。请5个人分别手工对每个块按照以下的四个等级进行标注。

Level 1:噪声信息(如广告、版权、修饰)

Level 2:有用的信息但是与页面主题不相关(如导航、目录等)

Level 3:与页面主题相关的信息,但是没有显著的重要性(如相关主题、主题索引)

Level 4:页面中最重要的部分(如标题、主要内容)

标注结果如下图所示

结果解释:0.929表明5个人中有3个人同意将页面划分为4个等级,这样的页面占全部页面的0.929.  0.995表明将Level2Level3合并,有3/5同意对0.995的页面进行这种合并。

调查说明:用户对页面的块重要性有一致的观点,建立块重要性的模型是有意义的。

块的特征

空间特征:VIPS分块后每个块的空间位置由以下4个特征描述,考虑到实际情况又对空间位置特做了一些修正,具体公式见文献原文。

内容特征:内容特征由以下9个特征来描述,具体说明见文献原文。

块重要性学习模型

由于在用户调查中已经对块进行标注,因此可将每个块用(X,Y)表示,其中X是块的特征,Y是块的重要性。因此问题转化为通过训练集寻找一个函数:

本文分别运用神经网络(转化为回归问题)和SVM(转化为分类问题)进行训练和建模,此处略去具体过程。

实验分析

1) 数据集. 用户调查所用的数据集.

2) 衡量指标.  Precision,Recall, Micro-F1,Micro-Accuracy. 对每一个LevelPrecision,Recall来衡量,对整体表现用Micro-F1,Micro-Accuracy来衡量.

 

参考文献

[1] R. Liu H. Wen J. R. & MaW. Y. Learning Block Importance Models for Web Pages[J].In Proceedings of the13th International Conference on World Wide Web,2004:203-211.




https://m.sciencenet.cn/blog-719488-811283.html

上一篇:文献阅读笔记(15)-基于STU-DOM的网页主题信息自动提取方法
下一篇:文献阅读笔记(17)-几个Extractor算法

1 Vetaren11

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 16:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部