科学网

 找回密码
  注册

tag 标签: 块重要性

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

文献阅读笔记(16)-网页的块重要性学习模型
FangliXie 2014-7-13 11:34
网页的块重要性学习模型 摘要: 已有的研究提出了很多网页分块的方法,但是并没有提出对页面中块的重要性 (Block Importance ) 进行统一测量的方法和模型。由于页面中不同块的重要性是不同的,因此本文提出了一种对块重要性自动赋值的模型。首先运用 VIPS 算法对页面进行分块,然后利用空间特征和内容特征构造块的特征向量,接下来应用 SVM 和神经网络的学习算法来训练块重要性模型,最后对模型进行样本测试。 块重要性的用户调查 实验方法:从 405 个网站中采集 news,science,shopping (雅虎分类)三个类别共 600 个网页并对其划分得到 4539 个块。请 5 个人分别手工对每个块按照以下的四个等级进行标注。 Level 1: 噪声信息(如广告、版权、修饰) Level 2: 有用的信息但是与页面主题不相关(如导航、目录等) Level 3: 与页面主题相关的信息,但是没有显著的重要性(如相关主题、主题索引) Level 4: 页面中最重要的部分(如标题、主要内容) 标注结果如下图所示 结果解释: 0.929 表明 5 个人中有 3 个人同意将页面划分为 4 个等级,这样的页面占全部页面的 0.929. 0.995 表明将 Level2 和 Level3 合并,有 3/5 同意对 0.995 的页面进行这种合并。 调查说明:用户对页面的块重要性有一致的观点,建立块重要性的模型是有意义的。 块的特征 空间特征: VIPS 分块后每个块的空间位置由以下 4 个特征描述,考虑到实际情 况又对空间位置特 征 做了一些修正,具体公式见文献原文。 内容特征:内容特征由以下 9 个特征来描述,具体说明见文献原文。 块重要性学习模型 由于在用户调查中已经对块进行标注,因此可将每个块用 (X,Y) 表示,其中 X 是块的特征, Y 是块的重要性。因此问题转化为通过训练集寻找一个函数: 本文分别运用神经网络(转化为回归问题)和 SVM (转化为分类问题)进行训练和建模,此处略去具体过程。 实验分析 1) 数据集 . 用户调查所用的数据集 . 2) 衡量指标 . Precision,Recall, Micro-F1,Micro-Accuracy. 对每一个 Level 用 Precision,Recall 来衡量,对整体表现用 Micro-F1,Micro-Accuracy 来衡量 . 参考文献 R. Liu H. Wen J. R. MaW. Y. Learning Block Importance Models for Web Pages .In Proceedings of the13th International Conference on World Wide Web,2004:203-211.
个人分类: 科研笔记|2232 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 00:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部