科学网

 找回密码
  注册
科学网 标签 SST

tag 标签: SST

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

文献阅读笔记(9)-基于风格树的网页去噪方法
FangliXie 2014-6-29 12:05
基于风格树的网页去噪方法 风格树 (StyleTree) StyleTree 由 DOM 演化而来 , 包含两类节点 , 风格节点 (style nodes) 和元素节点 (element nodes). 风格节点 (S) 描述布局 (layout) 或呈现 (presentation) 风格 , 用 (Es,n) 表示 , 其中 Es 是元素节点序列 ,n 是含有相同样式的页面数量 . 元素节点 (E) 用 (TAG,Attr,Ss) 表示 , 其中 TAG 是标签名 ,Attr 是 TAG 的属性 ,Ss 是该元素节点下一层的风格节点集 . 为了便于区别通常把风格节点用一个标签序列来表示 , 而元素节点直接用标签名表示 . 如下图 ,P-IMG-P-A,P-BR-P 都是是风格节点 ,n=1. 前提假设 1) 元素节点的呈现风格越多样表明节点越重要 , 反之亦然 . 2) 元素节点的实际内容越多样表明节点越重要 , 反之亦然 . 去噪过程 上图是整个去噪过程的算法表示 , 解释如下 : 1. 爬取 k 个页面 . 2. 为 SST( 风格树 ) 虚拟一个根节点 . 3. 逐一调用每个页面 . 4. 对每一个页面生成一棵 DOM 树 , 也即单个页面的风格树 (PST). 5. 将 k 个 PST 组合成一棵完备的 SST. 6-7. 计算 SST 中每个元素节点的 复合重要度 (compositeimportance) . 复合重要度由形式重要度 (presentation importance) 和内容重要度 (content importance) 组成 . 复合重要度 (composite importance) 用信息熵来衡量 , 对于 SST 内部元素节点和叶子元素节点 , 计算公式依次如下 : 8-9. 通过元素节点的复合重要度与阈值进行比较 , 判断出是噪声节点 , 还是意义节点 . 去掉噪声节点 , 保留意义节点 , 得到一棵简化后的 SST, 即用于去噪的模板 . 10. 取出待去噪的页面 . 11. 生成该页面的 PST. 12. 将 PST 与 SST 进行模式匹配 , 进行去噪 . 13. 返回去噪后的页面 . 实验分析 1 )数据集 . 2 )衡量指标 . 将该去噪方法分别用于网页聚类 (k-means 聚类 ) 和网页分类 ( 朴素贝叶斯分类 ), 利用 F Score 指标对比处理前后的结果 . 论文评价 这是一篇经典文献 , 有很多借鉴和学习的地方 . 参考文献 Yi L,Liu B,Li X.Eliminating noisy information in Webpages for datamining Proc of the 9th ACM SIGKDDIntConf on Knowledge Discovery and Data Mining.NewYork:ACM,2003:296-305
个人分类: 科研笔记|3167 次阅读|0 个评论
第一篇SCI文章
qiuyuqq 2010-1-6 21:17
Validation of AVHRR and TMI-derived sea surface temperature in the northern South China Sea Chunhua Qiu a , Dongxiao Wang a , , , Hiroshi Kawamura b , Lei Guan c and Huiling Qin b a Key Laboratory of Tropical Marine Environmental Dynamics, South China Sea Institute of Oceanology, Chinese Academy of Sciences, Guangzhou 510301, PR China b Center for Atmospheric and Oceanic Studies (CAOS), Faculty of Science, Tohoku University, Aoba-ku, Sendai 980-8578, Japan c Ocean Remote Sensing Institute, Ocean University of China, Qingdao 266003, PR China Received 15 October 2008; revised 2 October 2009; accepted 19 October 2009. Available online 31 October 2009.
个人分类: 未分类|4119 次阅读|2 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 17:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部