学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮,吾将上下左右东西南北中所到之处无不披靡而求索。

博文

按标题搜索
文献阅读笔记(15)-基于STU-DOM的网页主题信息自动提取方法
2014-7-11 22:27
基于 STU-DOM 的网页主题信息自动提取方法 STU(SemanticTextual Unit) 语义文本单元, DOM(Document ObjectModel) 文档对象模型。首先将网页划分为几个块 (block ) ,然后以这些块为结点构建 STU 树, STU 树反映了源网页的上下文语义关系。如下图所示,图 1 中对网页进行了块的划分,图 2 基于块的嵌 ...
个人分类: 科研笔记|3286 次阅读|没有评论
文献阅读笔记(14)-布局信息/锚文本/块分析
2014-7-7 11:15
布局信息 / 锚文本 / 块分析 荆涛 , 左万利 . 基于可视布局信息的网页噪音去除算法 _ 荆涛 . 华南理工大学学报 ( 自然科学版 ),2004(0):90-93+104. 摘 要 主要探讨了网页中的噪音去除问题 . 针对单一页面中包含的丰富的可视信息 , 提出了一 ...
个人分类: 科研笔记|2455 次阅读|没有评论
文献阅读笔记(13)-消去网页模板以提升信息检索性能
2014-7-3 18:47
消去网页模板以提升信息检索性能 Yu S,Cai D,Wen J R,etal.Improving pseudo-relevance feedback in Web information retrieval using Web page segmentation Proc of the 12th World Wide Web Conf.New York:ACM,2003. Pseudo-Relevance Feedback 从初始查询结果中选取 k 个页 ...
个人分类: 科研笔记|2423 次阅读|没有评论
文献阅读笔记(12)-LRU分页算法对网页去噪的启示
2014-7-2 23:08
最近最少使用( LRU )分页算法对网页去噪的启示 LRU(Least Recently Used), 最近最少使用方法 . 由于基于 DOM 树的方法通常复杂度比较高 , 并且时间代价也很大 , 所以本文提出了 LRU 的方法以期来改善网页去噪 . 本文并没有详细介绍 LRU 在网页去噪的算法实现及具体实施过程 , 只是在理论上给出了 ...
个人分类: 科研笔记|2316 次阅读|没有评论
文献阅读笔记(11)-基于VIPS的网页分块算法
2014-7-1 21:06
基于 VIPS 的网页分块算法 VIPS(VIsion-basedPage Segmentation) 基于视觉的页面分块算法 , 由微软研究院的 Cai Deng 等人于 2003 提出来的 . 它利用 Web 页面的视觉提示如背景颜色 , 字体颜色和大小 , 边框 , 逻辑块和逻辑块之间的间距等 , 结合 DOM 树进行页面语义分块 , 并把它应用 TRE ...
个人分类: 科研笔记|4423 次阅读|没有评论
文献阅读笔记(10)-利用信息熵进行网页去噪的方法
2014-6-30 15:29
利用信息熵进行网页去噪的方法 Yi L,Liu B.Web Page Cleaningfor Web Mining through Feature Weighting Proc of the 18th Int Joint Conf onArtificial Intelligence(IJCAI-03).SanFrancisco:MorganKaufmann,2003:43-50 本文的方法 先将 DOM 树转化为 CST 树 (Compressed Structure T ...
个人分类: 科研笔记|2853 次阅读|没有评论
文献阅读笔记(9)-基于风格树的网页去噪方法
2014-6-29 12:05
基于风格树的网页去噪方法 风格树 (StyleTree) StyleTree 由 DOM 演化而来 , 包含两类节点 , 风格节点 (style nodes) 和元素节点 (element nodes). 风格节点 (S) 描述布局 (layout) 或呈现 (presentation) 风格 , 用 (Es,n) 表示 , 其中 Es 是元素节点序列 ,n 是含有相同样 ...
个人分类: 科研笔记|3157 次阅读|没有评论
文献阅读笔记(8)-基于DIV位置的网页正文抽取方法和装置
2014-6-28 22:58
基于 DIV 位置的网页正文抽取方法和装置 本方法出自一篇专利文献,流程如下: 具体解释如下: S502 过滤页面中的无关代码 . 主要是过滤 HTML 中的 Javascript 代码和冗余标签 . S506 重新构建 DIV 块 . 本步骤是为了达到如下图所示的效果 . 首先获取 ...
个人分类: 科研笔记|2693 次阅读|没有评论
文献阅读笔记(7)-几种基于DOM的网页去噪方法
2014-6-27 21:28
几种基于 DOM 的网页去噪方法 李剑 . 基于 DOM 和神经网络的网页净化应用 . 电子科技 ,2012(1):109-111. 去噪步骤 l 运用 HTML Parser 将 HTML 文档解析成 DOM 树 . 把 DOM 树节点分成两类:组织节点(如 TABLE,TR,DIV,UL 标签)、 ...
个人分类: 科研笔记|3539 次阅读|没有评论
文献阅读笔记(6)-网页分割算法汇总图
2014-6-26 22:53
网页分割算法汇总 今天翻译了一篇英文文献中的“网页分割”算法论述的部分,相关的网页分割算法真是太多了。最后整理出这样下面一张图片,其中数字代表文献号,黄色部分是算法的标签。 参考文献 Yeliz Yesilada. Web page segmentation: A review. Technical report, Unive ...
个人分类: 科研笔记|1998 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-17 06:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部