学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮,吾将上下左右东西南北中所到之处无不披靡而求索。

博文

按标题搜索
文献阅读笔记(25)-结合网页结构与文本特征的正文提取
2014-7-29 22:41
结合网页结构与文本特征的正文提取方法 摘要 通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。 网页处理 1. &nbs ...
个人分类: 科研笔记|2316 次阅读|没有评论
文献阅读笔记(24)-基于URL-DOM的网页去噪方法
2014-7-25 08:56
基于 URL-DOM 的网页去噪方法 URL 相似性定义 在一个 URL 中,每两个 “/” 间的内容称为一小段 URL 。如果满足以下条件: 1 )第一小段的 URL 相同; 2 ) “/” 的数量相同; 3 ) URL 的后缀名相同或没有后缀名 ; 4 )除第一小段外,其余每个对应小段 URL 的内容相似,则称 ...
个人分类: 科研笔记|2843 次阅读|没有评论
文献阅读笔记(23)-基于网页框架和规则的去噪方法
2014-7-24 08:50
基于网页框架和规则的去噪方法 摘要: 提出基于网页框架和规则的去噪方法。根据 TABLE 标签将网页分成若干部分,对各个 TABLE 的长宽比属性进行比较,去掉长宽比很大的部分,并对其余的 TABLE 中的内容进行分析,根据内部是否存在和段落文字有关的标签 p 或 br 等来区分主题内容和噪音内容。 噪声分 ...
个人分类: 科研笔记|2291 次阅读|没有评论
文献阅读笔记(22)-基于主题相关性判定的信息提取方法
2014-7-23 10:29
基于主题相关性判定的信息提取方法 摘要: 采用 DOM 规范将 HTML 表示成树结构,本文提出 结点主题相关性的判定方法 ,依此方法判定出要抽取的主题内容,并删除无关内容。 主题相关性判定 判定流程如下: 局部相关性判定 局部相关性 = 结点所有子树中的非链接文字数(中 ...
个人分类: 科研笔记|2546 次阅读|没有评论
文献阅读笔记(21)-条件随机场用于信息抽取
2014-7-21 22:05
条件随机场用于信息抽取 随机场 (RF) 在 概率论 中, 由 样本空间 Ω = {0, 1, ..., G − 1} n 取样构成的 随机变量 X i 所组成的 S = { X 1 , ..., X n }。若对所有的ω∈Ω满足 均成立,则称π为一个随机场。( 定义没太懂 ) 马尔可夫 ...
个人分类: 科研笔记|3189 次阅读|没有评论
文献阅读笔记(20)-基于同层网页相似性的去噪方法
2014-7-20 14:50
基于同层网页相似性的去噪方法 同层网页是指在网站的导航结构中同属于一个栏目下的网页。由于现在的网页设计多采用自动生成程序(如 PHP )或模板,从而使得大部分同层网页具有类型的显示效果。本文基于同层网页相似性的假设来设计去噪方法。 同层相似性验证 首先对同层网页相似性的假设进行验证,分别考察 ...
个人分类: 科研笔记|2795 次阅读|没有评论
文献阅读笔记(19)-基于Crunch的网页内容提取的应用
2014-7-18 22:36
基于 Crunch 的网页内容提取的应用 Crunch 是哥伦比亚大学 Suhit Gupta 牵头开发出来的一个页面代理 (web proxy) ,与浏览器配合使用,对 HTML 页面进行内容过滤。其有独立的图形用户界面,用于手动设置各种过滤器( filter )。 Crunch 界面如下图所示: 其架构图如下: 通过设置不同的过 ...
个人分类: 科研笔记|2419 次阅读|没有评论
文献阅读笔记(18)-网页信息抽取实验系统设计
2014-7-17 21:36
网页信息抽取实验系统设计 本文主要概述硕士论文 的实验系统设计。本系统实现对中文网页的主题信息抽取,系统主要分为以下几个功能模块: DOM 树构建模块、划分内容块模块、特征提取模块、相似度计算模块、聚类模块和主题信息识别模块。 模块结构如图所示: 1. DOM 树构建模块   ...
个人分类: 科研笔记|3000 次阅读|没有评论
文献阅读笔记(17)-几个Extractor算法
热度 1 2014-7-16 10:21
几个 Extractor 算法 本文的主要贡献在于提出了四个算法 ContentExtractor,FeatureExtracotr,K-FeatureExtracotr,L-Extractor, 这些算法用于切分 HTML 页面获取相应的页面块。 GetBlockSet(获取页面的块) 输入:页面 H ,有序标签集 T 输出:页面 H 的块集 Cont ...
个人分类: 科研笔记|2257 次阅读|3 个评论 热度 1
文献阅读笔记(16)-网页的块重要性学习模型
2014-7-13 11:34
网页的块重要性学习模型 摘要: 已有的研究提出了很多网页分块的方法,但是并没有提出对页面中块的重要性 (Block Importance ) 进行统一测量的方法和模型。由于页面中不同块的重要性是不同的,因此本文提出了一种对块重要性自动赋值的模型。首先运用 VIPS 算法对页面进行分块,然后利用空间特征和内容特征构造 ...
个人分类: 科研笔记|1975 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-12-9 16:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部