博文

文献阅读笔记（19）-基于Crunch的网页内容提取的应用

已有 2765 次阅读 2014-7-18 22:36 |个人分类:科研笔记|系统分类:科研笔记|关键词:学者| Crunch

基于Crunch的网页内容提取的应用

Crunch是哥伦比亚大学Suhit Gupta牵头开发出来的一个页面代理(web proxy)，与浏览器配合使用，对HTML页面进行内容过滤。其有独立的图形用户界面，用于手动设置各种过滤器（filter）。Crunch界面如下图所示：

其架构图如下：

通过设置不同的过滤条件，Crunch实现不同的过滤效果，如下所示：

文献[1][2]介绍了Crunch的一些技术细节，其中[2]几乎涵盖了[1]的所有内容。由于Crunch在实施过程中需要人工配置filter，文献[3]对此缺陷作了改进。首先对访问排名前200的网站手工分类，并基于词频构建一个总的关键词集(Keywords Set)，接下来把每个网站跟关键词集匹配得到网站各自的内容类型标识符（identifier）。对于未知网站通过计算其与已知网站的曼哈顿距离来进行分类。（此处没搞懂）由于已知的类型其过滤条件都已设置好，所以当对网站分类好之后就可以调用相应的过滤条件对该网站的页面进行处理了。文献[4]介绍了该技术基于W3C针对残障人士提出的网络无障碍（Web Accessibility Initiative）的指导方针而设计的内容提取的启发式规则，但是最后并没有达到预期的效果。

学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮，吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记（19）-基于Crunch的网页内容提取的应用

当前推荐数：1 推荐人： Vetaren11

该博文允许注册用户评论请点击登录评论 (0 个评论)

谢方立

全部作者的其他最新博文

全部精选博文导读

相关博文

学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮，吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记（19）-基于Crunch的网页内容提取的应用

当前推荐数：1 推荐人： Vetaren11

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

谢方立

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)