科学网

 找回密码
  注册
[转载]网络爬虫基本原理
吴镇城 2015-3-31 19:36
网络爬虫根据需求的不同分为不同种类: 1. 一种是爬取网页链接,通过 url 链接得到这个 html 页面中指定的链接,把这些链接存储起来,再依次以这些链接为源,再次爬取链接指向 html 页面中的链接 …… 如此层层递归下去,常用的方法是广度优先或者深度优先,根据爬取层次需求不同而选择不同的方法达到最优效果 ...
个人分类: 科研工具|8954 次阅读|没有评论
ubuntu12.04系统中Eclipse使用Hadoop调试mapReduce程序全攻略
吴镇城 2014-9-24 20:24
软件准备: VMWare 10( 虚拟机 ) Ubuntu-12.0.4-desktop-i386.iso ( 32 位视自己电脑配置而定) Jdk( 配置 java 环境 ) Hadoop ( 2.4.0 版本) Eclipse 安装虚拟机 VMWare 10 此安装和普通的软件安装没什么大的差别。 在 VMWare 上安装 Ubuntu 系统 按照下面链接的 ...
个人分类: 科研工具|4264 次阅读|没有评论

本页有 2 篇博文因作者的隐私设置或未通过审核而隐藏

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-29 17:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部