科学网 › 标签 › 爬虫

标签: 爬虫

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

[转载]网页如何快速被爬虫抓取？: steven10250 2018-9-18 14:22; 说到SEO，大家都不陌生，SEO中文意译为搜索引擎优化，是指通过对网站优化，提高网站的关键词排名，从而提高公司产品的曝光度。在这个互联网时代，许多人在购买新产品之前都会到网上查询一下信息，看看哪些品牌的口碑、评价会更好，这个时候排名靠前的产品会有绝对性的优势。据调查显示，有87%的网民会利用搜索引擎服务查找需要的信息，而这之中有近70%的搜索者会直接在搜索结果的自然排名的第一页查找自己所需要的信息。由此可见，目前来讲SEO对于企业和产品，有着难以替代的重要意义。关键词是重中之重我们常听人说起关键词，但是关键词具体的用处是什么呢?关键词是SEO的核心，是网站在搜索引擎排名的重要因素。确定几个关键词，对网站流量的提升大有裨益，但必须要跟网站、产品的相关度高。同时可以分析竞争对手的关键词，做到知己知彼。当然一定要有核心关键词，假如你是做网站服务的，那么你的核心关键词可以为：网站SEO、网站优化 ;如果是其他产品，则可以根据自己的产品或服务范围来定位，如：减肥、补水保湿、汽车护理等等…… 那么长尾关键词又是什么?顾名思义，其实就是比较长的关键词。长尾关键词的搜索量相对较少，可以在企业文章、软文中适当出现。需要注意的一点是，关键词出现的密度不可过多，但也不能过少，一般在 3% 到 6% 较为合适，同样的，一篇文章最好不要出现太多的关键词，最好控制在3~5个左右。外链也能影响权重导入链接对于网站优化来说也是非常重要的一个过程，能够间接影响网站在搜索引擎中的权重。目前我们常用的链接分为：锚文本链接、超链接、纯文本链接和图片链接。我们经常看到许多网站的地步都会有友情链接，不过随着百度算法调整，友情链接的效果已经很小了。目前来说，通过软文、图片的方式传播链接的方法最为科学，尤其是通过高质量的软文让别人转载传播网站的外部链接，是目前最佳的方式。如何被爬虫抓取? 爬虫就是自动提取网页的程序，如百度的蜘蛛等，要想让自己的网站更多页面被收录，首先就要让网页被爬虫抓取。如果你的网站页面经常更新，爬虫就会更加频繁的访问页面，优质的内容更是爬虫喜欢抓取的目标，尤其是原创内容。如果你做了许多努力仍没有被爬虫抓取，可以看一下工程师给出的两点建议： 1、不建议站点使用js生成主体内容，如过js渲染出错，很可能导致页面内容读取错误，页面则无法被爬虫抓取。 2、许多站点会针对爬虫做优化，建议页面长度在128k之内，不要过长。 SEO是用户们最有兴趣搜索的，也是最具潜在商业价值的服务手段，这是一个长期的工作，不能急于求成，在这个互联网竞争的大环境中，你比竞争对手多做一点点，有可能就会得到质的飞跃! 本文转自深圳SEO: www.51erc.cn; 个人分类: 百度SEO|159 次阅读|0 个评论

爬虫小试-0217影响因子表: zd200572 2017-10-9 15:54; 题目来源于生信技能树论坛，参考了几个帖子。 http://www.biotrainee.com/thread-1695-1-1.html http://www.biotrainee.com/thread-1316-1-1.html 比如这个最简单的，表格爬取： http://www.letpub.com.cn/index.p … r=¤tpage=1000 http://www.letpub.com.cn/index.p … tter=¤tpage=3 http://www.letpub.com.cn/index.p … tter=¤tpage=2 http://www.letpub.com.cn/index.p … tter=¤tpage=1 规律很简单，就是url从1增加到1000即可，很简单的循环！每一个页面只有一个表格，所以很容易提取，用python,perl,R都可以截止2017年，一共收录期刊：9991份试试看吧 http://www.zd200572.com/2017/10/09/craw_learnning/ 里边最重要的就是正则表达式了，另外就是把想要的内容分离出来，这是个很简单的爬虫，我的代码也很初级，仍需继续努力学习！遇到的问题有：1、网络连接被切断，估计是没有进行伪装成浏览器的原因；2、才开始正则表达式影响因子中有两位数的，没有考虑；3、有的被除名的标签不一样，导致有影响因子（0.000）没有杂志名。我的代码如下：; 2827 次阅读|0 个评论

[原][Matlab][01] 做一个简单的爬虫或下载器: nwang1986 2015-10-4 12:04; 使用matlab的urlread,regexpi,urlwrite函数可以用来做简单的爬虫或下载器。读了一些资料，然后进行实验(用的是MATLAB R2014a)可行，将基本内容整理。 urlread 函数读取网页的源代码，用法是： =urlread('http://www.baidu.com','Timeout',15); 其中pagecode是访问成功后获得的html源码；status表示页面是否读取成功，1为成功，0为失败。'http://www.baidu.com'是要读取页面的链接，为字符串类型，其中'http://'的前缀是必须的。'timeout'和15两个参数表示如果页面没有响应的时间达到15秒，则放弃读取这个链接。虽然不用'timeout'参数也能使用该函数，但如果程序卡在这个页面读取上，后面的程序就无法继续执行，所以最好使用'timeout'参数。当获取了网页的html源码后，需要摘出自己需要的资源。有时需要的是文本内容，有时要图片地址，有时要网页链接，这时可以用正则表达式匹配html代码。需要提前了解HTML源码和正则表达式的语法。 HTML的语法可以参考： http://www.w3school.com.cn/ 正则表达式的入手可以参考： http://deerchao.net/tutorials/regex/regex.htm 接下来使用 regexpi 函数进行内容匹配。 regexpi 函数对字母大小写不敏感，如果需要大小写严格匹配可使用 regexp 函数，以一个小例子显示用法是： sourcestr='abcdefg src=something'; takestr='(.*?)'; result=regexpi(sourcestr,takestr,'tokens'); %注释1：字符串sourcestr为待匹配的母字符串。 %注释2：字符串takestr为用于匹配所需内容的子字符串，代表双引号之内的不包括换行的所有字符。 %注释3：表示从字符串sourcestr中取出满足字符串takestr格式的所有匹配结果放到result中。运行得到的result为cell类型的数据，内容为'something'。如果想匹配并剔除字符串中的特定字符，可以用 regexprep 函数，用法是： str=regexprep(str,' ',''); %将str中出现的所有'!'或'/'字符去掉。将sourcestr换成urlread得到的html源码字符串,takestr换成感兴趣的网页内容对应的匹配正则表达式，就可以将网页源码内容摘选出来存到cell中进而写到本地文件。由于各个网站的网页源码格式不同，使用简单的正则表达式去匹配，比如'href=(.*?)'是把链接内容摘选出来，可以匹配出很多结果，可能包含css文件或js文件的地址，甚至只是相对网页地址。所以要么使用复杂的正则表示式严格匹配内容要么采用复杂的内容判断程序来甄别数据以剔除冗余的数据。如果只是对某一个网站感兴趣，最好专门分析这个网站的网页源码格式，然后写对应的正则表达式去匹配，可以在最短的时间内完成所需要的内容的采集。当获取到网站的某个资源地址，想要下载下来，可以使用 urlwrite 函数。用法是： =urlwrite('http://www.XXXX.com/a.jpg','myfile/1.jpg','timeout',15); 其中savestr是存储字符串，status表示是否存储成功，'http://www.XXXX.com/a.jpg'为目标文件的地址，'myfile/1.jpg'是本地地址，表示将XXXX网站的'a.jpg'图片存到了当前'myfile'文件夹下并命名为'1.jpg'。'timeout'和15表示若下载文件15秒没有响应则放弃。至此，通过使用 urlread 函数读取网页， regexpi 函数甄选内容， urlwrite 函数存储内容，结合程序循环和判断已经可以做成一个小型的批量下载器，也可以进行广度或深度的网页抓取。具体代码略。由于批量下载会给目标网站造成较大的服务器压力，搞不好还会被封IP，还得适当使用。这样得到的matlab小爬虫的弱点在于重复性检查，通常的 python 爬虫可以使用hash函数进行哈希表映射，从而避免重复下载甚至死循环。在 matlab 中需要自己写个 hash 函数，或者只能通过自己对字符串进行长度或内容匹配进行检查重复性，速度较慢。有些网页是需要登录权限才能读取和下载，这时可以在 urlread 和 urlwrite 中加入'post'或'Get'参数操作。有些网页具有防盗链功能，直接使用 urlwrite 难以保存。通常实现防盗链的方法是检查网页请求中的'referer'参数。'referer'携带的信息可以告诉服务器用户是从哪里索要信息，如果不是本网站内容读取或浏览器直接读取，服务器可以拒绝回复。'referer'参数在网页html源码中看不到，目前只有在服务器端、专门的程序语言中或特殊的浏览器插件才能查看。如果要使用matlab更改'referer'参数比较复杂，过。有些网页具有IP区域的限制，或者批量下载会有被封IP的问题,可以手动或自动在 matlab 设置代理服务器。手动可以到“主页”-“预设”-“网页”选项改代理服务器。也可以在程序用加入以下内容设置。其中“000.000.000.000”为服务器IP，“XX”为端口。 com.mathworks.mlwidgets.html.HTMLPrefs.setUseProxy(true); com.mathworks.mlwidgets.html.HTMLPrefs.setProxyHost('000.000.000.000'); com.mathworks.mlwidgets.html.HTMLPrefs.setProxyPort('XX');; 个人分类: [原创]|15233 次阅读|1 个评论

[转载]一种高性能的分布式网络爬虫: huapei1989 2015-4-24 08:44; 1 爬虫应用程序的种类在应对不同场景的应用时，需要有不同的爬虫策略。目前主要有以下几种： 1.1 广度优先爬虫：如果是为了构建一个搜索引擎，那么一个高性能的爬虫首先应该从一个较小集合的页面开始，由于页面中还会有其它页面的链接，其就以广度优先的策略来抓取其它链接所指向的页面。当然，在实际使用中，往往并不是严格的遵循广度优先的策略，可能会重点先抓取预先定义好的比较重要的页面。 1.2 对页面重爬以进行更新：由于一个固定的页面在一段时间后可能会发生改变。因此，可以简单的在一段时间后再进行一次全面的广度优先爬行。当然，这肯定会涉及到如何避免重复的抓取某个页面。后文会说明当前比较普遍的一个解决此问题的方法。 1.3 垂直搜索爬虫：所谓垂直搜索，即某些搜索引擎可能只是想关注某一领域的内容。因此，爬虫也只是抓取和主题相关的页面。 1.4 专注“Hidden Web”的爬虫：网络中很多的内容并不是直接就可以访问的，可能有些内容需要我们对网页中的表单进行相关填写后才能获取到，因此专注“Hidden Web”的爬虫就是设法抓取这样的隐藏页面。 2 爬虫的基本体系结构我们希望设计一个爬虫，其能够较为方便的适应多种不同的爬行策略。因此，将爬虫的体系结构分成了两个主要部分：应用端和系统端。如下图所示：应用端主要功能是决定在当前状态下，我们紧接着要请求哪一个页面，即向系统端发起一波URL请求。系统端的功能就是下载所请求的页面，并将这些页面返回给应用端以进行分析和存储。由此就发现，我们主要可以在应用端配置不同的爬行策略，和系统端在不同的策略下几乎做着相同的事情。应用端主要负责完成以下几件事：对网页的解析、维护一个数据结构——其保存着我们已经发现了哪些网页、与系统端和存储部分的通信。乍一看，似乎实现这样一个系统没什么大不了的，但是若想做到每秒下载很大数量级的网页，还是需要注意很多地方的，后文会对该体系结构进行细化。 3 谈谈如何避免重复抓取想想也能知道，基本思想就是在每次抓取前和当前以抓取的网页进行一次比较，判断该网页（集）是否已抓取过。具体的实现方法有很多种，这里给出一种采用Hash函数的方式。我们通过Hash函数存储网络爬虫的遍历轨迹，并规定某一Web页被遍历过，则在哈希表中的相应部分填1，否则填充0。哈希函数可以采用MD5。也就是说用相应位为1的URL的MD5集合判断URL是否已抓取过，如果没有被抓取过，则放入未爬行的URL数据中，否则放入已爬行的URL库中。 4 体系结构的细化之前的内容可以看做是一个基本思想的介绍，接下来将对分布式爬虫的设计进行更加详细的说明。如我们之前所示，我们已经将爬虫的体系结构分成了两部分：应用端和系统端。这里我们先对系统端进行详细的说明。系统端本身就包含很多专门的部件：爬虫管理器、一个或多个下载器以及一个或多个DNS解析器。所有的这些部件再加上应用端都可以在不同的机器上运行。爬虫管理器的职责就是从应用端那里接受URL输入流，并其转发给可用的下载器。当然与此同时，还要遵循robots协议。robots协议就是指网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。下载器就是一个高性能的HTTP客户端，其能并行地下载上百个网页。一个更为详细的爬虫配置如下图所示： 4.1 爬虫管理器：爬虫管理器是我们系统的核心部件，也是首先被启动的部件。之后，其它部件才开始运行，并“登记”到管理器上，以提供或请求服务。管理器接受来自爬虫应用程序的URL请求，每一个请求都有一个优先级、一个包含几百或几千URL的文件指针。管理器将会对这些请求进行排队，最终会载入相应的文件以准备进行下载。当载入含有URL的请求文件后，除非该地址已经被缓存了，否则管理器就开始到DNS解析器中查询相应服务器的IP地址。管理器之后就请求在Web服务器根目录的robots.txt文件，来看一下哪些URL地址是可以抓取的。最后，当解析完robots文件并移除了不能抓取的URL后，没有被移除的URL就可以”绑“在一起发送给下载器。 4.2 下载器和DNS解析器：下载器是用Python实现的，其通过与不同的服务器简历1000个连接来从Web上获取文件，并将获取到的文件存储到一个目录下。由于一个下载器通常每秒能够下载几百甚至几千个页面，因此大量的页面不得不在一次磁盘操作中全部写入。为了避免重复的页面被下载，应用端可以对这些已经完成的请求进行跟踪，这样下载器就可以据此来调节自己的下载速度。对于DNS解析器，我们需要注意，DNS解析的过程将产生一定的网络流量，这一定程度上会限制爬行的速度。 5 分布式扩展我们的设计目标是为了能够很方便的扩展所设计的爬虫结构，以提高其性能。为此，在上一个图的基础上，我们可以在添加额外的下载器和DNS解析器以提高我们的性能。我们估计为一个管理器配备8个下载器将会使得整体的速度足够快，这也因此需要2或3个DNS解析器。除了这一点，我们还可以创建第二个爬虫管理器。这样，应用端将需要在两个管理器之间分离它的请求。具体配置见下图：在以上配置中，我们用到了4个应用端。我们可以使用一个哈希函数将所有可能的URL分成4个子集，这样每个应用端负责处理一个子集。管理器将会确保为不同应用端下载的页面存放在每个应用端所确定的单独的目录。如果在解析机建，一个部件遇到了一个超链接属于另外一个子集，则那个URL就被转发到处理相应子集的应用端中。在这样的分布式结构中，唯一涉及到大量数据通信的就是已经下载的页面间的传输。因此，理论上，如果我们允许下载的页面存储在不同的位置，则我们的系统能够在范围非常广的分布式环境中使用。 ————————————————————————————————– 以上内容为 Design and Implementation of a High-Performance Distributed Web Crawler 所讲述的爬虫系统的原理介绍，原文在文章的后半部分还对所涉及到的数据结构以及一些算法技巧进行了讲解，有兴趣可以进行深究。虽然以上内容不足以让我们实现一个爬虫，但可以对爬虫系统的设计进行一些思考，各大搜索引擎的架构都是相对封闭的，只要我们能设计出一个符合我们需求的爬虫系统便是成功。转载自：http://182.92.216.91/?p=121; 个人分类: 闲言碎语|2417 次阅读|0 个评论

[转载]网络爬虫的url地址分析: huapei1989 2015-4-24 08:42; 所谓爬虫，首先要通过各种手段爬取到想要站点的数据。 web2.0之后，各种网络站点类型越来越多，早期的站点多为静态页面【html 、htm】，后来逐步加入 jsp。asp，等交互性强的页面。再后来随着js的兴起，也处于站点的美观和易于维护，越来越多的ajax异步请求方式数据站点。参与工作时间不是很长，但工作期间一直做不同的爬虫项目。对常见的页面数据获取，有一些简单的认识。接触到的页面分为三类。 A 静态页面（数据在源码中直接可以获取到） B数据在基源码中没有，携带请求数据请求，在浏览器解析过程中，封装出含数据的源码 C数据在浏览器解析后的源码中没有，是通过页面的js函数，调用请求的js数据，显示的。分别举个例子以示说明： A ，这一类最简单，例如百度首页，现在想获取它的页面显示的链接信息查看源码不难发现页面中的链接信息在源码中都有体现，直接写正则 a\s *?href\s*= \s* ?( *) * *?(.*?) .+? 在RegexBuddy 3 工具中通过去group 1 group 取得想要的数据，再通过队列循环排除依次取出百度链到的所有站点。 B 像企业类型信息查询网站 http://qyxy.baic.gov.cn/zhcx/zhcxAction!list.dhtml?op=cx 想要获取通过程序输入企业名称而查询出有关注册信息不难发现当人工输入企业名称【2】是 url【1】中的地址栏并没有变化，但是【3】的响应结果却会随着我们查询的词不同而响应出不通的结果。这就是上述的基页面不变，但是源码在请求后解析加载显示的不一样。对于这种情况我们需要借助工具分析在我们在点击查询的操作时进行了那些与服务器的交互，通过httpwatcher 通过分析不难发现，在点击查询的动作时，http请求通过post方式发送了一个请求数据到给服务器端 zhcxModel.ent_name 百度。这样通过程序建立http链接时，我们把请求数据推送给服务器然后再接收数据源码，这是源码中就含有查询出来的信息了，再通过A的方式，把想要的信息通过正则取出来。 C 例如土豆的用户信息页面 http://www.tudou.com/home/tui/u57045481t2.html 【随便拿了一个页面，若牵涉个人隐私，请联系我，我会立马更改】想抓取土豆的粉丝数，关注数，及粉丝的详细信息这个页面查看源码看不到保护焊有粉丝数 1327【1】等及粉丝的名称、链接等【2】信息通过httpwatcher 重新请求页面，记录与服务器交互的数据，不难发现粉丝数信息在请求时发送的这个链接 http://www.tudou.com/my/tui/userInfo.html?uid=57045481callback=jQuery16408569448299658144_1366125895716_=1366125895774 中体现，再看蓝色圈中的数据即为该用户的id信息，在初始URL中也含有。这样就不难总结出用户的关注人信息数据通过拼接 http://www.tudou.com/my/tui/userInfo.html?uid= + 用户ID + callback=jQuery 即可获得。再看【2】粉丝人信息与上述方法差不多，探寻到发送的js请求，获取json数据。像翻页类型的数据，1327个服务器端没有一次请求把所有数据加载过来， http://www.tudou.com/my/tui/subme.html?pageSize=12uid=57045481currentPage=1china=0key=callback=jQuery 观察粉丝人数的js请求地址，有两个参数pageSize currentPage 。pageSize 用来显示每一页显示多少个，currentPage用来显示当前页，页面中有总页数111,同时在刚探寻的js中也有总页数的信息，这样就很容易的通过变换currentPage 的值来依次通过A的方式去到用户的头像，姓名，等信息了。不早了，明儿还得干活儿，今天就先到这儿了，这个目前接触到的一些类型数据分析，当然还有更复杂些的，接触面有限，等后续发现和学习我会陆续补充上的。欢迎指正和交流学习转载： http://www.cnblogs.com/cphmvp/p/3302363.html http://182.92.216.91/?p=137; 个人分类: 闲言碎语|2864 次阅读|0 个评论

Crawler4J介绍【开源软件】【爬虫，数据采集器，spider】: hymcn 2012-11-4 21:03; 【项目名称】Crawler4J 【软件类别】爬虫，数据采集器，spider 【项目地址】 http://code.google.com/p/crawler4j/ 【推荐指数】四星半【项目介绍】一款Java语言开发的Crawler（spider），该项目基于Apache Software Fundation的两个开源项目Tika和HttpClient。Tika是一个内容分析工具包，用于文档中元数据和结构化数据的检测和抽取；HttpClient完成了对HTTP请求的封装，用于实现资源的下载。该项目代码结构清晰，注释规范，项目源码提供了几个常见应用的示例程序，上手相对容易。其他相关文档资源较少，项目在不断完善中。【项目特点】可配置性强。爬虫线程个数，爬取深度，是否遵循Robot协议，代理服务器设置等均可设置。多线程。使用方便。继承WebCrawler类，实现相应方法即可。【不足】这里说不足，有些苛刻，项目已经相当不错，这里的"不足"是一个理想主义者，从用户使用角度考虑的一些扩展想法。可视化操作界面。为了让更多的人受益于此项目，一个可视化、操作简单的界面无疑会让该项目锦上添花。完善项目对POST Method的支持，使项目更加健壮。【参考文献】 1.Tika的家 http://tika.apache.org/ 2.Httpclient的家 http://hc.apache.org/ 3.Crawler4j源码Git上的家 git clone https://code.google.com/p/crawler4j/ 感谢项目开发者：@author Yasser Ganjisaffar lastname at gmail dot com; 个人分类: 开源项目|2970 次阅读|0 个评论

抓到一只蜘蛛：Tsinghua AI Lab Robot: outcrop 2011-1-3 01:26; 晚上回来琢磨网站的日志，发现一只特别的蜘蛛： Tsinghua AI Lab Robot 。北京电信的IP地址，看来是清华大学人工智能实验室的蜘蛛，估计是搞自然语言处理的。见到的第一只国内科研蜘蛛，值得记录下：）; 个人分类: 科技八卦|3542 次阅读|0 个评论

中国搜索战火（22）抵制百度爬虫是上策: sz1961sy 2008-9-10 02:35; 2008年8月10日俺写了《百度奥运期间如此疯狂人工乱删链接》（ http://w.org.cn/user1/4/archives/2008/1729.html ）拙文，表达作为一个百度用户及互联网用户对百度再一次滥用搜索结果行为的抗议。这几天，传来2条令业内为之一震消息： * 淘宝网正式宣布屏蔽百度蜘蛛了，官方的解释是防止点击欺诈，保护消费者利益 * 搜狐博客也屏蔽了百度的蜘蛛。其实，以本人观察Google及百度公司贪婪地抢夺、吞噬其他一些互联网公司（特别是商业门户）的地盘、遇到其他一些互联网公司采取抵制搜索爬虫策略，是迟早的事：试想： 1、搜索引擎公司的服务器信息是读书人偷书不算盗的无本生意; 2、搜索引擎公司的服务器信息再使用是版权免责（法律、判案老偏袒引擎公司）; 3、搜索引擎公司可以将不就凡的用户网络搜索链接屏蔽掉、迫用户继续付款使用搜索引擎服务(一副主宰网络世界的黑心眼！); 4、搜索引擎公司可以将商业门户的信息序列重组，从搜索结果清单中先分利益（先下手为强）; 5、搜索引擎公司还可以干他们想干的事（包括疯狂人工乱删链接）... ... 而这一切，都是搜索爬虫在做怪，它最终威胁到的是不做搜索引擎的商业门户未来。因此，今天淘宝网屏蔽百度蜘蛛（爬虫）与搜狐博客也屏蔽了百度的蜘蛛（爬虫），是因为百度迫出来的，因为百度蜘蛛（爬虫）这条寄生虫己经想把它的宿主也吃掉了，宿主们终于明白必须自己也做搜索引擎服务。因此，抵制百度爬虫是商业门户的上上策，它将派生出更多的搜索引擎服务企业，让用户不仅仅百度一下、Google一下，还能Yahoo一下、搜狗一下、soso一下。这是一种进步：一种恢复全球互联网信息共享中必须具备：开放、公平、公正几大基本规则的本来面目的进步。期望更多地商业门户能加入抵制百度爬虫行列中，给中国用户带来更加有用的搜索引擎服务！沈阳（网名：sz1961sy） 2008年9月10日（教师节） 1时48分写于北京家中 QQ：13022830 MSN： sz1961sy@hotmail.com AOL IM： sz1961sy@aolchina.com 　家庭博客： http://w.org.cn http://域名资讯网.中国（ www.DNSNews.cn ） http://数据经济网.中国（ www.iitv.cn ）; 个人分类: 中国搜索战火|922 次阅读|0 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 爬虫

相关帖子

相关日志

关闭安全验证