zd200572的个人博客分享 http://blog.sciencenet.cn/u/zd200572

博文

爬虫小试-0217影响因子表

已有 2809 次阅读 2017-10-9 15:54 |系统分类:科研笔记|关键词:学者| 影响因子, 爬虫

题目来源于生信技能树论坛,参考了几个帖子。 http://www.biotrainee.com/thread-1695-1-1.html http://www.biotrainee.com/thread-1316-1-1.html

比如这个最简单的,表格爬取: http://www.letpub.com.cn/index.p … r=¤tpage=1000 http://www.letpub.com.cn/index.p … tter=¤tpage=3 http://www.letpub.com.cn/index.p … tter=¤tpage=2 http://www.letpub.com.cn/index.p … tter=¤tpage=1 规律很简单,就是url从1增加到1000即可,很简单的循环! 每一个页面只有一个表格,所以很容易提取,用python,perl,R都可以 截止2017年,一共收录期刊:9991份 试试看吧

http://www.zd200572.com/2017/10/09/craw_learnning/

里边最重要的就是正则表达式了,另外就是把想要的内容分离出来,这是个很简单的爬虫,我的代码也很初级,仍需继续努力学习!

遇到的问题有:1、网络连接被切断,估计是没有进行伪装成浏览器的原因;2、才开始正则表达式影响因子中有两位数的,没有考虑;3、有的被除名的标签不一样,导致有影响因子(0.000)没有杂志名。 我的代码如下:




https://m.sciencenet.cn/blog-623545-1079841.html

上一篇:史上最全,各个平台测序仪比较
下一篇:基因检测的作用

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-3 22:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部