科学网

 找回密码
  注册

tag 标签: 批量下载

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

教程-如何使用Wiley Online Library新功能批量下载文献
WileyChina 2020-8-3 13:12
将电子资源更加及时地传递到读者手中,让读者更方便、更高效地使用已订购资源一直Wiley不断提升的方向。 一直以来,Wiley Online Library(WOL)用户可以对单篇文章进行下载。然而,在一些地区,由于平台访问速度、IP网络限制等原因,使得下载耗时的同时难度也在增加。经过广泛的调研与听取用户的反馈建议, 2020年7月下旬,我们为中国大陆地区的客户开通了全新的批量下载功能 。此功能是Wiley针对中国科研工作者对文献的使用习惯而特别开发的,可以极大提升科研效率,节约文献查找与获取的时间,免去逐篇下载的烦恼。 未来,我们仍然会继续通过对平台和资源的不断优化与升级,给图书馆以及学校师生带来更多价值。 赶快去Wiley Online Library平台体验批量下载新功能吧! 文献批量下载功能的正确打开方式 批量下载检索结果: 批量下载期刊同一期中的多篇文章: 支持已接收文章(Accepted Articles)及早期预览文章(Early View)批量下载: 批量下载视频教程: https://v.qq.com/x/page/k31244j345t.html 扫码获取批量下载功能说明,详细问题解答等更多资源。 访问我们的资源站 https://www.wiley.com/network/wiley-online-library-chinese ,下载更多关于批量下载的介绍资料。如果您对此功能有任何疑问,欢迎发邮件至: china_marketing@wiley.com 。
个人分类: 学术服务|2683 次阅读|0 个评论
【Python】批量下载Sentinel-2卫星数据
JialeJiang 2019-12-31 14:38
简介: 本文介绍了一种基于Python批量下载Sentinel-2卫星数据的方法。通过该方法,用户可自定义感兴趣研究区(ROI)、限定时间范围、选择产品类别、进行云量筛选,实现自动化批量下载Sentinel-2卫星数据。 Requirements: Python and Jupyter Python packages: sentinelsat , collections Copernicus Open Access Hub Account Useful link: Python Extension Packages for Windows Installation: pipinstallsentinelsat Usage: Step 1. Set up fromsentinelsat.sentinelimportSentinelAPI,read_geojson,geojson_to_wkt fromcollectionsimportOrderedDict #ConnecttotheAPI(edityouruser_nameandpassword) api=SentinelAPI('USER_NAME','PASSWORD','https://scihub.copernicus.eu/dhus') #Searchbypolygon,time,producttypeandcloudcover roi='POLYGON((DEFINEROI))'#defineyourROIfromhttp://geojson.io/#map=2/20.0/0.0 start_date='YYYYMMDD' end_date='YYYYMMDD' product_type='S2MSI2A'#checkproducttype:https://scihub.copernicus.eu/dhus/#/home cloud_cover= #percentage Define ROI 点击进入 http://geojson.io/#map=2/20.0/0.0 ,自定义ROI,获取相应 坐标信息。 Step 2. Search and check results products=api.query(area=roi,date=(start_date,end_date), producttype=product_type,cloudcoverpercentage=cloud_cover) downfiles=OrderedDict() foriinproducts: product=products filename=product print(filename) Step 3. Data download #Downloadallresultsfromthesearch successfile=api.download_all(products) Example: Reference : https://github.com/sentinelsat/sentinelsat
个人分类: 经验分享|7360 次阅读|0 个评论
【Python】基于Python API批量下载Planet卫星数据
JialeJiang 2019-12-18 16:22
简介: 本文介绍了一种基于Python批量下载Planet卫星数据的方法。通过该方法,用户可自定义感兴趣研究区(ROI)、限定时间范围、选择产品类别、进行云量筛选,实现自动化批量下载Planet卫星数据。 Requirements: Python and Jupyter Python packages: json, wget, requests Other specific Python packages: planet and geojsonio download_Planet.py: download_Planet.zip Planet account Usefull link: Python Extension Packages for Windows Installation: pip install planet pip install geojsonio Usage: Step 1. Run download_Planet.py run download_Planet.py Step 2. Set up (edit your API key and research requirements) # get your API Key form https://www.planet.com/account/ PLANET_API_KEY = 'PASTE YOUR API KEY HERE ' # define ROI using http://geojson.io/#map=2/20.0/0.0 roi = { type: Polygon, coordinates: ] } # set date range start_date = 'YYYY-MM-DD' end_date = 'YYYY-MM-DD' # set the maximum cloud coverage from 0 to 1 cloud_cover = 0.2 # only download the image having 20% cloud coverage # select the types of item and asset, refering to https://developers.planet.com/docs/data/items-assets/ item_type = 'SELECTE ITEM TYPE' asset_type = 'SELECTE ASSET TYPE' # set the download path download_path = 'DIRECTORY:\\WHERE\\YOU\\STORE\\DATA' Step 3. Search and check results # Create search filter and return search results search_result = searching(KEY=PLANET_API_KEY, roi=roi, date= , cloud_cover=cloud_cover, item_type=item_type) print(search_result) Step 4. Activation and downloading # Activation and Downloading for i in search_result: downloading(KEY=PLANET_API_KEY, image_ids=i, item_type=item_type, asset_type=asset_type, path=download_path) Get your API key 登录 Planet account ,点击左侧“API key”即复制成功, 将复制好的API key粘贴替换PASTE YOUR API KEY HERE Define ROI 点击进入 http://geojson.io/#map=2/20.0/0.0 ,自定义ROI, 将所获得的坐标信息粘贴替换PASTE COORDINATE HERE Select Item Asset 选择所需下载的产品,可参考: https://developers.planet.com/docs/data/items-assets/ 点击Item Types可查看对应的Asset Types. Example: References : https://developers.planet.com/open/ https://github.com/planetlabs/notebooks/blob/master/jupyter-notebooks/data-api-tutorials/planet_cli_introduction.ipynb
个人分类: 经验分享|5665 次阅读|0 个评论
wget下载特定目录内所有文件
sankexing 2018-12-25 10:09
REM 下载某个目录下面的所有文件 wget -c -r -nd -np -k -L -p www.xxx.edu/pub/path/ 用法说明: -c 断点续传 -r 递归下载,下载指定网页某一目录下(包括子目录)的所有文件 -nd 递归下载时不创建一层一层的目录,把所有的文件下载到当前目录 -np 递归下载时不搜索上层目录 没有加参数-np,就会同时下载path的上一级目录pub下的其它文件 -k 将绝对链接转为相对链接,下载整个站点后脱机浏览网页,最好加上这个参数 -L 递归时不进入其它主机,如wget -c -r www.xxx.edu/ 如果网站内有一个这样的链接: www.yyy.edu,不加参数-L,会递归下载www.yyy.edu网站 -p 下载网页所需的所有文件,如图片等
个人分类: wget下载|1 次阅读|0 个评论
哨兵数据批量下载
haojm198 2018-7-15 11:10
1.欧空局和alska大学网站均可下载 2.浏览器:火狐(6.0以下版本)、插件DownThemAll!! 3.欧空局的点击Download Cart弹出下载对话框即可下载,由于限制条件可设置下载数量为2。
个人分类: InSAR|8181 次阅读|0 个评论
批量下载Zinc数据库中小分子
duwenyi 2018-1-31 15:19
以下所有内容均属于个人学习过程中的总结,如有错误,欢迎批评指正! 批量下载Zinc数据库中小分子的方法 First release:2017-01-31 Last update: 2018-01-31 Zinc数据库 不用多说,大多数化学研究的工作者都“如雷贯耳”,但是真正使用过的人却很少,本文为大家介绍下载Zinc数据库中的小分子的方法,为做药物筛选的初学者提供帮助。 1、打开Zinc数据库网站: http://zinc.docking.org/ 2、点击Download,进入下载页面,有不同形式的分类和相关信息,选择自己感兴趣的分类方式: 3、选择Windows下,用脚本下载数据,本文下载了Lead-Like的mol2格式文件: 4、用文本编辑器查看usual.mol2.bat的内容,是一些简单的语句,但是需要用到wget这个命令,但是Windows 系统中一般没有这个命令,因此,我们需要安装 wget 模块; 5、下载wget编译好的文件: http://www.interlog.com/~tcharron/wgetwin.html ,如果打不开,可以下载网盘上的 https://pan.baidu.com/s/1pLZb7E7 6、解压到某个路径即可,设置环境变量Path,如解压路径是D:\\program files\\wget\\wgetwin-1_5_3_1-binary,将此路径添加到Path即可,如果不懂怎么设置环境变量,可以参考 http://blog.sciencenet.cn/blog-3373966-1090704.html 的内容 7、最后就可以运行批量下载.bat脚本了,一般根据分子数量不同,所耗时间也不一样 最后就可以开始愉快的虚拟筛选过程了! 最后,如果你对分子模拟、量子化学感兴趣,或者对文章有什么问题,欢迎加入我们的交流群: qq群 580744615
个人分类: 软件学习|15633 次阅读|0 个评论
[原][Matlab][01] 做一个简单的爬虫或下载器
nwang1986 2015-10-4 12:04
使用matlab的urlread,regexpi,urlwrite函数可以用来做简单的爬虫或下载器。 读了一些资料,然后进行实验(用的是MATLAB R2014a)可行,将基本内容整理。 urlread 函数读取网页的源代码,用法是: =urlread('http://www.baidu.com','Timeout',15); 其中pagecode是访问成功后获得的html源码;status表示页面是否读取成功,1为成功,0为失败。'http://www.baidu.com'是要读取页面的链接,为字符串类型,其中'http://'的前缀是必须的。'timeout'和15两个参数表示如果页面没有响应的时间达到15秒,则放弃读取这个链接。虽然不用'timeout'参数也能使用该函数,但如果程序卡在这个页面读取上,后面的程序就无法继续执行,所以最好使用'timeout'参数。 当获取了网页的html源码后,需要摘出自己需要的资源。有时需要的是文本内容,有时要图片地址,有时要网页链接,这时可以用正则表达式匹配html代码。需要提前了解HTML源码和正则表达式的语法。 HTML的语法可以参考: http://www.w3school.com.cn/ 正则表达式的入手可以参考: http://deerchao.net/tutorials/regex/regex.htm 接下来使用 regexpi 函数进行内容匹配。 regexpi 函数对字母大小写不敏感,如果需要大小写严格匹配可使用 regexp 函数,以一个小例子显示用法是: sourcestr='abcdefg src=something'; takestr='(.*?)'; result=regexpi(sourcestr,takestr,'tokens'); %注释1:字符串sourcestr为待匹配的母字符串。 %注释2:字符串takestr为用于匹配所需内容的子字符串,代表双引号之内的不包括换行的所有字符。 %注释3:表示从字符串sourcestr中取出满足字符串takestr格式的所有匹配结果放到result中。 运行得到的result为cell类型的数据,内容为'something'。 如果想匹配并剔除字符串中的特定字符,可以用 regexprep 函数,用法是: str=regexprep(str,' ',''); %将str中出现的所有'!'或'/'字符去掉。 将sourcestr换成urlread得到的html源码字符串,takestr换成感兴趣的网页内容对应的匹配正则表达式,就可以将网页源码内容摘选出来存到cell中进而写到本地文件。由于各个网站的网页源码格式不同,使用简单的正则表达式去匹配,比如'href=(.*?)'是把链接内容摘选出来,可以匹配出很多结果,可能包含css文件或js文件的地址,甚至只是相对网页地址。所以要么使用复杂的正则表示式严格匹配内容要么采用复杂的内容判断程序来甄别数据以剔除冗余的数据。如果只是对某一个网站感兴趣,最好专门分析这个网站的网页源码格式,然后写对应的正则表达式去匹配,可以在最短的时间内完成所需要的内容的采集。 当获取到网站的某个资源地址,想要下载下来,可以使用 urlwrite 函数。用法是: =urlwrite('http://www.XXXX.com/a.jpg','myfile/1.jpg','timeout',15); 其中savestr是存储字符串,status表示是否存储成功,'http://www.XXXX.com/a.jpg'为目标文件的地址,'myfile/1.jpg'是本地地址,表示将XXXX网站的'a.jpg'图片存到了当前'myfile'文件夹下并命名为'1.jpg'。'timeout'和15表示若下载文件15秒没有响应则放弃。 至此,通过使用 urlread 函数读取网页, regexpi 函数甄选内容, urlwrite 函数存储内容,结合程序循环和判断已经可以做成一个小型的批量下载器,也可以进行广度或深度的网页抓取。具体代码略。由于批量下载会给目标网站造成较大的服务器压力,搞不好还会被封IP,还得适当使用。 这样得到的matlab小爬虫的弱点在于重复性检查,通常的 python 爬虫可以使用hash函数进行哈希表映射,从而避免重复下载甚至死循环。在 matlab 中需要自己写个 hash 函数,或者只能通过自己对字符串进行长度或内容匹配进行检查重复性,速度较慢。 有些网页是需要登录权限才能读取和下载,这时可以在 urlread 和 urlwrite 中加入'post'或'Get'参数操作。 有些网页具有防盗链功能,直接使用 urlwrite 难以保存。通常实现防盗链的方法是检查网页请求中的'referer'参数。'referer'携带的信息可以告诉服务器用户是从哪里索要信息,如果不是本网站内容读取或浏览器直接读取,服务器可以拒绝回复。'referer'参数在网页html源码中看不到,目前只有在服务器端、专门的程序语言中或特殊的浏览器插件才能查看。如果要使用matlab更改'referer'参数比较复杂,过。 有些网页具有IP区域的限制,或者批量下载会有被封IP的问题,可以手动或自动在 matlab 设置代理服务器。手动可以到“主页”-“预设”-“网页”选项改代理服务器。也可以在程序用加入以下内容设置。其中“000.000.000.000”为服务器IP,“XX”为端口。 com.mathworks.mlwidgets.html.HTMLPrefs.setUseProxy(true); com.mathworks.mlwidgets.html.HTMLPrefs.setProxyHost('000.000.000.000'); com.mathworks.mlwidgets.html.HTMLPrefs.setProxyPort('XX');
个人分类: [原创]|15088 次阅读|1 个评论
如何用Batch Entrez从Genbank批量下载序列
热度 2 Bearjazz 2012-9-7 17:25
如何用 Batch Entrez 从 Genbank 批量下载序列 熊荣川 六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 学习常常是从模仿开始的。从事系统发育或是生物信息学研究工作的的常常需要通过阅读别人的文章来学习一些经典的分析方法。然后我们可能都有一个共同的体会,文献读几百遍比不上用原文的数据,按照其方法一步一步的进行模仿分析,将自己得到的结果和文章的结果进行比较之后才会豁然开朗。 好在,通常文章都会有个表格列示了分析所用到的序列在 Genbank 中的索取号。我们只要全部下载到本地计算机就可以进行模拟分析了。然而问题来了,一条一条的下载毕竟是个苦差事。有没有什么简便的方法能够一次性把该表格中的序列全部下载下载下来呢? 呵呵,当然,这就是 NCBI 提供的工具“ Batch Entrez ” Batch Entrez 网址: http://www.ncbi.nlm.nih.gov/sites/batchentrez 用这个工具,要求你有一个文件,里面是一个列表,可以是 Accession Number , Gi Number ,或是 NCBI 里其它数据库的各种标识符。 文件的格式看例子: Bear.txt 下面我们就来逐步图解这个过程。 为了图文并茂请下载pdf文件观看 如何用Batch Entrez从Genbank批量下载序列.pdf 首先当然是在你的文献中,找到这个列示有所有序列 Genbank 索取号的表格 如下图 第三列正是我所需要的信息,这样,我们将这一列单独复制到记事本中,保存为文件 bear.txt 打开, Batch Entrez 网址: http://www.ncbi.nlm.nih.gov/sites/batchentrez 在有“浏览”字样的地方上传 bear.txt, 点击 Retrieve 开始搜索。正常情况下,会出现下面的界面 点击“ Retrieve records for 28 UID(s) ”进入搜索结果界面 因为我们需要全部的序列,直接下载全部序列。 就这么简单,祝您科研愉快!
个人分类: 我的研究|22658 次阅读|6 个评论
[转载]整理:Ftp批量上传下载的Shell脚本
zhoufcumt 2011-10-21 15:29
from: http://blog.sina.com.cn/s/blog_491b86bf0100xjxd.html from:http://linux.chinaitlab.com/SHELL/811768.html 来点低技术含量的,分享两个脚 本,都是在公司里经常用的。   FTP批量上传,ftput.sh:   01 #!/bin/bash   02 for filename in $@   03 do   04 ftp -nv 192.168.130.2 !   05 user username password   06 prompt off   07 bin   08 mput $filename   09 close   10 !   11 done   FTP批量下载,ftpget.sh   01 #!/bin/bash   02 for filename in $@   03 do   04 ftp -nv 192.168.130.2 !   05 user username password   06 prompt off   07 bin   08 mget $filename   09 close   10 !   11 done   适用方法:将代码修改下(FTP地址和用户名密码修改一下)保存成ftput.sh,把要上传的文件作为脚本参数执行之即可。如   1 sh ./ftput.sh *.jpg 123.txt config.xml   就是把所有jpg文件和23.txt config.xml两个文件上传到ftp。 ----------------------------------------------------------------------------- 浩瀚的方法(简单原始的方法) ----------------------------------------------------------------------------- cddis下复制所有w开头数据文件的命令: wget -nH -m –ftp-user=user –ftp-password=passwd ftp://cddis.gsfc.nasa.gov/pub/vlbi/ivsproducts/trop/w * ============================以下为C-SHELL========================== #!/bin/csh -f #拷贝IVS ZTD数据到本地路径/download/data下并解压缩 set dir1 = /download/pub/vlbi/ivsproducts/trop set dir2 = /download/data set week = 1147 while ($week = 1649) cd $dir1/w$week echo "enter $dir1/w$week" cp *.zpd.gz $dir2 echo "cp *.zpd.gz to $dir2" @ week += 1 end #压缩格式为*.gz gzip -d *.gz #此外,w1147——w1649中间有不连续的文件名,应该写个if循环。否者for循环将中断。
个人分类: Shell|3540 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 07:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部