数字生活分享 http://blog.sciencenet.cn/u/qianggong

博文

解密dbGaP数据

已有 18392 次阅读 2014-10-21 07:25 |个人分类:七十二式长拳|系统分类:科研笔记|关键词:学者| 分析工具, 公共数据


参考链接:

官方FAQ:

http://www.ncbi.nlm.nih.gov/books/NBK63512/#Download.can_you_show_me_what_exactly__1

seq-answer相关帖子:

http://seqanswers.com/forums/showthread.php?t=29516


即使有这些帮助文档,我还是花了几个小时来搞定恼人的.ncbi_enc后缀。


SRAtools在这里下载:

http://www.ncbi.nlm.nih.gov/Traces/sra/?view=software

我下载的是CentOS Linux 64 bit architecture


解压缩后,进入 /path/to/sratoolkit.2.4.2-centos_linux64/bin

运行

./vdb-config -i

进入一个图形configure界面(GUI)

具体见 http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=std#s-6

如报错,如

./vdb-config: /usr/lib64/libstdc++.so.6: version `GLIBCXX_3.4.9' not found (required by ./vdb-config)

说明libstdc++.so.6版本过低,需要更新版本。如果没有权限升级,可以考虑下载windows或mac版本的sratools,在windows或mac下configure。


进入GUI以后,读取密钥文件(*.ngc,如没有,要重新回到dbGaP下载),保存退出。进入默认的work space (一般在/home/usrname下),运行

./vdb-decrypt --decrypt-sra-files [加密的sra文件根目录]

即可开始解压过程。

work space应该可以改,可是我尝试改了之后没有运行成功,使用默认值OK。解密后的SRA文件还是存于原目录,不会占用home的空间。


据说SRAtoolkit 2.4以前的版本不需要configure,我也尝试了,但没有configure不知道怎么读取密钥文件,最终还是选择了v2.4.2。


吐槽一下,想拿到dbGaP数据不容易,首先得写申请书,经过一两个月的审查批准后,用NCBI的Aspera工具下载数据以及密钥,在用SRAtoolkits解密并提取fastq或其他目标格式文件。



https://m.sciencenet.cn/blog-481547-837310.html

上一篇:外显子测序的Bias
下一篇:牛人牛文与Royal We

0

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-19 23:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部