科学网

 找回密码
  注册

tag 标签: 16S rRNA

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

16S rRNA常用引物
wbb121 2019-2-18 09:10
Primer name Sequence (5'-3') 8F AGA GTT TGA TCC TGG CTC AG U1492R GGT TAC CTT GTT ACG ACT T 928F TAA AAC TYA AAK GAA TTG ACG GG 336R ACT GCT GCS YCC CGT AGG AGT CT 1100F YAA CGA GCG CAA CCC 1100R GGG TTG CGC TCG TTG 337F GAC TCC TAC GGG AGG CWG CAG 907R CCG TCA ATT CCT TTR AGT TT 785F GGA TTA GAT ACC CTG GTA 805R GAC TAC CAG GGT ATC TAA TC 533F GTG CCA GCM GCC GCG GTA A 518R GTA TTA CCG CGG CTG CTG G 27F AGA GTT TGA TCM TGG CTC AG 1492R CGG TTA CCT TGT TAC GAC TT 7F CAG AGT TTG ATC CTG GCT 1540R AGG AGG TGA TCC AGC CGC A 516F TGC CAG CAG CCG CGG TA 1510R GGT TAC CTT GTT ACG ACT T
个人分类: 生物数据|8689 次阅读|0 个评论
使用QIIME分析微生物群落的16S rRNA序列(fastq格式序列)
wbb121 2018-5-31 10:01
参考 http://nbviewer.jupyter.org/github/biocore/qiime/blob/1.9.1/examples/ipynb/illumina_overview_tutorial.ipynb https://forum.qiime2.org/t/qiime2-chinese-manual/838 下载数据 创建文件夹emp-single-end-sequences: mkdiremp-single-end-sequences fastq格式的序列文件: wget-Oemp-single-end-sequences/sequences.fastq.gzhttps://data.qiime2.org/2018.4/tutorials/moving-pictures/emp-single-end-sequences/sequences.fastq.gz barcode sequences: wget-Oemp-single-end-sequences/barcodes.fastq.gzhttps://data.qiime2.org/2018.4/tutorials/moving-pictures/emp-single-end-sequences/barcodes.fastq.gz 生成映射文件并检查映射文件的正确性 映射文件的要求见 http://qiime.org/documentation/file_formats.html#qiime-parameters 此处给出两个例子,一个正确的, map.tsv ,一个错误的, map-bad.tsv 使用 validate_mapping_file.py 检查映射文件map.tsv的正确性,输出 日志文件,html文件和corrected_mapping.txt文件。 validate_mapping_file.py-o./vmf-map-m./map.tsv 此时给出信息:No errors or warnings were found in mapping file. 检测的结果在文件夹./vmf-map中。 使用 validate_mapping_file.py 检查映射文件map-bad.tsv的正确性 , validate_mapping_file.py-o./vmf-map-bad-m./map-bad.tsv 此时给出信息:Errors and/or warnings detected in mapping file. Please check the log and html file for details. 可以查看产生的HTML摘要以找出存在的错误。然后在电子表格程序或文本编辑器中修复这些问题,重新运行validate_mapping_file.py检查更新后的映射文件。 质量过滤序列 使用 split_libraries_fastq.py 对序列进行质量过滤,一般来说,序列和条形码有单独的fastq文件, split_libraries_fastq.py-oslout/-iforward_reads.fastq.gz-bbarcodes.fastq.gz-mmap.tsv OTU-picking 注意若是在NCBI等网站上下载处理过的序列,直接在此处开始即可 有三种策略,为 pick_closed_reference_otus.py , pick_open_reference_otus.py , pick_de_novo_otus.py 。此处以 pick_open_reference_otus.py 为例 pick_open_reference_otus.py-ootus/-islout/seqs.fna-p../uc_fast_params.txt 注意,该命令采用上一步中生成的文件seqs.fna。我们还为该命令指定了一些参数,这是该工作流程的内部。 我们从这个命令中获得的主要输出是 OTU table ,或者每个样品中观察到的每个操作分类单位(OTU)的次数。QIIME使用基因组学标准联盟生物观察矩阵标准(BIOM)格式来表示OTU表格。可以在 这里 找到有关BIOM格式的更多信息,以及将这些文件转换为制表符分隔文本的信息,这些文本可以在 此处 电子表格程序中 查看 。这个命令生成几个OTU表。我们通常使用./otus/otu_table_mc2_w_tax_no_pynast_failures.biom。它有单个OTU(或总数为1的OTU),以及其代表序列不能与 PyNAST 对齐的 OTU 。它还包含每个OTU的分类分配作为观测元数据。pick_open_reference_otus.py命令还产生系统发育树,包含树的文件是./otus/rep_set.tre,并且是./otus/otu_table_mc2_w_tax_no_pynast_failures.biom下游系统发育多样性计算中应该使用的文件。树以广泛使用的 newick格式存储 。 (未完)
个人分类: 生物统计软件|6225 次阅读|0 个评论
使用QIIME分析微生物群落的16S rRNA序列(fasta格式序列)
wbb121 2018-5-26 19:02
参考文章Kuczynski J, Stombaugh J, Walters W A, et al. Using QIIME to analyze 16S rRNA gene sequences from Microbial Communities . Current protocols in bioinformatics / editoral board, Andreas D. Baxevanis. , 2011, Chapter 10:Unit 10.7. 以及 http://qiime.org/tutorials/tutorial.html https://forum.qiime2.org/t/qiime2-chinese-manual/838 QIIME是一种执行微生物群落分析的软件应用程序。它是Quantitative Insights In Microbial Ecology的缩写,已被用于分析和解释来自真菌,病毒,细菌和古菌群落的核酸序列数据。 Unit Introduction 标准QIIME分析从一种或多种测序技术(例如Sanger,Roche / 454,Illumina或其他)的序列数据开始。使用QIIME分析微生物群落的数据包括在终端窗口中输入一系列命令,然后查看图形和文本输出。使用Linux风格的命令行界面(即命令有一些相当基本的了解 cd , ls 以及使用制表符完成的)是有用的,但并不是必需的。 我们用一个从小鼠肠道微生物群落对空腹的反应研究中得到的数据作为例子,而不是用一般术语列出分析步骤。为了使这个例子在个人计算机上快速运行,我们使用由控制随意饮食饲养的5只动物产生的数据的一个子集,并且4只动物在处死前24小时禁食。在基本操作完成后,我们比较了对照组与禁食动物的群落结构,特别是,我们比较了禁食小鼠和非禁食小鼠的微生物群落的分类学特征,观察样品内多样性指标的差异,在各组之间进行比较,并进行比较聚类分析以查找样本中的总体差异。 下载数据 可在 ftp://ftp.microbiome/pub/qiime-files/qiime_overview_tutorial.zip 下载,或者在附件中下载。 文件的说明如下: .fna文件: 这是454机器生成的FASTA文件。 .qual文件: 这是454机器生成的质量得分文件,其中包含FASTA文件中每个序列的基准得分。 tsv.txt文件: 映射文件由用户生成。该文件包含执行数据分析所需的所有样本信息。具体要求见 http://qiime.org/documentation/file_formats.html#metadata-mapping-files。 在此处我们使用映射文件 Fasting_Map.txt 硬件要求 安装 QIIME, 可以通过虚拟机安装,这是最简单的方法,见 http://qiime.org/install/index.html 其他必要资源 在比对16S DNA序列时使用的文件,可以在终端使用如下命令下载,或直接从附件中下载(core_set_aligned.fasta.imputed文件太大,附件无法上传,请自行下载) wgethttp://greengenes.lbl.gov/Download/Sequence_Data/Fasta_data_files/core_set_aligned.fasta.imputed wgethttp://greengenes.lbl.gov/Download/Sequence_Data/lanemask_in_1s_and_0s 预处理 将目录设置为数据所在文件夹(此处需要个人做相应的修改) cd/media/sf_E/alignment-free/16s_rRNA/OTU/qiime2/qiime_overview_tutorial 检查映射文件,所用的命令为 validate_mapping_file.py , validate_mapping_file.py-mFasting_Map.txt-omapping_output 该模块会显示一条消息,指示映射文件中是否存在问题。错误和警告将输出到指定(-o)输出目录中的日志文件。错误会导致后续脚本的致命问题,并且需要在继续下一步分析之前纠正。警告不会导致致命的问题,但鼓励解决这些问题,因为它们通常指示映射文件中的拼写错误,无效字符或将影响下游分析的其他意外错误。正确的 corrected_mapping.txt文件也在输出目录中,这是替换无效字符的映射文件的副本。 基于核苷酸条码(nucleotide barcode)给样本分配multiplexed reads,这一步也完成了质量过滤,去除低质量或模糊的reads。所用的命令为 split_libraries.py ,这里我们采用默认参数, split_libraries.py-mFasting_Map.txt-fFasting_Example.fna-qFasting_Example.qual-osplit_library_output 这一命令会在新目录split_library_output/中创建三个文件 : split_library_log.txt:此文件包含分割摘要,包括每个样本检测到的reads的数量以及由于质量考虑而被删除的reads的简要摘要。 histograms.txt:这个制表符分隔的文件显示了拆分之前和之后以规则大小间隔reads的数目。 seqs.fna:这是一个FASTA格式的文件,每个序列根据它来自的样本进行重命名。标题行还包含FASTA输入文件中的read名称以及有关更正的条形码错误的信息。 Picking OTUs 注意若是在NCBI等网站上下载处理过的序列,直接在此处开始即可 在这里运行 pick_de_novo_otus.py ,该工作流程会自动运行一系列其他脚本。该工作流程由以下步骤组成: 1.根据读取内的序列相似性选择OTUs( pick_otus.py ) 2.为每个OTU选择一个代表序列( pick_rep_set.py ) 3.将分类标准分配给OTU代表序列( assign_taxonomy.py ) 4.比对OTU代表序列( align_seqs.py ) 5. 比对过滤( filter_alignment.py ) 6. 构建系统发育树( make_phylogeny.py ) 7.制作OTU表( make_otu_table.py ) 使用split_libraries.py的输出(seqs.fna),运行以下命令: pick_de_novo_otus.py-i./split_library_output/seqs.fna-ootus 1.根据读取内的序列相似性选择OTUs(pick_otus.py) 在此步骤中,所有样本的所有序列将根据它们的序列相似性聚类为操作分类单元(OTU)。QIIME中的OTUs是序列的聚类,通常意在表示一定程度的分类学相关性。例如,当序列以97%的序列相似性聚类时,每个产生的聚类通常被认为代表一个物种。这种模式和目前采摘OTU的技术已知存在缺陷,然而,97%的OTUs与人类对许多微生物所称的物种不匹配。确定OTU应该如何定义以及它们代表什么是一个活跃的研究领域。见这里关于OTU与QIIME采摘的更多信息。 2. 为每个OTU选择一个代表序列(pick_rep_set.py) 由于每个OTU可能由许多相关序列组成,因此我们将从每个OTU中选择一个代表序列用于下游分析。该代表性序列将用于OTU的分类学鉴定和系统发育比对。QIIME使用上面创建的OTU文件,并通过几种方法之一从fasta文件中提取代表序列。 在otus/rep_set/目录中,QIIME有一个fasta文件seqs_rep_set.fasta,每个OTU包含一个代表序列。在此fasta文件中,序列已用OTU标识符重命名,并且标题行上的附加信息反映了用作代表的序列: 3.将分类标准分配给OTU代表序列(assign_taxonomy.py) 接下来,分类将被分配给每个代表性序列。默认情况下,QIIME使用uclust共识分类法分类器来尝试将分类法分配给步骤2产生的每个代表性序列。 在目录 otus/uclust_assigned_taxonomy/中 ,会有一个日志文件和一个文本文件。文本文件(我们称之为观察或OTU元数据文件)包含每个OTU的一行,然后是分类指定,包含此分类指定的uclust命中分数以及找到的uclust命中数。对于一些OTU,分配可能与细菌种类一样具体,而其他分配可能根本不可分配(因此将被标记为 未分配 )。以下是观测元数据文件的前几行,其中包含uclust分类学分配的结果: 4.比对OTU代表序列(align_seqs.py) 只有在随后调用诸如 UniFrac 系统发育指标时,OTU代表序列和系统发生推断的对齐才是必要的。比对可以使用诸如MUSCLE之类的程序从头生成,也可以通过使用像 PyNAST 这样的工具与现有对齐进行对齐。对于小型研究,任何一种方法都是可行的。然而,对于涉及多个序列(大约超过1000个)的研究,重新校准器非常缓慢并且需要与 PyNAST 比对。由于比对是流水线中计算最密集的瓶颈之一,所以大型研究从这项任务的并行化中受益匪浅,这在 PyNAST 中是可能的。 对齐序列后,将在./otus/pynast_aligned_seqs /目录中创建一个日志文件和一个比对文件。 5.比对过滤(filter_alignment.py) 在推断与序列有关的系统发育树之前,过滤序列比对以去除仅由缺口组成的列和已知过度变化的位置是有益的。QIIME默认使用16S对齐Lane mask(Lane,DJ 1991)。过滤后在目录./otus/pynast_aligned_seqs/中创建一个过滤的比对文件。 6.构建系统发育树(make_phylogeny.py) 使用目录./otus/pynast_aligned_seqs/中生成的已过滤的比对文件,使用树构建程序构建系统发育树。 该Newick树格式文件写入rep_set.tre,位于./otus目录中。该文件可以在树形图可视化软件中查看,并且对于UniFrac多样性测量和其他系统发生分析是必要的。所获得的树可以用FigTree等程序可视化,该程序用于显示存储在rep_set.tre中的系统发育树: 7.制作OTU表(make_otu_table.py) 该步骤的结果是otu_table.biom,位于./otus/目录中。有关以BIOM格式存储的OTU表格格式的更多信息,请参阅 http://biom-format.org/ 。 总结otu表,查看OTU表的摘要统计信息,使用如下命令: biomsummarize-table-i./otus/otu_table.biom 总结表明,本教程示例中的序列相对较少,但所存在的序列在9个微生物群落中分布相当均匀: Num samples: 9 Num observations: 419 Total count: 1337 Table density (fraction of non-zero values): 0.168 Counts/sample summary: Min: 146.0 Max: 150.0 Median: 149.000 Mean: 148.556 Std. dev.: 1.257 Sample Metadata Categories: None provided Observation Metadata Categories: taxonomy Counts/sample detail: PC.481: 146.0 PC.355: 147.0 PC.636: 148.0 PC.607: 149.0 PC.635: 149.0 PC.593: 149.0 PC.354: 149.0 PC.634: 150.0 PC.356: 150.0 (未完) 附件: Using QIIME to analyze 16s rRNA gene sequences from microbial communities.pdf qiime_overview_tutorial.zip
个人分类: 生物统计软件|17323 次阅读|0 个评论
Greengenes Database 13_5 介绍
wbb121 2018-5-25 16:05
Greengenes Database官方网站: http://greengenes.secondgenome.com 。 本篇文章为13_5版本中的文件00README中的部分内容,此处主要给出文件列表及其说明,更详细的请参阅附件或在 http://greengenes.secondgenome.com/downloads/database/13_5 下载。 gg_13_5.fasta.gz(265756 KiB)全部未比对的序列(不删除碱基), 即没有比对上的序列 。 gg_13_5.fasta.gz.md5(1 KiB) gg_13_5.sql.gz(1007175 KiB) 完整Greengenes记录 。这是一个mysqldump。,用户是没有密码的'greengenes',数据库被命名为'greengenes'。注意:此数据库当前仅包含发布中包含的那些记录的序列信息,但是描述了包含可对齐16S的所有已审核的Genbank记录。 这是一项正在进行的工作,将在后续版本中添加额外的记录数据和功能。 gg_13_5.sql.gz.md5(1 KiB) gg_13_5_00CHANGELOG(3 KiB) 自上次发布以来的重大更改 gg_13_5_00README(12 KiB) 数据库的基本介绍 gg_13_5_00ROADMAP(1 KiB) 计划的更改和添加,包括发布日期 gg_13_5_00STATS(1 KiB) 包含在不同相似性级别的序列数量的快速统计 gg_13_5_accessions.txt.gz(7528 KiB)从Greengenes ID到外部数据库的映射。这主要是Genbank的参考文献,但因为没有自动的方式来推断一些NCBI的加入,所以包括几百个IMG基因组ID的链接。 即ID之间对应关系 。 gg_13_5_accessions.txt.gz.md5(1 KiB) gg_13_5_chimeras.txt.gz(506 KiB) 当前的嵌合体黑名单 gg_13_5_chimeras.txt.gz.md5(1 KiB) gg_13_5_img.txt.gz(40 KiB)Greengenes ID和IMG Genomes之间的特定映射。即 与IMG之间的ID对应关系 。 gg_13_5_img.txt.gz.md5(1 KiB) gg_13_5_otus.tar.gz(310867 KiB) 使用QIIME获得的OTU 。 gg_13_5_otus.tar.gz.md5(1 KiB) gg_13_5_otus_99_annotated.tree.gz(1843 KiB) 99%OTU相似性的有根树 ,使用FastTree进行系统发育重构(Price,et al 2010),以tax2tree为基础分类法(McDonald,et al 2011)。 gg_13_5_otus_99_annotated.tree.gz.md5(1 KiB) gg_13_5_pynast.fasta.gz(593730 KiB)几乎所有版本中比对后的序列。 大约1400个SSU-Align的序列未能与PyNAST(Caporaso 2010)比对。 由于使用了最初的Greengenes核心集,这可能是导致比对失败的原因。 即比对序列 。 gg_13_5_pynast.fasta.gz.md5(1 KiB) gg_13_5_ssualign.fasta.gz(454572 KiB)所有版本中比对后的序列。使用SSU-Align (Nawrocki 2009)进行序列比对。作为这个软件的结果,移除从SSU-Align模型中的结构转向对应的碱基。 不建议将这种比对用于探针设计或任何其他需要访问序列中所有连续碱基的操作。每个序列用7,682个字符表示。虚线( - )表示缺失数据或者比对缺口。 即比对上的序列 。 gg_13_5_ssualign.fasta.gz.md5(1 KiB) gg_13_5_taxonomy.txt.gz(9315 KiB)这个版本中所有序列的全部分类,每个分类都由7个不同水平组成。 即为每条序列的分类学记录 。 gg_13_5_taxonomy.txt.gz.md5(1 KiB) 附件: gg_13_5_00README.txt
个人分类: 生物数据|10935 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-18 19:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部