科学网

 找回密码
  注册

tag 标签: 拼接

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]基因组denovo: 测序,组装,注释与分析
xiaoshijun 2013-8-12 15:40
1. 测序前的准备 搜集物种相关信息,比如基因组大小,杂合度, 1.1 获取基因组大小 基因组大小的获取关系到对以后组装结果的大小的正确与否判断;基因组太大(10Gb),超出了目前denovo组装基因组软件的对机器内存的要求,从客观条件上讲是无法实现组装的。 一般物种的基因组大小可以从( http://www.genomesize.com/ )这个数据库查到。如果没有搜录,需要考虑通过实验(流式细胞仪)获得基因组大小。 1.1.1 流式细胞仪估计基因组大小的例子: Yoshida, S., J. K. Ishida, et al. (2010). A fulllength enriched cDNA library and expressed sequence tag analysis of the parasitic weed, Striga hermonthica ant Biol 10: 55. 1.1.2 基于福尔根染色估计基因组大小的描述: 这本书比较经典,重点推荐:Gregory, T. (2005). The evolution of the genome, Academic Press. 1.1.3 定量pcr估计基因组大小的例子: Wilhelm, J., A. Pingoud, et al. (2003). Real-time PCR based method for the estimation of genome sizes. Nucleic Acids Res 31(10): e56. Jeyaprakash, A. and M. A. Hoy (2009). The nuclear genome of the phytoseiid Metaseiulus occidentalis (Acari: Phytoseiidae) is among the smallest known in arthropods. Exp Appl Acarol 47(4): 263-273. 1.1.4 Kmer估计基因组大小的例子: Kim, E. B., X. Fang, et al. (2011). Genome sequencing reveals insights into physiology and longevity of the naked mole rat. Nature 479(7372): 223-227. 1.2 杂合度估计 杂合度对基因组组装的影响主要体现在不能合并姊妹染色体,杂合度高的区域,会把两条姊妹染色单体都组装出来,从而造成组装的基因组偏大于实际的基因组大小。 一般是通过SSR在测序亲本的子代中检查SSR的多态性。杂合度如果高于0.5%,则认为组装有一定难度。杂合度高于1%(?)则很难组装出来。 杂和度估计一般通过kmer分析来做,这里有一个例子: http://www.nature.com/nature/journal/vaop/ncurrent/full/nature11413.html 降低杂合度可以通过很多代近交来实现。 杂合度高,并不是说组装不出来,而是说,装出来的序列不适用于后续的生物学分析。比如拷贝数、基因完整结构。 1.3 是否有遗传图谱可用 随着测序对质量要求越来越高和相关技术的逐渐成熟,遗传图谱也快成了denovo基因组的必须组成。构建 遗传图构建相关概念可以参考这本书(The handbook of plant genome mapping: genetic and physical mapping ) 1.4 生物学问题的调研 这一步也是很重要的 2. 测序样品准备 确定第一步没问题,就意味着这个物种是可以尝试测序的。测序样品对一些物种也是很大问题的,某些物种取样本身就是一个挑战的问题。 基因组测序 用的样品最好是来自于同一个个体,这样可以降低个体间的杂和对组装的影响。大片段对此无要求。 3. 测序策略的选择 一般都是用不同梯度的插入片段来测序,小片段(200,500,800)和大片段(1k, 2kb 5kb 10kb 20kb 40kb)。如果是杂合度高和重复序列较多的物种,可能要采取fosmid-by-fosmid或者fosmid pooling的策略。 不言而喻,后者花费是相当高的。 4. 基因组组装 4.1 组装相关综述 : Li, Z., Y. Chen, et al. (2012). Comparison of the two major classes of assembly algorithms: overlap-layout-consensus and de-bruijn-graph. Brief Funct Genomics 11(1): 25-37. Treangen, T. J. and S. L. Salzberg (2012). Repetitive DNA and nextgeneration sequencing: computational challenges and solutions. Nat Rev Genet 13(1): 36-46. http://www.cbcb.umd.edu/research/assembly_primer.shtml Schatz, M. C., J. Witkowski, et al. (2012). Current challenges in de novo plant genome sequencing and assembly. Genome Biol 13(4): 243 Baker, M. (2012). De novo genome assembly: what every biologist should know . Nat Methods 9(4): 333-337. (重点推荐) Compeau, P. E., et al. (2011). How to apply de Bruijn graphs to genome assembly. Nat Biotechnol 29(11): 987-991. Birney, E. (2011). Assemblies: the good, the bad, the ugly. Nat Methods 8(1): 59-60. Schatz, M. C., et al. (2010). Assembly of large genomes using second-generation sequencing. Genome Res 20(9): 1165-1173. 4.2 测序数据预处理 Illumina数据预处理终结者 数据纠错 Brief Bioinform 测序数据错误校正方法测评 Yang, X., et al. (2013). A survey of error-correction methods for next-generation sequencing. Brief Bioinform 14(1): 56-66. Kelley, D. R., M. C. Schatz, et al. (2010). Quake: quality-aware detection and correction of sequencing errors. Genome Biol 11(11): R116. 4.3 组装软件比较 Vezzi, F., et al. (2012). Reevaluating assembly evaluations with feature response curves: GAGE and assemblathons. PLoS One 7(12): e52210. Salzberg, S. L., A. M. Phillippy, et al. (2012). GAGE: A critical evaluation of genome assemblies and assembly algorithms. Genome Res 22(3): 557-567. Zhang, W., et al. (2011). A practical comparison of de novo genome assembly software tools for nextgeneration sequencing technologies. PLoS One 6(3): e17915. Narzisi, G. and B. Mishra (2011). Comparing de novo genome assembly: the long and short of it. PLoS One 6(4): e19175. Lin, Y., et al. (2011). Comparative Studies of de novo Assembly Tools for Nextgeneration Sequencing Technologies. Bioinformatics. Hayden, E. C. (2011). Genome builders face the competition. Nature 471(7339): 425. Finotello, F., et al. (2011). Comparative analysis of algorithms for whole-genome assembly of pyrosequencing data. Brief Bioinform. Earl, D. A., et al. (2011). Assemblathon 1: A competitive assessment of de novo short read assembly methods. Genome Res. 4.4 组装质量评估 Schatz, M. C., et al. (2011). Hawkeye and AMOS: visualizing and assessing the quality of genome assemblies. Brief Bioinform. RibaGrognuz, O., et al. (2011). Visualization and quality assessment of de novo genome assemblies. Bioinformatics. 个人见解: 目前大基因组的denovo组装主流软件还是ALLPATH-LG, SOAPdenovo ALLPATH-LG的优点是:组装的连续性最好,准确性最好,但是消耗内存较大,不是太好使用 SOAPdenovo的优点是:速度快,消耗的内存可以接受,组装的连续性还可以,但是错误相对要多一些。 当然,上述评述并不是在所有情况下的,对不同物种,不同数据,他们的表现可能会不一样。 基于Overlap-layout的方法的组装软件首推CABOG,这是当年用来组装果蝇基因组的原型。另外,快要发布的MSR-CA貌似也不错,其整合了上述所有软件的优点,来势很猛啊。 5. 基因组注释 Yandell, M. and D. Ence (2012). A beginner's guide to eukaryotic genome annotation. Nat Rev Genet 13(5): 329-342. 6. 基因组可视化 Nielsen, C. B., M. Cantor, et al. (2010). Visualizing genomes: techniques and challenges. Nat Methods 7(3 Suppl): S5-S15. 7. 进化分析 Yang, Z. and B. Rannala (2012). Molecular phylogenetics: principles and practice. Nat Rev Genet 13(5): 303-314. 8. 经典案例 Colbourne, J. K., M. E. Pfrender, et al. (2011). The ecoresponsive genome of Daphnia pulex. Science 331(6017): 555-561. Kim, E. B., X. Fang, et al. (2011). Genome sequencing reveals insights into physiology and longevity of the naked mole rat. Nature 479(7372): 223-227. Grbic, M., T. Van Leeuwen, et al. (2011). The genome of Tetranychus urticae reveals herbivorous pest adaptations. Nature 479(7374): 487-492. 转自: http://seq.cn/forum.php?mod=viewthreadtid=4607reltid=17953pre_thread_id=0pre_pos=8ext =
个人分类: 基因组拼接|8429 次阅读|0 个评论
[转载]velvet拼接参数
xiaoshijun 2013-8-10 16:20
​velvet拼接过程中需要调试的参数主要有三个:Kmer值,exp_cov和cov_cutoff三个。本文分别设置不同的参数值,进行比较。 Kmer值是基于De Bruijn算法的高通量读段拼接软件中最重要的一个参数,Kmer必须为奇数,在执行velveth时设置。在velvet的使用说明中,有一段关于Kmer设置的一般要求,如下: Ck = C(L-K+1)/L L表示读段长度,K表示Kmer值,C表示碱基的覆盖深度,Ck表示kmer的覆盖深度。L值已知,C值通过基因组规模和测序量来估计,当K值设定之后,可算得Ck值。根据经验,Ck值应当大于10,才能较好地完成拼接,而当Ck值大于20时,就浪费了测序深度。Kmer值越大Ck值就越小。当测序深度加大的时候,Kmer值也可以设的更大,有利于拼接。这个公式只能确定Kmer的取值范围,在此范围内选择采用哪个Kmer值,则需要进行Kmer参数值的调试。 在执行velvetg时,可设定exp_cov和cov_cutoff两个选项。选项cov_cutoff用来过滤低覆盖深度的contigs,选项exp_cov为预期的覆盖深度。这两个参数可设定具体的值,默认值为“auto”。当设为auto时,软件在拼接时自动取值,如果数据的覆盖比较均匀,设为auto,拼接结果会比较好;exp_cov设为auto时,cov_cutoff也将强制为auto,auto表示覆盖深度的阈值为exp_cov的一半。
个人分类: 基因组拼接|6508 次阅读|0 个评论
[转载]基因组组装软件velvet以及参数优化
xiaoshijun 2013-8-10 15:23
利用 k-mer 组装的基因组的软件现在已经很多了,例如soapdenovo, velvet 等等。 PLoB 上已经有不少关于 velvet 的软件的介绍,今天再次谈谈 velvet 这个软件,主要是推荐一些 velvet 配套的其他软件。 1、 VAGUE 这是一个基于 velvet 的但是带有图形化界面的基因组组装软件。目前该软件支持linux和mac。关于 VAGUE 的介绍可以读读下面的英文信息。 VAGUE is a vague acronym for "Velvet Assembler Graphical Front End", which means it is a GUI for the Velvet de novo assembler. The command line version of Velvet can be complicated for beginners to use, but VAGUE makes it clear and simple. 上面是软件的使用截图,更多软件的信息请访问:http://www.vicbioinformatics.co/software.vague.shtml 2、 VelvetK 利用基于K-mer组装的软件的时候我们常常关心一个问题,K-mer值设置多少比较好呢?于是乎,我们常做的一件事情就是把很多个K-mer值都拿来试一下,看看哪个K-mer比较好。这不失为一种好办法,但是当数据量很大的时候确实有点浪费时间。 我记得之前在 velvet 的manual里面作者推荐了一个经验公式(如下文),该公式推荐的K-mer与reads覆盖度和reads长度相关。 All coverage values in Velvet are provided in k-mer coverage, i.e. how many times has a k-mer been seen among the reads. The relation between k-mer coverage C k and standard (nucleotide-wise) coverage C is C k = C(L−k +1)/L where k is your hash length, and L you read length 这个经验公式也是一个定性的公式了。今天这里我们给大家推荐的另外一个软件 VelvetK ,这个软件可以告诉你 k-mer 选择多少比较合适。 下面是作者对 VelvetK 的描述介绍: VelvetK can estimate the best k-mer size to use for your Velvet de novo assembly. It needs two inputs: the estimated genome size, and all your sequence read files. The genome size can be supplied as as a number (eg. 3.5M) or as a FASTA file of a closely related genome. The reads can be FASTA or FASTQ, and may optionally be compressed with GZIP or BZIP2. 了解更多信息可以从这里进入:http://www.vicbioinformatics.com/software. velvet k.shtml 下面是 velvet K的使用 参数 : 3、 VelvetOptimiser 上面介绍了在使用 velvet 过程中K-mer的 参数 如何设置,这只是一部分。下面给大家推荐另一款软件, VelvetOptimiser 。这款软件的作用是,帮助你优化 velvet 的 参数 ,针对你的数据,提供一个合理的 参数 ,这些 参数 包括,K, -exp_cov, -cov_cutoff。 下面是该软件的描述: VelvetOptimiser is a multithreaded Perl script for automatically optimising the three primary parameter options (K, -exp_cov, -cov_cutoff) for the Velvet de novo sequence assembler. 想知道更多关于 VelvetOptimiser 的资料和介绍,请从这里进入: http://www.vicbioinformatics.com/software. velvet optimiser.shtml 转自:http://www.plob.org/2012/11/21/4797.html
个人分类: 基因组拼接|8668 次阅读|0 个评论
R语言中实现图层拼合
热度 1 Bearjazz 2013-3-21 08:55
R 语言中实现图层拼合 熊荣川 xiongrongchuan 六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 科学文献中,常常在一张图片中同时显示多个对象,这些对象往往又是不同的分析得到的图片。图片的拼接往往借助图形处理工具(如 Photoshop ),但是处理过程常常造成图片所包含的质量信息和量度信息的扭曲。而 R 语言的优点之一就是可以将多个统计分析的得到的结果同时输出。下面是一个简单的例子。 library(ape) tr-read.tree(text=((a:1,b:1):1,(c:1,d:1):1);)# 直接在屏幕上输入树文件 layout(matrix(1:2,1,2),width=c(1,1),heights=c(1,1))# 定义元图像的位置 (matrix) 、 # 宽度比例( width )、高度比例( heights ) plot(tr,direction=rightwards)# 第一个元图像 plot(tr,direction=leftwards)# 第二个元图像 # 输出结果如下
个人分类: 我的研究|6987 次阅读|1 个评论
[转载]SOAPdenovo拼接参数详解-注意点及个人经验
fish2012 2012-10-17 13:09
1. kmer值 kmer值哪个比较好很难说,对不同的数据,用不同的kmer值会有很不同的结果。最好的办法就是测试不同的kmer,然后看结果的N50,找到N50最 高的kmer。不过SOAPdenovo最新的版本已经支持最长127bp的kmer了,所以要从20多测试到127,显然不太可能。下面是文档中对 kmer的说明。 How to set K-mer size? The program accepts odd numbers between 13 and 127. Larger K-mers would have higher rate of uniqueness in the genome and would make the graph simpler, but it requires deep sequencing depth and longer read length to guarantee the overlap at any genomic location. 根据我的实际使用经验,如果你的read足够长,覆盖度足够高,kmer设的越高越好。 但是实际情况是,测序的覆盖度经常不够,或者用早期的GA平台测出来read长度只有35bp,或者为了节省成本,在mate-pair library(长片段insert的文库,一般2kb)测序时双端只有70bp,甚至40bp之类的,情况比较复杂。 一般来说,我尽量使用更高的kmer,如果我有100bp的pair-end,50bp的mate-pair,而且覆盖度挺高,我就用到kmer=45左 右,如果mate-pair只有40bp,kmer=35左右。如果mate-pair更短,只有35bp,kmer值就再降一点。 但是覆盖度不够时,我一般还是使用kmer=25来拼接。 SOAP推出了一个新的工具,prepare模块,似乎就是为了解决混合长度read的问题,你可以先用很高的kmer进行contig的拼接,只使用来 自180bp,300bp,500bp双端100bp的pair-end文库的reads。之后使用这些contig进行scaffolding,你可以 为这些contig重新构建一个短的kmer graph,然后整合来自mate-pair文库的短read进行scaffolding.只是遗憾的是,这个模块我尝试过,不行。这个模块的运行 SOAP应该要更详细说明才行。 7) Data Preparation Module generates necessary data for SOAPdenovo to run "map" and "scaff" steps from Contigs generated by SOAPdenovo or other assemblers with various length of kmer. options: -g Prefix of output. -K Kmer length. -c Input Contigs FASTA. (Filename cannot be prefix.contig) 2. config文件中的一个重要参数reverse_seq 这个参数在很多使用soapdenovo进行拼接的人当中都会设置错误,因为默认是0,下面是从其他人博客中看到的: “reverse_seq This option takes value 0 or 1. It tells the assembler if the read sequences need to be complementarily reversed. Illumima GA produces two types of paired-end libraries: a) forward-reverse, generated from fragmented DNA ends with typical insert size less than 500 bp; b) forward-forward, generated from circularizing libraries with typical insert size greater than 2 Kb. The parameter “reverse_seq” should be set to indicate this: 0, forward-reverse; 1, forward-forward. RF: first read of fragment pair is sequenced as anti-sense (reverse), and second read is in the sense strand (forward); FR: first read is in the sense strand (forward);second read of fragment pair is sequenced as anti-sense (reverse)” “read/1,read/2哪个是正向?哪个是反向的? ,这个是不能确定的,在华大这边建库小插入片段(2000bp)是打断后直接建库,测两端,没有反转;(=2000bp)的文库是打断后环化,环化后再打断测,这时称为reverse_seq,在soapdenovo里面reverse_seq=1 转录组的不用管这个了,都是小于2k的” 根据我们的实际经验,如果你有mate-pair的文库,那你得咨询建库的人,中间是否经过了环化这个步骤,如果有,则必须把revser_seq设置为 1。之前有个孩子不看参数,全部默认0,拼出来的N50只有30k,惨不忍睹,把这个参数纠正后,N50就有150k了。 其实这个参数就算设置正确,还是存在一个很严重的问题, 因 为 在illumina mate-pair library建库的过程中,由于实验方法上的技术缺陷,很多dna片断并没有被成功的环化,这些没有被环化的片断测序后实际上还是pair end,也就是说两个read的方向是FR,而非RF,这时你用了reverse_seq=1,这些read的方向就是错的。所以,如果有可能,特别是你 已经有reference的时候,尽量先对mate-pair文库的read进行筛选,把那些insert-size远小于理论值的,方向不正确的 read删掉,否则你的拼接将会引入大量的错误。 3.其他几个对N50有重要影响的参数 -M mergeLevel(default 1,min 0, max 3): the strength of merging similar sequences during contiging 这个参数似乎在上一篇博文中没有解释,并且SOAP的提示也很简单。默认情况下M=1,M的值可以设置,从0到3。这个参数的作用是在拼contig的过程中,对buble合并和分解的一个重要参数。详细可见下面一段文字: We used Dijkstra’s algorithm to detect bubbles, which is similar to the ‘‘Tour-bus’’ method in Velvet.We merged the detected bubbles into a single path if the sequences of the parallel paths were very similar; that is, only had a single base pair difference or had fewer than four base pairs difference with 90% identity. 简单说,就是一些差别很小的kmer,例如只有1个mismatch,在M值高的时候,将会被合并到一个node里面。 这个对于杂合度高的基因组意义比较大,因为两个allel在拼接时可能会被独立的拼出来,如果你把M值调高,这些allel就可以被合并在一起。 但是如果一个基因组repeat很多的话,M值设高了就会把很多差别很小的repeat序列合并在一起,那么相当多的序列将无法被用于构建edges,这 时你的N50就会比较差,降低这个值可以显著的提高N50,但是吧,由于测序错误的存在,或者repeat特别多时候,降低M值又会导致误拼的概率大大提 升,这个问题很难说得清,有些人在拼接时候尽量提高M值,把尽可能多的repeat与及可能的测序错误都合并到一个区域,这样可以保证基因组其他区域拼接 的准确率,但是代价是N50的显著降低。 一般情况下,我还是使用了默认的M=1。要是碰上repeat多,杂合度又高的基因组,我只能建议远离illumina,远离SOAPdenovo,呵呵。 -R 也是跟repeat分解有关的参数,用他可以把一些由短片段重复而被合并在一起node分解开,一般情况下也可以明显的提高N50,但是一样的,repeat很多的情况下,这个参数要慎用,误拼的概率会大大提升。 config文件里的asm_flag参数 1 (reads only used for contig assembly), 2 (only used for scaffold assembly) and 3 (used for both contig and scaffold assembly). 如果你的pair-end数据不够,那就让mate-pair文库的序列也用于contig拼接,asm_flag=3。也可以比较明显的提高N50。 4.提醒 以上这些都是我的个人经验,我相信大部分情况下还是适用的,但是每个基因组的情况的差别很大,所以一定还是要多测试,才能得到比较好的拼接结果。短 read拼接最大的问题就是处理repeat序列,N50提高了,某种程度上拼接准确率也要下降。因为repeat被放到哪个scaffold,似乎在 SOAP中没有特别优化,只是随机扔个位置,这样就会出现不该连的scaffold被连在一起,甚至在contig内部都会出现错误,于是人为造成了很多 假的structural variation。不过一般来说,insertion,deletetion之类的错误还可以忍受,但是还是有不少 inversion,translocation,这种就是比较严重的错误了
7171 次阅读|0 个评论
[转载]RNA-seq转录本拼接与重构的探讨
bioseq 2012-9-14 11:07
[转载]RNA-seq转录本拼接与重构的探讨
RNA进行测序一直以来都被认为是一种发现基因的有效方法,而且这种方法还被认为是对编码基因以及非编码基因进行注释的金标准。与以前的方法相比,大规模平行RNA测序方法(massively parallel sequencing of RNA)极大增强了RNA测序技术的处理能力,使我们得以能够对转录组进行测序。在本文中即将介绍到的这两种RNA测序方法就能以前所未有的精度对转录组进行分析。Trapnell小组使用的方法是一种名为Cufflinks的软件。这种软件能够随时发现小鼠生肌细胞(myoblast cell)内新出现的转录子,还能在细胞分化时对转录子表达水平进行监测,从而分析基因表达情况和剪接情况。Guttman小组也使用了与Trapnell小组相类似的软件方法,不过他们使用的是另一种名为Scripture的软件。Scripture软件可以对源自三个小鼠细胞系的转录组进行再注释(reannotate),从而对数百个最近新发现的lincRNA(large intergenic noncoding RNA)进行完整的基因模式注释。 虽然RNA测序技术已经出现了将近20年,但直到最近才开始构建克隆文库。对人类、小鼠以及其它重要模式生物进行全长基因克隆构建的科研项目需要几年的时间才能够完成。但是有了最新的测序技术,我们将不再需要构建克隆文库,可以直接对cDNA片段进行测序。我们现在可以只需要花费几天,仅用以往同类项目科研经费的很少一部分就能够得到一个比较满意的完整的细胞转录组。但是这种新技术也存在一点问题。不用构建克隆,我们就无法知道哪一个“结果(mRNA或蛋白)”来自哪一个转录子。最近已经有人开始通过对已知的或者预测出来的转录子的短RNA序列进行测序的方式来对基因表达和可变剪接进行分析研究。虽然这些研究可以得到很多信息,但是这种方法只能用于分析已知基因和对已知的可变连接区域进行分析。为了充分利用RNA序列数据进行生物学研究,我们还应该能够重建转录子并且还要能够在不借助参考注释基因组信息的情况下对这些转录子的相对丰度进行精确的测量。 过去我们在利用短RNA序列重建转录子时主要采用了两条策略(图1)。第一条策略是利用ABySS软件从头构建的方法,这样就可以与全长cDNA序列进行比对,从而解决序列注释的问题。这种办法还可以用于发现参考基因组中未收录或者收录不完全的转录子,还可以用于发现那些缺乏参考基因组RNA序列数据物种的转录子。不过这种利用小片段序列从头组装转录子的方法实施起来非常困难,只有丰度很高的转录子才有可能被成功组装。 RNA-Seq reads:短片段RNA序列;Align reads to genome:与基因组数据比对;Genome:基因组;Assemble transcripts de novo:从头组装转录子;More abundant:高丰度; Assemble transcripts from spliced alignments:通过与各种剪接方案比对组装转录子; Align transcripts to genome:将转录子与基因组进行比对;Less abundant:低丰度; 图1 利用RNA序列数据重建转录子的两种方法。图中左侧示意的先比对再组装的办法是Trapnell小组和Guttman小组采用的方法。该方法首先将短片断RNA序列与基因组序列进行比对,计算出所有可能的剪接方案,然后根据这些剪接方案重建出转录子。图中右侧展示的则是先组装再比对的方法。该方法先从根据RNA片段序列直接头合成出转录子序列,然后再用各种剪接方式对合成的转录子进行剪接,将剪接产物与基因组进行比对,找出内含子和外显子结构,以及各个不同剪接体之间的差异。由于这种从头合成的方法绝大部分情况下只对高丰度转录子管用,因此左侧图中展示的先比对再组装的策略要更为灵敏,不过这一观点尚需进一步论证。图中每个RNA片段都根据其来源转录子被标上了各种颜色。重建转录子中的蛋白编码区被标记成了深色。 第二种策略是先将每一个短片段RNA与基因组进行比对,然后再重建转录子。Trapnell小组和Guttman小组采用的就是这种策略。这两个小组使用的都是TopHat比对软件,通过该软件与基因组进行比对,获得了大量的剪接体。早期的RNA测序只能得到25~32个碱基长度的序列片段,现在我们可以得到75个碱基甚至更长的序列片段,这样就更容易进行序列比对,可以将片段末端固定在不同的外显子当中来判断哪种剪接体才是正确的,这样就不需要借助先前的注释信息了。通过上述这两种方法最终都能得到各种转录子图谱,再通过末端配对信息剔除掉不太可能的选择最终就能得到想要的转录子。 在使用哪种算法方面也是有很大差别的。比如Trapnell小组采用的Cufflinks软件就使用了一种非常严格的算术模型来发现每一个位点所有的可变调控转录子,还可以计算出每一种转录子的优势度。Guttman小组采用的Scripture软件则采用了统计学分段模型(statistical segmentation model)来区分表达位点和实验噪声。需要对Cufflinks软件技术、Scripture软件技术以及利用ABySS软件从头构建的方法进行大规模的测试,才能判断出哪一种方法在哪一种情况下面最为合适、有效。 令人吃惊的是,尽管我们已经利用数以百万计的EST和数千条完整的全长cDNA序列对小鼠基因组进行了详细的注释工作,但是Trapnell小组和Guttman小组还是发现了数千条以前从未发现过的转录子,其中包括已知基因的新型同工型转录子以及全新的编码基因及非编码基因的转录子。 Trapnell小组发现了3724条新的可信度非常高的已知基因的同工型转录子,这些转录子不论在人工注释的基因数据库还是在自动注释的基因数据库中都没有收录过。Trapnell小组还发现他们所发现的每一个转录子经过单独的表达验证之后都能对后续的分析起到重要的作用。实验表明,RNA测序工作能够在很大一个动态范围内准确地反映基因的表达情况,但是之前的实验都只能根据已知的同工型转录子或者预测的同工型转录子来进行判断。根据RNA片段的测序结果直接重建出所有的同工型转录子,然后再根据这些同工型转录子的出处将所有的配对片段进行分类,Trapnell小组用这种方法就能非常准确地判断出每一个基因的每一个同工型转录子的表达水平。他们还发现将每一个RNA片段正确地组装入转录子,能够极大的影响同一基因其它已知同工型转录子的预计表达水平。 如果能够检测每一个同工型转录子的表达水平,那么我们就能够对基因表达的调控机制进行更加深入的研究。这种调控机制可能发生在转录水平,比如形成具有不同转录起始位点的同工型转录子;也可以发生在转录后水平,比如虽然转录起始位点相同,但是内部剪接方式不同的各同工型转录子。Trapnell小组还发现,随着实验的推进,有大量基因的表达都会因为上面提到的这两种调控机制而发生明显的改变。这种能够在如此长时间段里对整个基因组表达调控情况进行检测的能力让我们能够进一步了解到基因组的新功能。比如,在这种水平上的详细数据能够让我们构建出更加合适的基因组调控网络模型,也可以利用这些数据根据每个基因各同工型转录子剪接情况与表达情况之间的关系来改变模型中的某些调控参数,而不用直接改变每一个基因的参数。 Guttman小组也发现了很多新的同工型剪接转录子,不过他们的工作重点主要都放到了各个新发现的转录子身上,尤其是lincRNA。之前利用芯片测序(ChIP-Seq)方法和全基因组瓦片芯片(whole-genome tiling array)方法发现了编码lincRNA的位点,但是由于分辨率不够因此不能构建出准确的模型。Guttman小组在Scripture软件的帮助下对609个已知位点构建出了基因模型,同时还发现了1000多个新的lincRNA,并解析了这些lincRNA的结构。Guttman小组还发现了469个蛋白编码基因的反义转录子。 通过为这些非编码RNA构建基因模型的方式能够让我们更好地开展基因功能研究了。比如Guttman小组就检测了各转录子的保守情况。与以前的观察结果一样,lincRNA要比内含子序列保守得多,但是其保守程度不如蛋白编码序列高。相反,反义转录子并不比编码蛋白的外显子区域的保守水平高,这说明这两种转录子各自具有不同的功能。RNA测序数据还能够展示非编码转录子的表达模式,这些数据表明lincRNA的丰度不仅要比蛋白编码RNA的丰度低,同时其表达水平也较低,而且同蛋白编码RNA相比,lincRNA的表达还具有非常明显的组织特异性。简单来说,如果能够更详细地了解非编码RNA的表达模式,为这些RNA构建出更为准确的基因模型,那么我们就能够更加清楚地知道它们在基因表达调控网络模型以及基因间相互作用模型中的作用,从而对它们的功能有更加深入的了解和认识。 Trapnell小组和Guttman小组发现了如此之多的新转录子这一事实不由得不让我们思考一个问题,为什么我们的注释工作会如此滞后呢?在Trapnell小组的试验中,已知的各种同工型转录子占到了总数的80%以上,这说明这些已知的转录子都来自高表达水平的基因,因此很容易通过以往的cDNA克隆测序方法给发现。Guttman小组的情况也基本相同。还有11%的RNA片段是来自已知基因新发现的同工型转录子,其中62%的片段都能与现有的EST或mRNA相印证,但是它们都还没有作为一个独立的转录子被注释。可能在以往的研究当中也零星的发现过这些低丰度的同工型转录子,可能只是因为它们与已知的转录子比较相似,或者是因为没能得到完整的测序,因此没有进行注释。与这种情况类似,被Guttman小组发现的lincRNA中有43%都可以在以往的小鼠cDNA研究工作中找到踪迹。由于lincRNA具有明显的组织特异性而以往的研究工作往往又只局限于研究某些组织,因此剩余的57%的lincRNA应该都是以前没有发现过的新的转录子。早期大规模RNA测序工作的重点都是针对蛋白编码区域,这可能也是我们注释工作显得落后的原因之一。Trapnell小组和Guttman小组采用的这种RNA测序方法能够明白无误地区分编码转录子和非编码转录子。 Trapnell小组使用的Cufflinks软件、Guttman小组使用的Scripture软件,以及其它一些类似的软件可以极大地改进我们的基因组注释工作,不论是被研究得非常详细的基因组还是缺乏EST和全长mRNA序列信息的基因组都能从中受益。但是利用RNA测序方法来进行基因注释工作也不是完美无缺的。通过Cufflinks软件和Scripture软件被发现的转录子中有大量的转录子都属于已知的转录子,只不过因为覆盖率较低所以都是不完整的转录子。正如用RNA测序方法重建的转录子很难与EST数据相吻合一样,很多低表达水平或者组织特异性表达的转录子也很难通过现有的RNA测序方法被发现。 随着测序技术的不断进步,我们也能够对转录组开展更为深入的测序工作,能够发现更多、更可靠的转录子。不过我们还需要更加先进的方法来区分低丰度的功能性转录子和背景噪声以及各种人为的假象。虽然Cufflinks和Scripture都是非常好的基因组注释工具,但针对不同的基因组(因为每个基因组的特点比如基因的密度、内含子的长度和含量、可变剪接发生的频率高低等等都不尽相同),我们仍然需要各种不同的软件(或算法)来更好地匹配并注释这些基因组。我们还需要看看Cufflinks和 Scripture在处理其它与小鼠基因组完全不同的基因组时表现如何。 大规模并行测序技术已经彻底改变了我们对基因组的研究方法,测序结果的质量也在不断提高,得到的信息量也在爆炸式增长。通过本文的介绍,我们也可以看到RNA测序技术以及转录子发现技术对于基因组注释工作以及基因组转录水平及转录后水平调控机制研究工作的重要意义。如果相应的软件能够及时跟上,那么RNA测序技术将有更大的成就。 原文检索: Brian J Haas Michael C Zody. (2010) Advancing RNA-Seq analysis, Nature Biotechnology , 28(5): 421-423.
6270 次阅读|0 个评论
在seqman中显示局部峰图
热度 1 Bearjazz 2012-9-13 16:25
在 seqman 中显示局部峰图 熊荣川 xiong rongchuan 六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 通常测序仪得到的 DNA 数据会在两端出现信号很差的碱基序列,对付这种片段通常会使用 seqman 中的 trimends 功能进行自动切除。然后往往即使使用这个功能之后还是难以避免一些冲突点的出现,这会使得拼接的序列在点位出现简并碱基符号(用一个字符代表不止一种的碱基,如下图)。这个使用需要核实序列的峰图在两个碱基之间取舍 为了图文并貌,请下载pdf观看 在seqman中显示局部峰图.pdf 下图是一个个例: 2652 位 一个是空格,一个是 A ,怎么拼接结果是 C ? 这种时候我们当然不能简单的把它改成 A 或者空格。需要查看峰图进行判别。 方法为在最上面一行(拼接结果行)选择需要查看的区域,并点击右键 在弹出的菜单中选择“ show original trace data ”,峰图就出来了,调整个峰图位置,使其并列更宜于观看 就这么简单,祝您科研愉快!
个人分类: 我的研究|6833 次阅读|1 个评论
[转载]RNA-seq拼接结果数据提交NCBI
bioseq 2012-9-3 17:10
RNA-seq的拼接结果也可以向NCBI提交,第一次提交,还是费了不少事,这里简单总结一下。RNA-seq的拼接结果应该提交到TSA库, TSA 全称Transcriptome Shotgun Assembly Sequence Database, TSA is an archive of computationally assembled sequences from primary data such as ESTs, traces and Next Generation Sequencing Technologies. 对于注释信息的要求 TSA数据提交前,首先需要将原始的序列提交到SRA数据库,与提交普通核酸、EST类似,TSA还需要提供DBlink关于BioProject、SRA接收号、BioSample;提供拼接信息以及对于拼接过程的描述。 对于序列的要求 必须是原始的测序结果的拼接数据 需要去除载体或者测序引物 序列长度不能少于200bp 序列不能包括太多的N,少于10%或者小于14个N 提交流程 NCBI注册,获取注册账号,登录 注册BioProject,获得一个编号 将Raw reads提交到SRA,在SRA提交页面创建一个SRA提交,创建Sample,创建Experiment、在Experiment中创建RUN,需要提供测序平台、文件名、文件格式(Illumina_native、bam、fastq、srf)以及MD5验证码,创建好后,给NCBI发邮件,他们会提供数据上传的FTP,压缩后上传到FTP 使用Sequin或者tbl2asn准备提交的文件,需要用到的数据包括拼接的序列(fasta格式)、拼接说明、BioProject编号、SRR接收号、单位信息、样本信息等 将注释好的文件压缩通过 GenomesMacroSend 提交,提交后会获得一个GDSub编号,将这些信息以及数据发布日期email给ncbi OK,等待回复,有问题解决问题,没有问题收纳接收号。 注意事项 window下TSA的注释 开始在window下(win 7 64bit)使用sequin,总是序列加载后,开始填写注释信息时就没有响应,估计是卡在内存上,因为其需要将所有数据都加载到内存中,结果内存只增加到100多M就不动了,试了几次,每次都挺花时间的,最后还是失败了,sequin的主页上说适合于1万条以内的序列注释,NRS拼接的结果基本都是10万的级别。最后还不得不改用 tbl2asn,虽然是命令行的,NCBI都提供了在线的模板、拼接信息生成CGI,但是序列多在dos下还是很慢,最后改在64位linux,几乎就是瞬间的事情。 tbl2asn的使用注意-y与-Y参数的差别,-y后面可以直接跟注释信息,-Y是指存放注释信息的文件,另外就是在fasta文件中,在序列的defline 部分可以使用 的形式给序列添加注释信息,比如 下面是命令示例: tbl2asn -t template.sbt -p. -a s -w assembly.cmt -Y comment -M t 关于序列中的N,序列中的N必须少于14个,或许是NCBI处于质控的角度考虑制定的规则,但是如果使用两端测序,难免序列中有很多N来填补缺位,N的价值是及其有意义的,如果要提交必须将这些序列去掉或者拆开,从文章的角度却又是不妥的,挺为难的。 没了,算是初次提交者的一个快速指南吧。更具体的请阅读NCBI官方说明。 参考 http://www.ncbi.nlm.nih.gov/genbank/tsa http://www.ncbi.nlm.nih.gov/genbank/tbl2asn2/ http://www.ncbi.nlm.nih.gov/books/NBK47532/#SRA_Submission_Guid.5_Submitting_Data http://www.ncbi.nlm.nih.gov/projects/GenomeSubmit/genome_submit.cgi 本文来源于:中国测序论坛 www.seq.cn 更多内容: http://www.seq.cn/forum.php?mod=viewthreadtid=3098extra=page%3D1
4051 次阅读|0 个评论
[转载]图解SOAPdenovo拼接过程
bioseq 2012-9-3 10:11
[转载]图解SOAPdenovo拼接过程
我们都知道,测序本身并不难,难就难在基因组的后续组装拼接,因为它涉及到大量需要考虑的问题,如重复、到位、覆盖率等等,于是如何有效的得到最后的序列或者有意义的Scaffold是做基因组面临的一个很大问题。不同的人去做会得到不同的结果,如N50、N90,scaffold数量等等。 下面简单介绍一下SOAPdenovo组装的一般过程: Schematic overview of the assembly algorithm. (A) Genomic DNA was fragmented randomly and sequenced using paired-end technology.Short clones with sizes between 150 and 500 bp were amplifiedand sequenced directly; while long range (2–10 kb) paired-end libraries were constructed by circularizing DNA, fragmentation, and then purifying fragments with sizes in the range of 400–600 bp for cluster formation. (B) The raw or precorrected reads were then loaded into computer memory and de Bruijn graph data structure was used to represent the overlap among the reads. (C) The graph was simplified by removing erroneous connections (in red color on the graph) and solving tiny repeats by readpath: (i) Clipping the short tips, (ii) removing low-coverage links,(iii) solving tiny repeats by read path, and (iv) merging the bubbles thatwere caused by repeats or heterozygotes of diploid chromosomes. (D) On the simplified graph, we broke the connections at repeat boundaries and output the unambiguous sequence fragments as contigs. (E)We realigned the reads onto the contigs and used the paired-end information to join the unique contigs into scaffolds. (F) Finally, we filled in the intrascaffold gaps,which were most likely comprised by repeats, using the paired-end extracted reads. 更多内容 http://www.seq.cn/forum.php?mod=viewthreadtid=3451
个人分类: 数据分析|3663 次阅读|0 个评论
图像预处理
gosci 2012-8-31 13:08
个人分类: ENVI|0 个评论
关于基因组测序、拼接及其后续分析
fish2012 2012-8-16 14:55
1.样品的采集、DNA的提取、上机 这一部分就略去吧,体力+操作娴熟活,爆个小料,实验组的少堂兄刚和师姐去大理、丽江、临沧等好几个地方花费10天时间采回了一批样。。据说超累超累得活。。去之前还开玩笑说回来可能不认识他了。。或者极端情况是被野兽带走。。哈哈,可见样品的来之不易了吧?跳过。。此步骤过于血腥暴力。。不再展开:) 2.测序的原理 我们组采用 的是Illumina/Solexa 测序,它的基本原理是边合成变测序。在 Sanger 等测序方法的基础上,通过技术创新,用不同颜色的荧光标记四种不同的 dNTP ,当 DNA 聚合酶合成互补链时,每添加一种 dNTP 就会释放出不同的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得待测 DNA 的序列信息。 3. 操作流程 简要的表述一下上图测序的过程: 1) 测序文库的构建 准备基因组 DNA--- 随机变短化为几百碱基或更短的小片段 --- 两头加上特定的接头 若为转录组测序 RNA 片段 --- 反转录 ---cDNA---- 片段化 ---- 加街头 值得注意的是:我们这里片段的大小对于后面的数据分析有影响,可根据需要来选择。对于基因组测序来说,通常会选择几种不同的片段大小,以便在组装的时候获得更多的信息。 2) 锚定桥接 带接头的 DNA 片段 --- 变性 --- 与通道上的引物刑场桥状结构 --- 便于后续扩增 3 )预扩增 添加 dNTP 和 Taq 酶 ---- 固相桥式 PCR 扩增 --- 变性 --- 释放出互补的单链 -- 通过 -- 不断循环 --- 获得上百万条成簇分布的双链待测片段 4 )单碱基延伸测序 加入四种荧光标记的 dNTP 、 DNA 聚合酶以及接头引物进行扩增,在每一个测序簇延伸互补链时,每加入一个被荧光标记的 dNTP 就能释放出相对应的荧光,测序仪通过捕获荧光信号,并通过计算机软件将光信号转化为测序峰,从而获得待测片段的序列信息。 得出数据,实验组结束! ========================================华丽丽的分割线=============================== 在得到测序数据后 , 主要要进行后续的数据处理和分析 : 1.组装 在这我们组主要采取的是华大开发的SOAPdenovo+GapCloser来进行组装 ,它的中心思想是采取图论的手段来进行拼接的,具体可以看我对于SOAPdenovo介绍的相关博文。 SOAPdenovo all -s XXX.lib -K 25 -p 16 -o output -d 1 -D 1 -M 3 -F GapCloser -o gapcloser_output_file -b XXX.lib -a output.scafSeq -p 25 -t 8 然后再进行Reference的Mapping等等后期一个过程,就不详细写了 最后得到组装后的序列,通常是很长得Scaffolds. 2.注释 对组装后得到的 Scaffold 进行全基因组基因注释 , 包括 : 基因组组分分析 ; 编码基因预测 ; 重复序列注释 ; Non-coding RNA 基因注释 ; Micro RNA 基因注释 ; tRNA 基因注释 ; 假基因 (Pseudogene) 注释等 . 附: 常用到的编码基因用到的软件有 : Augustus: http://augustus.gobics.de/ Fgenesh: http://www.softberry.com/ Genemark: http://exon.biology.gatech.edu/ 3.功能分析 对预测的基因进行功能 (Gene Ontology, 调控 Motif,Pathway 等 ) 注释 : 可以使用的软件有 : InterproScan , SignalP , SMURF 4.计较基因组和进化分析 如快速进化 (rapid evolution) 分析 , 共线性分析 (Synteny Block), 基因家族分析等 ; 常用的进化树分析软件 : MEGA: http://www.megasoftware.net /
12635 次阅读|0 个评论
前后拼接
itellin 2012-7-30 12:56
前后拼接
1535 次阅读|0 个评论
[转载]基因组框架图、精细图、完成图
suxudong 2012-6-25 13:25
框架图是指经生物信息学分析后,拼接得到的基因组覆盖度大于95%,基因区覆盖度达到98%以上,contig N50达到5Kb,scaffold N50达到20Kb,单碱基错误率在十万分之一以下。 精细图是指经生物信息学分析后,拼接得到的基因组覆盖度大于98%,基因区覆盖度达到99%以上,contig N50达到20Kb,scaffold N50达到300Kb,单碱基错误率低于十万分之一,gap数不超过100个。 完成图是指经生物信息学分析后,拼接得到完整的基因组序列,单碱基错误率低于十万分之一。 Read :一次测序中仪器读取的核苷酸长度 Contig : 通过重叠部分将相邻 reads 组装形成的单元称为contig。 Scaffold : 利用双端测序等其他方法的信息,定位 contigs 在染色体上的线性排列或相对 位置关系,并连接起来形成 较长的 scaffold 序列。 N50 :把 contig 或 scaffold 从大到小排序,并对其长度进行累加,当累加长度达到基因 组序列长度一半时,最后一个 contig 或 scaffold 长度。
8636 次阅读|0 个评论
[转载]3000bp测序的新时代
syfox 2011-12-1 09:44
测序技术已成为当今生命科学研究中发展最快的领域之一,其技术更新速度之快,用“日新月异”一词来形容也不为过。全球首个第三代测序平台——PacBio RS单分子实时测序系统自今年4月底推出,受到了很多研究者的关注。Pacific Biosciences预计将在明年一季度正式发布PacBio RS的新版本C2试剂,届时该系统的平均读长将从现在的1300 bp骤然提升至2500-3000 bp!最长读长可超过10000bp。令人惊叹的数字!经典的Sanger测序长度也就是1200bp左右,已难以匹敌,新一代测序(NGS,即二代测序)就更是望尘莫及啦。 短读长之困 风起云涌的新一代测序(NGS)市场三国鼎立,三大平台你追我赶,在测序速度和单次运行能获取的数据量上不断刷新记录,精彩纷呈,但其共同的短板也非常明显——序列读长太短——仅100-200bp的读长相比庞大的基因组,使得完成拼接工作变得无比艰巨,不少用户虽然获得了大量的测序数据,测序覆盖深度达到了几十倍甚至上百倍,但仍然没法完成基因组的拼接。对于新物种来说,往往还需要传统的Sanger测序先做scaffold。 今年罗氏454平台通过升级达到平均读长500bp以上,最长可达到1000bp,因此一些顶级研究院在做de novo测序时更倾向于用454做scaffold,再配合其他速度更快的NGS平台完成后续的测序工作,以求提高数据处理速度。 关于单分子实时测序的各种疑问 生物通 第三代单分子实时测序技术自问世以来就备受关注,有关其工作原理,生物通早在去年的ebiotech期刊新一代测序专辑中已有文章介绍过( 纵观第三代测序之Pacific Biosciences http://www.ebiotrade.com/newsf/2010-10/20101014173036143.htm )。C2试剂对平均读长大幅提升则在“第三代测序PacBioRS升级( http://www.ebiotrade.com/newsf/2011-10/20111018165836418.htm )”一文着重介绍。 但是许多疑问依然存在: 1)最受大家关注的,是PacBio RS的准确性究竟如何?有用户反馈,PacBio单分子测序准确度大概只有85%,这么低的准确度怎么能保证结果的准确性? 2)PacBio RS的长读长,对数据分析而言到底有什么优势? 3)PacBio RS单分子测序无需PCR扩增,有何优势和劣势? 4)单分子测序获得结果的速度会更快吗?运行通量有多大?一次运行需要多长时间?能获得多少可定位数据? 5)除了速度,读长,通量,精确性,PacBio未来的可扩展性如何? 6)PacBio的运行费用如何? 7)已成三国鼎立之势的测序市场,PacBio RS加入战局究竟会扮演什么样的角色?会不会秒杀NGS出局呢? 为此,生物通特邀了PacBio RS中国代理——基因有限公司专门负责PacBio的技术专家,就大家普遍关心的这些问题进行了比较深入的探讨,希望能使广大读者对这一最新的测序技术了解更多。 关于读长 Q:长读长是PacBio RS最引人注目的特点之一,长读长对测序来说到底有什么优势? A:长读长在序列拼接、定位以及需要跨越重复区域的应用中有着极大优势。 例如在De Novo Assembly时,目前遇到的主要困难在于如何跨越那些重复区域以及高/低GC含量的区域,从而完成整个基因组的拼接。 如果把拼接工作看作是在做拼图游戏。NGS获得的读长都很短,就好象把一幅图打成非常小的碎片,然后做拼图。由于碎片太小,因此许多碎片看起来都差不多,这样要拼出一副完整的图难度很大。PacBio RS目前可以获得1300bp的平均读长,明年初随着试剂升级,平均读长可提升至2500-3000bp,这就相当于同样的一幅图,用大的碎片来做拼图,由于大碎片比小碎片的识别度要高,因此完成拼图的难度就可以大幅降低。 同NGS通常100-150bp的读长相比,PacBio RS的平均读长提高了近20倍。试想一下,同样大小的一幅拼图,10,000片的还是500片的更好拼? 另外,随着读长的增加,拼接过程中所需要测序覆盖深度也会随之下降。 对变异检测来说,我们首先需要的是准确定位,如果无法准确定位,那无论原始或者一致性准确度有多高都是没有意义的。而长读长可以帮助研究者进行更准确的定位。 Q:C2试剂据说能将读长提高到2500-3000bp,这是PacBio实验室得出的数据,还是用户数据? A:目前PacBio公布出来的C2试剂的参数是,在Long模式下,平均读长可达到2500bp,95%ile读长可达到6500bp,在X-Long模式下,平均读长可达到3000bp,95%ile读长可达到8500bp。C2试剂明年Q1将实现大规模的商品化供应,目前部分实验室已经率先在使用。 C2试剂第一次被使用是在德国大肠杆菌疫情研究中,研究人员通过将不同测序模式混合使用,最终获得了2900bp的平均读长以及99.998%的一致性准确度。这项研究的结果今年七月底已经发表在新英格兰医学杂志上,题为“Origins of the E. coli Strain Causing an Outbreak of Hemolytic–Uremic Syndrome in Germany”。在这项研究中,研究人员在PacBio RS平台上通过全球合作几天内就完成了对从疫情中获得的大肠杆菌样品以及近似菌株的测序和数据分析。PacBio RS的长读长优势使得只使用PacBio RS数据完成致病大肠杆菌的De Novo Assembly成为可能,而PacBio相对NGS平台可更快获得结果这点这对鉴定新的病原体来说也是一个极大优势。 另外美国著名基因组技术服务商Expression Analysis(EA)负责研发的Pat Hurban在今年9月底一次网络会议中展示了其最新获得的PacBio数据:他们将大肠杆菌基因组DNA分别处理成2kb和6kb的片段,其中2kb的模板只用C1试剂进行了测序,6kb的模板则分别用C1和C2试剂进行了测序。Hurban发现使用C2试剂后,获得了2715bp的平均读长,最长的读长甚至达到了13091bp(可能有用户会问,插入片段大小只有6kb,怎么会产生将近13kb的读长?这是由于在PacBio平台上,样本制备完成后会形成环形的而非线性的模板结构,因此如果影片持续拍摄,当完成插入片段从一端到另一端的读取后,会跨过接头,继续读取其反义链的序列,因此这里最长读长超过了插入片段的长度),EA对使用C2试剂获得的结果非常满意。 Q:PacBio RS的准确性究竟如何?PacBio 工作原理和C2试剂的技术文章在生物通发布后,多位读者在评语、留言和邮件中都不约而同的提到了一篇留美中国学者的博文,提及在今年4月他个人在美国实验室试用PacBio样机的感受,原文这么说“首先,Library 和SMRTBell的准备快速而简单(生物通注:SMRTBell is the name of the prepared template DNA. SMRTBell的制备实际就是PacBio文库制备过程的一部分)。测序时间确实很短。其次,合成的DNA链长度可以达到3kb,确实比目前所有的高通测序仪都高。最致命的是误差问题。结论是单次测序错误率15%, 循环测序误差8%左右,仪器目前的性能很令人失望。我自己写了个程序来做序列对比,能把误差降到3%左右,相比起其454来,还是有很大的差距。PacBio目前还不足以投放市场。他们的软件部分实在是需要改进。”您会怎么回应? A:首先,在PacBio RS之前,没有任何一台测序仪能够提供单分子的准确度数据。在NGS平台上,由于硬件的限制,其所检测到的信号是基于成百上千甚至更多分子,无法检测到单分子的信号。NGS平台给出的准确度是将这成百上千甚至更多分子获得的信号的平均值同reference sequence比对后获得的结果,也即一致性准确度。PacBio RS在测序历史上第一次给出了“单分子的测序准确度”数据,这是把单个模板分子的原始测序结果(标准测序模式)同reference sequence比对获得的数据,目前单分子的原始测序准确度在85~92%,平均值为87%。由于PacBio的单分子测序反应是在ZMW中进行,而每个SMRT cell含有15W个ZMW,因此当我们把N个ZMW中的单分子测序数据也做个平均,之后再同reference sequence比较,则PacBio的准确率也会大幅上升。另外,在NGS平台上,文库制备时必须要先进行PCR扩增,PCR过程中的bias或者mismatch等将无法在测序时修正,也就意味着这些错误会变成系统误差,且无法通过增加测序覆盖深度来消除。PacBio平台上,文库制备时无需PCR扩增,因此避免了PCR产生的bias等。由于PacBio上产生的错误是随机错误,且错误率并不随着读长增加而升高。因此其一致性准确度可随着测序覆盖深度的增加而提高。当测序覆盖深度达到30×时,PacBio的一致性准确度可以达到99.999%。 其次,PacBio的环形比对测序模式(CCS)可以帮助用户获得高准确度的单分子测序数据,由于我们可以对每一个单分子模板都进行评估,且无需通过PCR扩增,这对于突变检测(例如稀有SNP的检测)来说非常重要。已有实验数据表明PacBio可检测到低至1/100的突变。在突变检测中,现阶段我们建议的插入片段大小在250-500bp,以500bp的插入片段为例,当使用环形比对测序模式,单分子的测序准确度可以达到99%@ 5×CCS。C2试剂已经可以使平均读长提高到2500bp,最长的读长甚至可超过10,000bp。考虑到后续PacBio还将通过对试剂的持续优化,不断提高其读长。因此对突变检测来说,未来可研究的插入片段长度将越来越长。 Q:单分子单次测序产生错误的原理是什么?是长读长的错误累计结果还是机器原因?87%这个单分子原始测序平均准确度数字,在将来序列读长再次翻番时是否也会随之降低?那怎么办?再次提高测序覆盖深度吗? A:PacBio平台上目前的错误主要是插入和缺失,只有大概1%是substitution。缺失错误源自于有时候碱基掺入速度过快,超过了PacBio相机的拍摄帧数。插入错误源自于有的时候酶随机的选择一些碱基,但并未将这些碱基真的掺入合成链中。由于这些错误是随机的,因而可以随着测序覆盖深度的增加而消除。因此,尽管PacBio的单分子单次读取的原始准确度并不非常高,但随着测序覆盖深度的增加,它可以获得比NGS平台更高的一致性准确度。 PacBio的错误是随机错误,并不会随着读长的增加而提高,因此,当读长翻番时,错误率并不会随之提高。未来随着试剂的不断优化,单分子测序的原始准确度也会逐步提高,且每个SMRT cell可获得的数据量也会进一步提高。 关于速度和运行通量 Q:PacBio RS的测序速度有多快?样品制备需要多久?一次测序运行需要多长时间?一次运行最多能得到多少Gb可定位数据?运行通量能有多大? A:目前PacBio上所使用的DNA聚合酶的合成速度大概是1-3个碱基/秒,由于在该平台上,聚合酶合成的过程就是序列解读的过程,这意味着测序速度每分钟可超过100个碱基。 从样品制备到获得碱基序列的全部流程可在1天内完成。 如果使用C2试剂,每个SMRT cell可以获得90M 的可定位数据(mappable data)。现阶段每天最多可运行12个SMRT cell,因此每天可获得的数据是12×90=1080Mb mappable data。 Q:PacBio平台每天可获得的数据量目前来看与大型NGS平台(例如HiSeq2000每天可获得55Gb数据)相比还小得多,PacBio“每天最多运行12个SMRT cell”这个界限几时能翻番?每个SMRT cell最大读取数还能继续提高吗?平台未来的扩展性如何?有的NGS平台强调只需升级试剂部分即可实现读长翻番或者测序通量翻番,PacBio未来将从哪些方面扩展其性能呢? A:现阶段PacBio平台和NGS平台更多的是一种互为补充的关系,NGS可以获得更多的数据量,而PacBio可以获得更多的信息量。接下来的发展计划中,PacBio将通过对试剂以及软件的持续开发和优化,进一步提升读长,增加每个SMRT cell的数据产出量,并且会对DNA碱基修饰(例如DNA甲基化等)分析以及RNA直接测序等提供更多的支持(例如提供配套试剂盒和相应分析软件等)。 关于价格和市场 Q: 这是个敏感问题!精明的用户肯定会关心性价比。特别是后续运行费用,往往是决定采购的一个关键因素。PacBio RS每次运行费用大概多少? A: PacBio的后续消耗品主要包含试剂和耗材两部分。试剂有3种:模板制备试剂盒,结合试剂盒以及测序试剂盒,耗材就是SMRT cell。我们可以把整个测序过程分成模板制备以及测序两个阶段,模板制备阶段的费用,取决于样本数、所要研究的基因片段的大小、测序方案的选择、测序模式等,很难一概而论。测序阶段涉及测序试剂盒以及SMRT cell的消耗,现在SMRT cell的价格已经包含了测序试剂费用。详细情况可以联系基因有限公司咨询。 你说的性价比,研究者更加关注的是从样品开始到可发表的最终结果——你不能只看单价,或者单次运行的成本——因为不是运行结束,软件自动出来的结果就可以打印发表。如果考虑到长读取的优势和在数据拼接上能节省的时间和费用,就这一点而言,PacBio RS有其他方法不可比拟的优势。关键是它是否能满足你的需要,帮助你快人一步达到目标。 Q:已成三国鼎立之势的测序市场,PacBio RS加入战局究竟会扮演什么样的角色?能否秒杀NGS出局呢? A:这取决用户的具体应用。以基因组拼接为例,对于基因组较大的物种,例如植物,现阶段PacBio平台和NGS平台是一种互为补充的关系,NGS可以获得更多的数据量,而PacBio可以获得更多的信息量(例如NGS平台很难获得的高GC含量区域的信息等)。通过PacBio RS的配套分析软件,我们可以实现同NGS数据(兼容三大NGS平台)的混合拼接,从而大幅提高Genome Finishing的速度。对于基因组较小的物种,例如微生物和病毒等,则可以仅通过PacBio RS,独立完成De Novo Assembly。Q:PacBio RS除了在De Novo Assembly、突变检测等领域有优势,还在其他哪些方面有更多应用? A: PacBio RS可以对高GC含量区域测序,例如美国UC Davis医学院利用单分子实时测序技术,对脆性X染色体综合征的关键基因FMR1中的CGG三核苷酸重复区域进行了测序,并在第15届脆性X和早发性认知缺损国际研讨会上公布研究成果。在所有人的X染色体上都有一段CGG三核苷酸重复序列,正常人的CGG重复次数为5-44次。过长的重复次数会对FRM1基因转录或翻译出FRM1蛋白不利,当重复次数超过200次时,就会导致脆性X综合征。所以检测CGG的重复次数非常有意义。一般CGG重复在200次以上,被认为是具有临床意义的,但这个长度不管对于Sanger法测序或者新一代测序来说,都是很困难的,而PacBio则很好的解决了这个问题,利用环形比对测序模式,UC Davis医学院获得了超过10kb的原始读长,覆盖了CGG重复超过750次的三核苷酸重复区域。 另外一个例子。甲基化研究如今开展得如火如荼。除了人们熟知的5-mC,另一种修饰方式——5-mC的羟基化形式5-hmC也引起人们注意。但现有的测序方法如亚硫酸氢盐测序,无法区分5-mC和5-hmC。若想深入了解5-hmC的生物学功能,必须开发出一种灵敏的测序方法,以揭示它在基因组中的位置。美国芝加哥大学利用第三代单分子SMRT测序技术和5-hmC的选择性化学标记方法来高通量检测5-hmC。通过聚合酶动力学带来的宝贵信息,研究人员可直接检测DNA甲基化,包括N6-甲基腺嘌呤、5-mC和5-hmC。(详细阅读:单分子测序灵敏检测5-hmC, http://www.ebiotrade.com/newsf/2011-11/20111123171704271.htm ) PacBio RS还可对连续的A或者T区域测序,有研究者曾成功的对含有poly A的序列(含111个连续的A)测序。PacBio可以获得动力学信息,因此可以用于研究DNA甲基化等DNA碱基修饰情况。 另外,由于PacBio从样本制备到获得序列信息所需时间非常短(1天),在具有时效性的病原微生物鉴定中(例如生物反恐、流行病爆发监控等)也非常有优势。(详细阅读:利用基因组学来对付疾病爆发 http://www.ebiotrade.com/newsf/2011-11/20111123170930924.htm ) 其他的应用文献,欢迎联系PacBio独家代理商基因有限公司索取。 至此,我们对PacBio第三代单分子测序技术有了更深入的了解。令人期待的技术,更令人期待的是PacBio能更快的升级,尽快将测序成本降低——如他们自己所预测的:到2013年,个人基因组的测序能在15分钟内完成,费用低于1000美元,人人都可以消费得起。。。。。。(访问结束,感谢基因有限公司提供的协助) 后继:另外一个感受,今后的科学研究,除了依靠思维创新,某种程度上拼的就是装备了。。。装备好,用得好(这个还得靠研究人的想法啦),出成果快,文章多,影响力大——面包(经费)就会有的,一切都会有的。。。(循环N次放大,一如PCR)。
个人分类: 测序|3224 次阅读|0 个评论
[转载]把多行文本拼接成用;连接的一行的批处理
ywmucn 2011-11-11 11:06
转自; http://www.jb51.net/article/18092.htm @echo off :: 把多行文本拼接成用;连接的一行 :: nul 不能省略,省略掉就无法运行下去 for /f "tokens=*" %%i in (源文件.txt) do set /p "var=%%i;" nul 目标文件.txt exit 另一种方法: set tmpstr= setlocal enabledelayedexpansion for /f "tokens=*" %%i in (1.txt) do set tmpstr=!tmpstr! %%i echo %tmpstr% pause exit 还有一种不启用变量延迟的方法,能兼容除英文双引号外的所有特殊字符: @echo off :: code by jm 2006-12-14 for /f "delims=" %%i in (1.txt) do call set "var=%%var%%%%i" echo "%var%" pause
个人分类: 脚本|1494 次阅读|0 个评论
如何拼接12Sr rRNA、16S rRNA序列进行系统发育树构建
热度 1 Bearjazz 2011-5-4 11:22
如何拼接 12Sr rRNA 、 16S rRNA 序列进行系统发育树构建 熊荣川 分子系统学经常使用 12Sr rRNA 、 16S rRNA 进行物种系统发育树的构建,分别使用任何一个,信息量都显得较小。因此,在两序列的具有的情况下,最好将两序列拼接然后进行系统发育树构建。 通常, 12Sr rRNA 、 16S rRNA 在线粒体上位置较为接近,但却并非首尾相连,中间隔着一些转运 RNA 基因,加之基因重排因素,导致这些间断序列有较大的差异,尤其是在大尺度的系统发育分析案例中。因此较为科学的方法是,对 12Sr rRNA 、 16S rRNA 分别比对,将比对后的序列进行拼接。拼接方法如下(前提条件是两组序列的物种组成一致) 将 12S 、 16S 序列分别导入 BioEdit ( ) ,使用同样的方法进行序列排序(序列 - 分类 - 按标题),保存序列。 图 1 使用 meg4.0 打开 16S ,在序列第一行顶上第一格点选(图 2 A ),从而选中第一列,按住 shift 键选择最后一列,复制。 A 图 2 然后使用 meg4.0 打开 12S ,在序列第一行最后一个无碱基空白处单击鼠标(图 3 B ),粘贴,拼接就完成了。 B 图 3 由于博客排版问题请下载pdf版本阅读 如何拼接12Sr rRNA、16S rRNA序列进行系统发育树构建.pdf
个人分类: 我的研究|9375 次阅读|2 个评论
我为博士课程考试学的新一代测序技术总结!
热度 5 lry198010 2011-4-12 17:25
我为博士课程考试准备的新一代测序技术总结 (新一代测序技术的序列分析方法及在油菜基因组研究中的应用.docx )!很多地方可能不对或考虑不周到,欢迎大家提出批评意见。
个人分类: 生物信息|5087 次阅读|3 个评论
好笑的事。。千万别让这贴火了。。。
edwina 2010-5-9 20:33
振奮人心:暨南大學意大利東北部校區5月7日正式成立!!!【转】 2010-05-08 14:20:21 东渐于海,西被于流沙,朔南暨,声教讫于四海。百年暨大,育人百年。暨南大學為促進華文教育的全球化,將數千年中華文化帶向全世界,在中國外交部、歐盟中國事務部等多個政府部門的支持下,籌備十年,2010年5月7日,最終在意大利東北部城市威尼斯成立暨南大學威尼斯分校,成為國內首家在外國有分校的大學。 上圖:暨南大學胡軍校長與前來道賀的威尼斯市長托馬斯.阿披實。 上圖:暨南大學威尼斯分校大門 上圖:胡軍校長聘請意大利前水利局局長馬爾克.他信為威尼斯分校校長 上圖:威尼斯分校的學生代表迎接前來拜訪的著名華人首富李嘉誠先生,李嘉誠先生為該分校捐贈8億歐元。 上圖:威尼斯分校內部。靜靜的河水在燈光下流淌著,醉人的夜景。 上圖:宿舍大樓的中央湖畔,湖中的榕樹曾經在廣州本部建陽宿舍長大,後來落戶威尼斯分校,意味著血肉相連。 上圖:一名亞籍學生在河邊高興地捉魚,看他的包包就知道收穫豐富。 上圖:水中嬉戲是學生們的主要課餘活動。 上圖:該校著名的見羊大運河,為連接教學樓與食堂、宿舍大樓之間的重要水路交通樞紐。 上圖:校內風景如畫,很多中國旅客都特別到此一遊拍照留念。 上圖:拜占庭式的教學大樓。學校爲了入鄉隨俗,特別聘請當地著名建築師參與建校。 上圖:學生正乘搭小艇從宿舍大樓前往教學樓。 上圖:來自法國的留學生Benoit是暨大威尼斯分校的調理龍母系大二學生,他稱自己很喜歡暨大,喜歡中國人的和諧,尤其是那種暨大被水包圍的感覺。圖中的他正利用課餘時間勤工助學,為同學撐小艇賺取生活費,有時也會賣艇仔粥。 上圖:統計學專業的學生在上課。 上圖:教學大樓專門用來停泊小艇的地方,可同時容納100多首大中型小艇。 上圖:說到暨大的美食,往往讓人聯想起暨大明湖樓餐廳。威尼斯分校也不例外,明湖樓威尼斯校分店為你提供過百款中式美食,餐廳內環境別致優雅。 上圖:校內的外教衣著充滿異國色彩。 暨南大學威尼斯分校目前積極對外招生,但學生欲入讀該分校,必須參與一項能力的測試:就是能夠在凌晨熟睡如死的時候,應付從四方八面湧來的潮水,以及在潮水退後能夠快速清理現場。 原文链接: http://blog.renren.com/blog/232151351/463570549 校内一牛人~
个人分类: 未分类|3145 次阅读|2 个评论
“每千美元测定一个人的基因组”——您有妙计吗?
biotrader 2008-10-5 11:52
目标:每千美元测定一个人的基因组 一、DNA测序发展综述 1953年Watson和Crick提出DNA双螺旋结构模型以来,随着各种新技术和新理论的不断诞生,人类开始在分子水平上真正揭示生物世界的奥秘,并由被动适应自然界转向主动改造和重组自然界。尤其是自1990年人类基因组计划正式启动,在美国、英国、日本、法国、德国和中国科学家的共同努力下,这项工作在新世纪到来之际提前完成,得到人类全基因组序列,标志着人类已从基因组时代步入后基因组时代。由于人类基因组计划的顺利进行,使得DNA序列数据库的容量呈指数增长,提供了以往不可想象的巨大的生物学信息量。在这些巨量的序列信息基础上,就可以在分子层面上探索人类健康和重大疾病的防治,开展生物技术在各个领域的应用,使人类生存的健康质量和预防疾病的能力发生革命性的飞跃。在这段时期生命科学的迅速进步得益于许多分子生物学新技术的不断涌现,而且很快就被广泛地应用。包括1975年Southern杂交方法的创立;1977年Sanger和Maxam、Gilbert先后发明了两种DNA序列的快速测定法;1980年基因合成仪的发明使核酸的化学合成从手工发展到全自动合成;1985年Cetus公司Mullis等发明的聚合酶链式反应(PCR)的特定核酸序列扩增技术;1992年Affymatrix公司Fodor小组原位合成制备了世界上第一块基因芯片;1995年第一台全自动核酸序列测定仪在ABI公司问世,这些里程碑性质的新技术对分子生物学的发展起到了重大的推动作用。 基因组学的迅速发展加快了DNA分析仪器的系统化和模块化进程,使多层次的基于DNA技术的综合生物学分析成为科研和临床工作的常用工具。尽管目前DNA分析仪器采用的技术原理基本相同,但存在主要设备功能单一,高水平仪器、配套试剂和软件等均来源于进口且费用高于市场平均价数倍等严峻问题。DNA分析平台包括寡核苷酸原位合成、PCR实时定量分析、DNA杂交和DNA测序等基本模块,既可单一模块应用,又可以组合使用。 近年来,随着电子科学与技术的不断进步,生命科学分析仪器也得以飞速的发展。最普遍应用的PCR技术从单一的定性PCR衍生出半定量、定量和实时定量等新的应用技术,相应开发成功了一系列用于高通量、高速的PCR仪以及自动化进行的实时定量PCR仪,而且实验周期从数个小时缩短至20~30分钟,极大提高了工作效率。基因芯片技术由于其高通量的先天优势,被广泛应用于科研工作的前期筛选,特别是原位合成技术的发展使早期仅能在芯片上制备20个碱基长的寡核苷酸发展到可以达到100个碱基长的寡核苷酸,有效的提高了芯片应用上的灵敏度和特异性指标,从而实现更高效的研究目的。DNA序列测定技术发展的更为广阔,Sanger技术的局限性(主要是对电泳分离的依赖和无法再进一步地并行和微量化)造成对高等生物基因组进行序列测定的规模限制和代价高昂,而新的利用酶促扩增和原位监测的基于合成法测序(Sequence by synthesis)的新技术单次运行已经可以达到4Gb的序列读取数量,且单位成本大大降低。以美国科学界和企业界为引领的研发活动有一个既定目标,那就是每千美元测定一个人的基因组。由于总体的技术门槛不高,目前已经有四种新型仪器投放市场,数个不同原理的技术和设备都在研发之中。 国内对于仪器设备的总体研究活动和实力相对偏弱。目前仅在PCR相关和芯片设备方面有所建树,但仍不能达到国际流行先进设备的技术水平。但是,从技术本质考察此类貌似迥异的设备仪器可以发现,其所涉及的技术方向不外乎温度循环控制、微量液流控制、光学信号探测、表面化学工艺、DNA相关的酶促反应以及高容量数据分析处理等几方面。 二、商业测序仪市场比较 国际市场主要为Roche公司(454/ Genome Sequencer FLX System)、Applied Biosystems公司(SOLiD System)和Illmina公司(SOLEXA/Genome Analyzer System)所垄断,加之2008年3月问世的Helicos BioSciences公司的HeliScope单分子测序仪,代表了国际先进的大规模DNA测序系统的技术水平和发展趋势,以下对其功能技术参数和预期成果做一比较。 GS 454 SOLiD SOLEXA HeliScope 单运数据产量 0.1Gb 1.5~3Gb 1.3Gb 7.5Gb 覆盖人基因组 0.1 1 0.5 2.5 平均读长(bp) 250~310 35 32 20~35 样品准备 2天 7天 11小时 未知 2天 运行时间 7.5小时 8天 3天 14天 精确度 99.5% 99.94% 98.5% 99.4% 设备价格 350万元 413万元 301万元 945万元 单次运行价格 14万元 2.38万元 2.1万元 12.6万元 日本滨松光子学株式会社 EMCCD 制造商 500张/秒 http://www.hamamatsu.com/ 三、基于De Bruijn 图的基因拼接 http://www.ebi.ac.uk/~zerbino/velvet/ GPL下的自由基因拼接软件 http://genome.cshlp.org/cgi/content/short/18/5/821 原理文献 四、著名公司 https://www.celera.com/ 测序公司 Knome公司 个人基因组测序 https://www.23andme.com/ google创始人布林的妻子开的测序公司 欢迎各位读者发表能够降低个人DNA测序成本的奇思妙想,或和作者联系, 您的智慧将为全人类的健康做出贡献! MSN:z_yubin AT hotmail DOT com
个人分类: 未分类|6344 次阅读|4 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-16 06:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部