科学网

 找回密码
  注册

tag 标签: PacBio

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

PacBio数据处理中chemistry 组合错误
ljxue 2018-3-17 07:05
运行PacBio的软件时, 有时会得到这样的错误信息“unsupported sequencing chemistry combination ”。 这是由于软件对特定的数据不支持造成的。解决方法如下: 1. 下载补丁包 https://blog.ngsgo.com/archives/2767.html 2. 下载最新的 chemistry文件: https://github.com/PacificBiosciences/pbcore/blob/master/pbcore/chemistry/resources/mapping.xml 改名为chemistry.xml 3. 将2中的文件替换1中的对应文件,并将文件夹上传到服务器。 4. 设置 cd /xxxx/tools/smrtlink/chemistry export SMRT_CHEMISTRY_BUNDLE_DIR=${PWD}
个人分类: Bioinformatics|5213 次阅读|0 个评论
Pacbio Sequel两种bam文件解析
luria 2017-11-21 11:16
pacbio 目前有两种主流的测序平台, RSII 和 Sequel ,后者是前者的升级版。 pacbio sequel 下机是 bam 格式的 reads 文件,它和 reads 比对到参考基因组上生成的 bam 文件,内容有差异,但格式一致。 1. pacbio sequel 下机的 bam 格式 reads 文件 header 部分如下: @HD VN:1.5 SO:unknown pb:3.0.3 @RG ID:ceba59d4 PL:PACBIO DS:READTYPE=SUBREAD;Ipd:CodecV1=ip;PulseWidth:CodecV1=pw; BINDINGKIT=100-862-200 ; SEQUENCINGKIT=100-861-800; BASECALLERVERSION=5.0.0.6236;FRAMERATEHZ=80.000000 PU:m54191_170909_212150 PM:SEQUEL @PG ID:baz2bam PN:baz2bam VN:5.0.0.6236 CL:/opt/pacbio/ppa-5.0.0/bin/baz2bam/data/pa/m54191_170909_212150.baz -o /data/pa/m54191_170909_212150 --metadata/data/pa/.m54191_170909_212150.metadata.xml -j 12 -b 12 --progress --silent--minSubLength 50 --minSnr 3.750000 --adapters /data/pa/m54191_170909_212150.adapters.fasta @PG ID:bazFormat PN:bazformat VN:1.3.0 @PG ID:bazwriter PN:bazwriter VN:5.0.0.6236 # @RG中的DS是describe的意思。BINDINGKIT 和SEQUENCINGKIT 在Pacbio RSII和Pacbio Sequel中不同。PU即platform unit, 是Pacbio moive名,一次moive会用到多个零模波导孔(ZMW),每个ZMW通常会有多条Subreads,多条subreads对应1个CCS(如果测序片段短于ZMW一次能测到的长读,则会产生哑铃型结构,循环来测这一段)。 2. body 部分如下: 第一列 Qname 如下: m54191_170909_212150/4391389/0_5019 # 命名规则如下: {movieName}/{holeNumber}/{qStart}_{qEnd} 注意: 1. 这种未比对的 bam 必须是按第一列排序的。所有来自同一个 ZMW hole 的 subreads 放在一起,且按 qStart 排序,每个 ZMW 再按数字排序。特别是从 subreads bam 文件中随机取 subreads 分析时一定要用 samtools sort -n 处理一下 2. qStart 是从 0 开始的, qEnd – qStart = 第 10 列的碱基序列长度。 第二列是 flag 值: 如果是 Subreads 则全部为 4 表示 read unmapped 。在三代长 reads 比对结果中会出现两种: 0 或 16 第三列是 ref 值: 如果是 Subreads 则全部为 * 第四列是 reads 在参考序列上的位置 如果是 Subreads 则全部为 0 第五列比对质量值 如果是 Subreads 则全部为 255 。 Mapping qulity 的计算方法是: Q=-10log10p , Q 是一个非负值, p 是这个序列来自这个位点的估计值。 假如说一条序列在某个参考序列上找到了两个位点,但是其中一个位点的 Q 明显大于另一个位点的 Q 值,这条序列来源于前一个位点的可能性就比较大。 Q 值的差距越大,这独特性越高 。 第六列是 CIGAR 字符串 如果是 Subreads 则全部为 * 。如果是三代 reads 比对的结果与二代不同,不再用 M 字符(在二代的 bam 中它可以容许错配),三代中采用更为精确的 X( 它表示与 ref 不同 ) 和 =( 它表示与 ref 相同 ) ,如果 CIGAR 中检测到 M 字符 Pacbio software 将会中止运行。 D 表示 deletion , I 表示 insertion 。整个 CIGAR 字符串首尾的 H 和 S 表示硬切和软切( soft-clippedbase ) 第七列是 mate 序列比对到的参考序列的名称 因为三代没有 PE , Subreads bam 和 aligned bam 中全部为 * 第八列是 mate 序列比对到参考序列上的位置 同第七列, Subreads bam 和 aligned bam 全部为 0 第九列为估计出的插入片段长度,当 mate 序列位于本序列上游时该值为负值。 同第七列, Subreads bam 和 aligned bam 全部为 0 第十列为 read 序列 第十一列是 ASCII 码格式的序列质量值 如果是 Subreads 则每个碱基质量值为! 以下各列格式如下 列名简写(两个小写字母):数据类型:数据值 # 数据类型: A: 可打印字符, Z: 可打印字符串, H: Hex 字符, f: 单精度浮点数 第十二列是 cx 列,表示 subread local context LocalContextFlags 对应情况如下: ADAPTER_BEFORE = 1, ADAPTER_AFTER = 2, BARCODE_BEFORE = 4, BARCODE_AFTER = 8, FORWARD_PASS = 16, REVERSE_PASS = 32 因为 pacbio sequel 下机数据已经切除了两边接头,可以不用关心这列 第十三列为 ip 列使用的是 IPD (raw frames or codec V1) 转化过的质量值。 IPD 的转化如下: Frames Encoding 0, 1, ... 63 0, 1, ... 63 64, 66, ... 190 64, 65, ... 127 192, 196, ... 444 128, 129, ... 191 448, 456, ... 952 192, 193, ... 255 即第一个 0-63 直接编码, 63-2*63 每两个值合一, 3*63-4*63 每三个值合一 第十四列为 np 列表示 NumPasses 第十五列为 pw 列表示 PulseWidth 第十六列为 qe 列,表示 query end 第十七列为 qs 列,表示 query start 第十八列为 rq 列,用 编码的期望精确度 第十九列为 sn 列, 4 个 float 数依次表示 ACGT 平均信噪比 第二十列为 zm 列,表示零模波导孔号 第二十一列为 ReadGroup 列 另外可选的有 AS:i? 匹配的得分 XS:i? 第二好的匹配的得分 YS:i? mate 序列匹配的得分 XN:i? 在参考序列上模糊碱基的个数 XM:i? 错配的个数 XO:i? gap open 的个数 XG:i? gap 延伸的个数 NM:i? 经过编辑的序列, read string 转换成 reference string 需要的最少核苷酸 : 插入 / 缺失 / 替换 YF:i? 说明为什么这个序列被过滤的字符串 MD:Z? 代表序列和参考序列错配的字符串 附加参考材料: https://samtools.github.io/hts-specs/SAMv1.pdf http://pacbiofileformats.readthedocs.io/en/3.0/BAM.html https://github.com/PacificBiosciences/PacBioFileFormats/blob/3.0/BAM.rst http://albiorix.bioenv.gu.se:8081/smrtanalysis/doc/bioinformatics-tools/pbsamtools/doc/index.html
个人分类: pacbio|12877 次阅读|0 个评论
岳东晓博士-你看看我让你抄底的股票
热度 11 gaoshannankai 2017-2-6 17:11
2010年我向几个美国朋友推荐了Google,他们都赚了; 2012年我向几个美国朋友推荐了illumina,他们都赚翻了; 其他领域我不敢说,凭我在信息和生命科学的一线工作经验 和对于技术的准确判定,我看好的股票都赚了。 有人问我为什么我不买,我和你说一个原则,推荐的股票 你最好自己不要买。因为我迷信,我信奉很多逻辑,科学网 经常看我博文的老师都知道我有这个迷信。你比如, 我在分析肿瘤数据,有人问我是否研究肿瘤,我说不要这么讲, 因为“用剑杀人者,必被剑杀”,我自己号称研究肿瘤,不好, 肿瘤觉得我太牛逼,哪天弄弄我,就麻烦了。 前几天,我给岳东晓博士推荐了这只股票,我和他说4元左右 可以抄底,结果这个底被我准确预测了,而且有一定成长空间。 算作2017年礼物,让中国和美国的华人朋友赚一笔。 我本人声明,我推荐这只股票,以为我长期研究这个技术的 测序数据,并且完全是科研上的认识。我与这个公司没有任何 关系,不怕任何调查机构调查。 股市有风险,投资要谨慎,各位赔了不要骂我, 赚了可以不感谢我,帮我骂骂鸡鸡萎就算够义气。 这是股票的网站,大家可以随时注意动向 http://www.nasdaq.com/zh/symbol/pacb/stock-chart 大家看我让岳博士抄底的位置,准不准,有我给岳博士留言为证
4049 次阅读|17 个评论
[转载]千年基因购入最新三代测序系统Sequel
macrogencn 2016-3-4 17:54
作为国内唯一一家通过 Pacific Biosciences CSP ( Certified Service Provider )认证的公司,千年基因再次与 Pacific Biosciences 达成合作,购入其最新测序系统 Sequel ,并将致力于为研究人员提供更卓越的三代测序服务! 千年基因早在 2013 年即与 Pacific Biosciences 达成合作,购入两台三代测序系统 PacBio RS II ,目前已积累丰富的项目经验,各项数据指标已达国内最高水平。其中,读长最长可达 50Kb , reads N50 高达 25Kb ,数据产出高达 1.4Gb/SMRT Cell 。 目前,千年基因已在动植物基因组 de novo 测序、细菌基因组完成图、真菌基因组精细图、宏基因组测序、全长转录本测序、扩增产物测序等领域与研究人员建立广泛合作,相关研究成果也已发表。 了解三代测序的应用领域和研究案例: http://www.macrogencn.com/_d277140973.htm 三代测序研究手册独家下载: http://www.macrogencn.com/mod/briefcase/BriefCaseDownLoad.aspx?fid=277131059ip=
1408 次阅读|0 个评论
[转载]千年基因购入最新三代测序系统Sequel
macrogencn 2016-3-4 17:50
作为国内唯一一家通过 Pacific Biosciences CSP ( Certified Service Provider )认证的公司,千年基因再次与 Pacific Biosciences 达成合作,购入其最新测序系统 Sequel ,并将致力于为研究人员提供更卓越的三代测序服务! 千年基因早在 2013 年即与 Pacific Biosciences 达成合作,购入两台三代测序系统 PacBio RS II ,目前已积累丰富的项目经验,各项数据指标已达国内最高水平。其中,读长最长可达 50Kb , reads N50 高达 25Kb ,数据产出高达 1.4Gb/SMRT Cell 。 目前,千年基因已在动植物基因组 de novo 测序、细菌基因组完成图、真菌基因组精细图、宏基因组测序、全长转录本测序、扩增产物测序等领域与研究人员建立广泛合作,相关研究成果也已发表。 了解三代测序的应用领域和研究案例: http://www.macrogencn.com/_d277140973.htm 三代测序研究手册独家下载: http://www.macrogencn.com/mod/briefcase/BriefCaseDownLoad.aspx?fid=277131059ip=
819 次阅读|0 个评论
第三代测序的组装方法(PacBio)
ljxue 2015-12-12 12:14
PacBio最近有不俗的表现,发了些好文章,股价也节节攀升。 作为生物信息学工作者,咱就关注一下PacBio的数据是如何组装的。做些知识储备。 这里有组装策略的总结: https://github.com/PacificBiosciences/Bioinformatics-Training/wiki/Large-Genome-Assembly-with-PacBio-Long-Reads 主要有四种:1)PacBio-only, 2) Hybrid, 3) Gap filling, 和 4) scaffolding。 这主要取决于PacBio 数据的覆盖率。 Hybrid的中庸之道应该是不错的选择。 这里有更多的工具供选择: https://github.com/PacificBiosciences/DevNet/wiki/Compatible-Software 这里是关于Hybrid 方法的更多介绍 http://wgs-assembler.sourceforge.net/wiki/index.php?title=PBcR 理想: 用多种方法,得到多个版本,比较出最好的版本。 现实: 有的方法对内存要求较高,有的运行较慢。 理想怎样照进现实: 模仿。 菠萝基因组的分析是一个不错的例子。 http://www.nature.com/ng/journal/v47/n12/full/ng.3435.html
个人分类: Bioinformatics|6968 次阅读|0 个评论
Nature:PacBio完成耐旱植物Oropetium thomaeum基因组测序
热度 1 alinatingting 2015-12-9 18:49
通常真核生物基因组,尤其是植物基因组,一般具有重复序列比例高、多倍化、高杂合等特点,这使得基因组组装难度大大提高。前期短读长的Sanger和二代测序平台获得的测序reads很难跨越基因组的复杂重复区域,导致组装获得的基因组很片段化,高GC区域或基因间隔重复序列区域不能成功获得,而这些信息在某些大型研究项目,如ENCODE(the Encyclopedia of DNA Elements )等是非常重要的。 本研究采用第三代PacBio单分子实时测序技术,对一种极为耐旱的植物 Oropetium thomaeum ( 有翻译成复活草,欢迎指正提供翻译出处,谢谢 ) 基因组开展了全基因组denovo测序和组装,研究成果于2015年11月11日发表在 Nature 上。 Oropetium thomaeum 基因组大小约245Mb,基于PacBio RS II平台长读长的优势, 组装获得244Mb,即获得>99.6%的基因组序列信息 ; contigs数量仅265个 , contig N50达到2.4Mb 。进一步分析表明, Oropetium thomaeum 基因组是 接近完成级的序列图谱 ,包括 gene space都是无gap的, 尤其是在基因组草图中基本上很难获得的 端粒、着丝粒、转座子元件以及rRNA clusters都是没有gap的 。 Oropetium thomaeum 是草类基因组中最小的基因组,其中43.8%的序列为重复序列,30%多的紧缩在常染色质区域的;另外其基因组包含28466个蛋白编码基因。 一、基因组特点 : Oropetium thomaeum ,虎尾草亚科( Chloridoideae sub- family )、极其耐干旱。 核型:2n = 2x = 18; 基因组大小:1C = 0.25 pg,流式细胞仪预估基因组大小约250Mb;K-mer分析预估基因组大小约245Mb。 二、实验取材 : 1. 植株取自 印度拉贾斯坦邦的焦特布尔( Jodhpur, Rajasthan, India),扩繁。 2. DNA提取: 基于high-salt phenol–chloroform purification方法进行优化 3. RNA提取。 三、测序方案 : 1. DNA PacBio RS II平台测序:P6-C4试剂盒测序,文库insert size为15-20Kb,32个SMRT cells,基因组整体测序深度约 72×。 2. DNA illumina HiSeq平台测序:构建三个不同insert size的文库进行测序:570-bp, 1-kb, 3-kb测序约200X。目的是评估三代组装子的错误率以及基因组的杂合度。 3. DNA Irys system BioNano测序: 构建基因组图谱,目的是对contigs进行anchoring和scaffolding: Irys system 测序获 53 Gb data(>100Kb),基因组覆盖度约200X,molecule N50为169Kb。 4. RNA illumina HiSeq平台测序。 a. Histogram of length distribution of raw P6C4 chemistry PacBio reads. The mean read length of the raw reads is 12,872 bp, and the N50 is 16,485 bp . b. Genome size estimation using k -mer distribution. K -mer distribution of unassembled Oropetium Illumina WGS reads. K -mer frequency displays a unimodal curve indicating a low rate of heterozygosity (0.087%) in the Oropetium genome. Frequency distribution suggests a genome size of ~245Mb, consistent with flow-cytometry-based estimations. 四、基因组 de novo 组装 : 1. 基因组 de novo 组装:RS_HGAP_Assembly.3 protocol C. SMRT sequencing raw read, preassembly and assembly statistics. The distribution of the contig N50 length ( d ) and scaffold N50 length (e ) of all published plant genomes is plotted. The average contig N50 length for published plant genomes is ~50 kb compared to 2.4 Mb for Oropetium . 2. 基因组polishing:BLASR v1; Quiver in SMRT Analysis v2.3.0; 3. 其他软件 de novo 组装:Falcon和MHAP;三个不同组装软件获得的组装子进行比较分析,发现Falcon和MHAP组装子中序列连续性较低,获得着丝粒和端粒区域其平均长度较短。 i. Comparison of HGAP, Falcon and MHAP PacBio assemblers. 4. Irys system构建基因组图谱,对contigs进行anchoring和scaffolding: Irys system 测序获 53 Gb data(>100Kb),基因组覆盖度约200X,molecule N50为169Kb。将Irys 数据基于不同的严格程度的参数组装获得两套图谱: map set 1 has 402 maps with an N50 length of 725kb and spans 216Mb; map set 2 has 214 maps and an N50 of 1.674Mb. 将上述两个map sets和PacBio assembly一起进行拼接,获得a hybrid scaffold,共获得535个scaffolds,scaffold N50为7.1MB,最终组装子大小为244MB。 Assembly improvement using a Bio Nano-based genome map from the Irys system. a, Distribution of molecule size for raw single molecule genome mapping data. Size of single molecules in nanochannel arrays is plotted. b, Integration of the genome map with the genome assembly. Overlap between the PacBio-based contigs and the genome map. Each line shows a single PacBio contig in green; genome maps are shown in light blue. 5. 将illumina short reads比对回最终的assembly上验证最终组装子的准确性、评估杂合度: 5.1. 比对软件: BWA mem (v. 0.7.12-r1039) 5.2. Duplicate alignments: Picard tools v.1.104 MarkDuplicates ( http://broadinstitute.github.io/picard/) 5.3. Call variants: GATK HaplotypeCaller和Genome Analysis Toolkit (v.3.3.0) IndelRealigner。 h , Estimated accuracy of SMRT PacBio assembly and within-genome heterozygosity. 6. 重复序列注释:REPET v.2.2 packages TEdenovo and TEannot 7. 着丝粒和端粒序列分析:Tandem repeat finder (TRF, Version 4.07b) 8. 转录组数据组装及分析:Trinity (v.r20140717)转录组de novo组装, NCBI blastn v.2.2.30+ 比对至最终的组装子上。 9. 基因注释: Maker v2.31.8 ( http://www.yandell-lab.org/software/maker.html ) 。 10. 共线性和基因组比较分析: large-scale alignment tool (LAST) Genome data sets from Setaria, Sorghum, rice and Brachypodium were downloaded from Phytozome (version 9.1) and subject to pairwise genome alignments against the Oropetium genome。 11. 构建基因互作网络图:基于 Oropetium基因组中基因和拟南芥基因的同源关系构建基因互作网络图,结果显示 4,421 nodes (gene products) with 36,918 edges (interactions)。这个互作网络图涵盖了 Oropetium基因组中绝大部分的代谢通路信息,如光合作用、重要的合成及分解代谢过程以及胁迫条件应答相关的代谢通路信息。 附作者信息: Robert VanBuren *, Donald Danforth PlantScience Center, St Louis, Missouri 63132, USA. Doug Bryant *, Donald DanforthPlant Science Center, St Louis, Missouri 63132, USA. Patrick P. Edger , Departmentof Plant and Microbial Biology, University of California Berkeley, Berkeley,California 94720, USA. Departmentof Horticulture, Michigan State University, East Lansing, Michigan 48823, USA. Haibao Tang , iPlant Collaborative,School of Plant Sciences, University of Arizona, Tucson, Arizona 85721, USA. Diane Burgess , Department of Plantand Microbial Biology, University of California Berkeley, Berkeley, California94720, USA. Dinakar Challabathula †, IMBIO, University of Bonn, Kirschallee 1, D-53115 Bonn, Germany. Kristi Spittle , Pacific Biosciences,Menlo Park, California 94025, USA. Richard hall , Pacific Biosciences,Menlo Park, California 94025, USA. Jenny Gu , Pacific Biosciences,Menlo Park, California 94025, USA. Eric Lyons , iPlant Collaborative,School of Plant Sciences, University of Arizona, Tucson, Arizona 85721, USA. Michael Freeling , Department of Plantand Microbial Biology, University of California Berkeley, Berkeley, California94720, USA. Dorothea Bartels , IMBIO, University ofBonn, Kirschallee 1, D-53115 Bonn, Germany. Boudewijn ten hallers , BioNano Genomics, SanDiego, California 92121, USA. Alex hastie, BioNano Genomics, SanDiego, California 92121, USA. Todd P. Michael , Ibis Biosciences, Carlsbad, Todd C. Mockle r, Donald Danforth PlantScience Center, St Louis, Missouri 63132, USA. *These authors contributed equally to this work. 文献下载: Single-molecule sequencing of the desiccation-tolerant grass Oropetium thomaeum.pdf SI下载: SI-Single-molecule sequencing of the desiccation-tolerant grass Oropetium thomaeum.pdf ttwu@macrogencn.com
个人分类: 植物基因组测序研究进展|14108 次阅读|2 个评论
PNAS:PacBio平台完成扁形虫基因组测序,揭秘不老神话
alinatingting 2015-12-4 15:54
高质量的全基因组组装结果和转录组注释信息(可以获得更全面的功能基因信息),对任何模式生物的充分研究和利用是非常重要的。今天要详细解析的是 Macrostomum lignano 这种扁形虫的基因组和转录组研究工作,这种扁形虫很奇妙,可以在切断之后,能够几乎完整地再生,即将一条扁形虫切成 10 段,可以获得 10 个几近完全一样的虫子来。希望可以通过解析扁形虫的基因组和转录组序列信息,能够揭秘其独特的再生机制,从而为干细胞的自我更新、再生和分化等研究奠定扎实的基础。 本研究由冷泉港实验室的Gregory J. Hannon( ku.ca.mac.kurc@nonnah.gerg )和Michael Schatz( ude.lhsc@ztahcsm )研究大牛领衔开展,于2015年10约6日发表在 PNAS 上。 一、Macrostomum lignano 扁形虫及基因组特点 : 冠轮动物,雌雄同体。 独特的生物学特点:受伤时可再生;饥饿时可减缓生长。 2n=8 ; 基因大小: ~700Mb ; 基因组特点: 75% 的序列为简单重复序列和转座子序列。 二、实验与材料: 测序品系 : Macrostomum lignano DV1 line ,经 35 代同胞杂交;一直培养在富含营养的 f/2 培养基中,气温 20 ℃ 、湿度 60% 、光周期 14/10h day/night 循环;菱形藻( Nitzschia curvilineata )喂食。 再生实验 :切断位置为后咽后,为确保完全去除性腺组织。后咽前一部分放在上述条件下喂养;分别在切割后的 0h,3h, 6h, 12h, 24h, 48h 和 72h 搜集扁形虫,共搜集获得 100 条扁形虫。 三、基因组测序 : HiSeq 平台测序:构建 180bp shotgun 文库经 HiSeq 2000 100PE 测序 170X 。 PacBio 测序:文库大小 10Kb , PacBio RS II 平台 P4C2 或 P5C3 试剂盒测序 ~130X ,经过错误校正后其中大于 10Kb 的 reads 覆盖 21X 。 四、RNA 测序 : a. 整条虫子转录组测序, 200-400 条扁形虫, TRIzol(Ambion) 提取总 RNA ;分别构建了三个不同类型的文库: 第一个文库是用总 RNA 构建的; 第二个文库是基于 rRNA-depleted RNA (Ribo-Gold Epibio) 构建的; 第三个文库是基于 polyA-selected RNA (Poly(A)Purist MAG kit, Life Technologies) 构建的 b. 关于再生这块的 RNA 文库构建,是采用 Encore Complete RNA-Seq DR Multiplex System ( PCR-free )构建的,共构建了两个文库。 上述文库通过 HiSeq 2000 101PE 测序完成。 五、小 RNA 测序 : 文章没有详细介绍这部分实验,但在分析环节提到了。 六、甲基化测序 :使用 Zymo EZmethylation gold kit 进行亚硫酸氢钠转化, illumina 平台测序。 七、信息分析内容 : 1. 转录组 de novo 组装及注释 : 1 ) Trinity package denovo 组装; The libraries included in the assembly were: total RNA prepared from 100 worms, polyA- selected RNA, ribo-depleted RNA (see above). 2 )转录本 denovo 注释: 先和数据库 SwissProt 和 Uniref90 (是全球蛋白数据库 UniProt 的组成部分)数据库进行 blast ; 然后用 HMMER v3.1b2 ( http://hmmer.janelia.org/ ) 中的 Pfam-A hmm 进行分析; 将上述分析结果下载到一个 sqlite database 中,最后通过 Trinotate pipeline 分析。 3 )转录组差异表达分析:将不同再生时间节点的转录本序列信息分别比对至上述转录组组装结果上进行差异表达分析,比对软件为 RSEM (Li and Dewey 2011) ;差异表达分析软件为 DESEq ( false-discovery rate ≤ 0.001, with aminimum fourfold change ) 2. 基因组 de novo 组装和注释 : 1 )二代数据拼接:针对 HiSeq 数据( 115X )进行 denovo 组装,组装软件为: SGA (github https://github.com/jts/sga );仅保留长度 ≥200bp 以上的 contigs (基于左右端 reads 长度加起来已有 200bp 为考虑),此为 ML1 组装结果。如下图: Thefirst assembly draft, the ML1 assembly, had a very unusual four-modal K-mer distribution (Fig. 2A), suggesting a high frequency ofgenomic duplications (peaks 3 and 4). 图中表明基因组重复序列比例很高(见 peak3 和 peak4 ),基于上述数据尝试组装获得 ML1 版本,非常片段化, contig 平均长度仅 532bp ; contig N50 仅 222bp ,最大的 contig 长度仅 144 Kbp 。 2 )三代数据拼接:针对 PacBio 数据,采用 HGAP ( https://github.com/PacificBiosciences/HBAR-DTK ) 进行校正,仅长度大于 10Kb 的 reads 用于校正中;数据校正之后,采用 Celera Assembler v8.2beta 进行组装获得 ML2 组装结果。采用 PacBio RS II reads 组装结果 ML2 长度大大提升(详见下图),包括从 contig N50 从 222bp 提升至 64Kb ,最长的 contig 长度从 144Kb 提升至 627Kb 。下图是 ML1 和 ML2 结果比较: Contig length distribution (log 2 scale) over the M. lignano genome in the ML1 (green) and ML2 (red) assemblies. Note that the ML1 assembly covers only about 55% of the genome . 3 )随机抽取 ML1 组装结果中的 81665 contigs (约占 ML1 的 10% )通过 Mummer v. 3.23 比对至 ML2 组装结果上,获得 per-base identity 的结果报告。 4 ) NR 数据库比对以去除其他物种(如硅藻等)的序列,仅 e-value 值为 1e-10 及以下的 contigs 予以保留。结果再通过 LIS algorithm 进行过滤。数据库比对结果发现扁形虫中的序列比对至 Caenorhabditis remanei 线虫的是最多的,表明扁形虫有和其他虫类等同源的基因。 5 )基因组注释: a. CEGMA 评估 gene space , 248 个保守的真核基因中, 232 (93.55%) 全部比对、 246 (99.19%) 部分比对至扁形虫的基因组组装结果中,表明组装结果中 gene space 是很好的,但是组装子中的非编码区段很片段化,这可能是因基因组中高频率的 low-complexity and tandem repeats 所导致的。 b. 采用 Maker v2.31.8 (Dec 2014) 进行功能基因注释。 6 )基因组组装结果验证: BAC 文库构建及测序 构建 BAC 文库获得 60,000 BACs ( insert size ~20Kb )和 60,000 BACs ( insert size of ~50Kb ) ,HiSeq 2000 100PE 测序,去除比对至 BAC backbone 和大肠杆菌的序列,余下的序列通过 Bowtie 2 (v2.2.3) 比对至 ML2 组装结果上。 4. 转座子序列分析 : 采用 RepeatScout version 1.0.5 分别对 ML1 和 ML2 组装结果进行分析。仅将在基因组中出现 10 次以上的重复序列用于后续分析。然后重复序列注释 a custom non-redundant library fromNCBI entries (keywords: retrotransposon, transposase, reverse transcriptase,gypsy, copia) obtained from O. Simakov and colleagues. 5. 序列复杂度分析 Sequence Complexity Analysis ; 6. 评估 CpG content ; 7. 甲基化测序 reads 分析 :将甲基化测序 reads mapping 到 ML2 组装结果上。 更多信息请查看文献: Genome and transcriptome of the regeneration-competent flatworm, Macrostomum lignano.pdf 下载SI信息: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4603488/ 。 附作者信息: Kaja Wasik , a, 1 James Gurtowski , a, 1 Xin Zhou , a, b Olivia Mendivil Ramos , a M. Joaquina Delás , a, c Giorgia Battistoni , a, c Osama El Demerdash , a Ilaria Falciatori , a, c Dita B. Vizoso , d Andrew D. Smith , e Peter Ladurner , f Lukas Schärer , d W. Richard McCombie , a Gregory J. Hannon , a, c, 2 and Michael Schatz a, 2 a Watson School of Biological Sciences, Cold Spring Harbor Laboratory, Cold Spring Harbor, NY, 11724; b Molecular and Cellular Biology Graduate Program, Stony Brook University, NY, 11794; c Cancer Research UK Cambridge Institute, University of Cambridge, Cambridge CB2 0RE, United Kingdom; d Department of Evolutionary Biology, Zoological Institute, University of Basel, 4051 Basel, Switzerland; e Department of Molecular and Computational Biology, University of Southern California, Los Angeles, CA, 90089; f Department of Evolutionary Biology, Institute of Zoology and Center for Molecular Biosciences Innsbruck, University of Innsbruck, A-6020 Innsbruck, Austria 2 To whom correspondence may be addressed. Email: ku.ca.mac.kurc@nonnah.gerg or ; Email: ude.lhsc@ztahcsm . Contributed by Gregory J. Hannon, August 23, 2015 (sent for review June 25, 2015; reviewed by Ian Korf and Robert E. Steele)
个人分类: 动物基因组测序研究进展|6786 次阅读|0 个评论
三代测序火热促销,还可免费提供个人基因组测序
alinatingting 2015-5-5 18:16
自 2014 年率先升级 PacBio RS II 最新试剂 P6-C4 以来,千年基因在国内已与中国科学院、中国农业科学院、北京大学、中国农业大学、四川大学、中南大学、中山大学、华南农业大学、南京农业大学、西北农林科技大学、陕西师范大学、广州医科大学等单位合作开展大量三代测序项目。通过项目经验的积累及严格的质量控制,千年基因目前每个 SMRT Cell 的数据量高达 1.2Gb ,测序读长高达 42Kb , reads N50 高达 18Kb ,远超 PacBio 官方提供的数据标准!在数据质量方面,与二代测序自身的系统误差相比,三代测序的碱基错误来源于随机误差,因此可通过提高覆盖度来显著提升碱基准确度。当序列覆盖度达到 30X 时,碱基准确度已超过 99.999% ( QV50 ),整体准确度已明显超过二代测序。 为了让更多研究人员体验我们高质量的三代测序服务, 千年基因将从 5 月 1 日起对 PacBio RS II 测序进行史无前例的低价促销。同时,为感谢大家一直以来对我们的支持与信任,在本次活动中签订项目额达 50 万元的合作伙伴,还可免费为其提供 HiSeq X Ten 个人基因组测序 ! 本次促销活动仅限 49 个名额,如欲订购,请速联系! 自 千年基因官网 。
个人分类: 公司资讯|2933 次阅读|0 个评论
PacBio RS II测序中DNA质量对测序读长的影响
alinatingting 2015-4-2 15:09
虽然这全程是 Amplicon Express 公司的秀场,但从DNA样本要求等根本上问题来看,还是蛮值得推荐给老师们参阅的。 基于目前PacBio RS II平台在国内认可度的大势提高,关于DNA样本准备问题也是老师们首先会问及和关注的,在此将 Pacific Science 联合 Amplicon Express 公司的实验数据,将PacBio RS II测序过程中DNA质量对测序读长的影响等内容分享如下: 1. DNA质量影响文库构建质量,DNA质量越好,相应地就能够构建的insert size越大的文库;且在文库构建环节片段化现象就越不容易产生,反之则文库中DNA片段化现象相对较严重; 2. DNA质量影响测序读长的分布,DNA质量越好,测序reads就相对越长。 DNA Quality Impacts PacBio Sequencing.pdf
个人分类: NGS资料|3902 次阅读|0 个评论
关于PacBio RS II reads analysis名词释义(三)
alinatingting 2015-3-25 11:32
针对老师们问到的三代数据分析中的一些问题, 今天主要针对基本信息分析中的测序数据统计、质量QC评估,data summary等, 结合项目案例解释如 下: General - Filtering Report * Polymerase Read Bases : The number of bases in the polymerase read. 即测序获得所有数据量,包含adaptors序列。 * Polymerase Reads : The number of polymerases generating high quality reads. Polymerase reads are trimmed to the high quality region and include bases from adaptors, as well as potentially multiple passes around a circular template. 即高质量测序reads,包含adaptors以及测多次获得multiple subreads。 * Polymerase Read N50 : 50% of all polymerase reads are longer than this value. 测序reads中,50%的reads长度大于N50这个值。 * Polymerase Read Length : The mean trimmed read length of all polymerase reads. The value includes bases from adaptors as well as multiple passes around a circular template. 测序reads的平均长度, 包含adaptors以及multiple subreads。 * Polymerase Read Quality : The mean single-pass read quality of all polymerase reads. 测序reads中, single-pass read 平均 质量值 。 * Post-Filter Polymerase Read Bases : The number of bases in the polymerase reads after filtering, including adaptors. 测序reads过滤后所包含的碱基数, 包含adaptors 以及multiple subreads 。 * Post-Filter Polymerase Reads : The number of polymerases generating trimmed reads after filtering. Polymerase reads include bases from adaptors and multiple passes around a circular template. 过滤后测序reads数,过滤后reads中 包含adaptors 以及multiple subreads 。 * Post-Filter Polymerase Read Length : The mean trimmed read length of all polymerase reads after filtering. The value includes bases from adaptors as well as multiple passes around a circular template. 过滤后测序reads的平均长度,过滤后reads中 包含adaptors 以及multiple subreads 。 * Post-Filter Polymerase Read Quality : The mean single-pass read quality of all polymerase reads after filtering. 过滤后测序reads中, single-pass read 平均 质量值 。 附其他输出报告中的名词释义 : Diagnostic - Adapters Report Adapter Dimers (%) : The % of pre-filter ZMWs which have observed inserts of 0-10bp. These are likely adapter dimers. 接头二聚体(%): 测序reads过滤前,其中0-10bp的序列,极有可能为接头二聚体。 Short Inserts (%) : The % of pre-filter ZMWs which have observed inserts of 11-100bp. These are likely short fragment contamination. 短的插入片段(%): 测序reads过滤前,其中11-100bp的序列,极有可能为短的污染序列。 Diagnostic - Spike-In Control Report Control Sequence : The name of the control sequence. 对照序列/样本的信息。 Control Reads (%) : The percent of post-filter polymerase reads that are from the control sample. The formula for this is: (total # of control reads)/(total # of post-filter reads). 测序reads过滤后,control reads所占过滤后reads的比例。计算公式为: (total # of control reads)/(total # of post-filter reads). Control Polymerase Read Length : The mean mapped read length of the polymerase reads from the control sample. 对照样品测序reads中,可比对上的reads的平均长度。 Control Reads : The total number of polymerase reads from the control sample that passed filtering. 经过滤后,对照样本中总的测序reads数。 Control Subread Accuracy : The mean single-pass accuracy of the mapped polymerase reads from the control sample. 对照样本中,可比对上的测序reads的平均 single-pass准确性。 Control Polymerase Read Length 95% : The 95th percentile of mapped read length of the polymerase reads from the control sample. 对照样本中,比对率在95%的reads长度。 Diagnostic - Loading Report SMRT Cell ID : ID number of the SMRT Cell(s) used in this run. 此次运行中,SMRT Cell (s)的ID号。 Productive ZMWs : The number of ZMWs for this SMRT Cell that produced results with Productivity = 1. 此测序SMRT cell中,零膜波导孔测序产生的序列结果,且聚合酶填充率 Productivity = 1。 Productivity 0 (%) : Percentage of ZMWs that are empty, with no polymerase. 零膜波导孔没有被聚合酶填充,是空的。 Productivity 1 (%) : Percentage of ZMWs that are productive and sequencing. 零膜波导孔被聚合酶填充满,可开展测序。 Productivity 2 (%) : Percentage of ZMWs that are not P0 (empty) or P1 (productive). This may occur for a variety of reasons and the sequence data is not usable. 零膜波导孔填充值既不是 P0 (empty) 也不是 P1 (productive)。这可能是由多方面的原因导致的、且测序数据不可用。 Resequencing - Coverage Report Coverage : The mean depth of coverage across the reference sequence. 总测序数据量相对参考基因组序列的平均覆盖度(平均测序深度)。 Missing Bases (%) : The percentage of the reference sequence that has zero coverage. 参考基因组序列中完全没有被覆盖到的区域,即该区域测序深度为0。 Resequencing - Mapping Report Post-Filter Reads : The number of reads that passed filtering. 过滤后的reads数。 Mapped Reads : The number of post-filter reads that mapped to the reference sequence. 过滤后的reads中,可比对至参考基因组序列上的reads数。 Mapped Subreads : The number of post-filter subreads that mapped to the reference sequence. 过滤后获得的subreads中, 可比对至参考基因组序列上的 subreads 数。 Mapped CCS Reads : The number of post-filter CCS reads that mapped to the reference sequence. CCS即为consensus sequence,由来自同一个ZMWs的subreads比对获得。 这里是指过滤后,可比对至参考基因组序列上的CCS序列数。 Mapped Subread Bases : The number of post-filter bases from all subreads that mapped to the reference sequence. This does not include adapters. 过滤后,可比对至参考基因组序列上的subreads的总碱基数。这里不包含adapters。 Mapped CCS Read Bases : The number of post-filter CCS read bases that mapped to the reference sequence. This does not include adapters. 过滤后,可比对至参考基因组序列上的CCS的总碱基数。 这里不包含adapters。 Mapped Subread Accuracy : The mean accuracy of post-filter subreads that mapped to the reference sequence. 过滤后,可 比对至参考基因组序列上的subreads的平均准确性。 Mapped CCS Read Accuracy : The mean accuracy of post-filter CCS reads that mapped to the reference sequence. 过滤后,可比对至参考基因组序列上的CCS的 平均准确性。 Mapped Subread Length : The mean read length of post-filter subreads that mapped to the reference sequence. This does not include adapters. 过滤后,可 比对至参考基因组序列上的subreads的平均长度。 这里不包含adapters。 Mapped Read Length of Insert : The mean read length of all insert sequences, which includes only mapped sequences. The read length of insert is approximately the longest subread length per ZMW. 过滤后,可比对至参考基因组序列上的所有插入片段的平均长度。在同一个ZMW中,插入片段的长度大约是该ZMW中最长的subread的长度。 Mapped Polymerase Read Length : The mean read length of post-filter polymerase reads that mapped to the reference sequence. This includes adapters. 过滤后,可比对至参考基因组序列上的测序reads的长度, Polymerase Read是包含adapters的。 Mapped Polymerase Read Length 95% : The 95th percentile of read length of post-filter polymerase reads that mapped to the reference sequence. 过滤后,可 比对至参考基因组序列上, 比对 率在95%的 polymerase reads的 长度。 Mapped Polymerase Read Length Max : The maximum read length of post-filter polymerase reads that mapped to the reference sequence. 过滤后,可 比对至参考基因组序列上的最长的 polymerase reads的 长度。 Mapped Full Subread Length : The average of the lengths of full subreads that mapped to the reference sequence. Full subreads are subreads flanked by two adapters. 过滤后, 可 比对至参考基因组序列上的 full subreads的平均长度。 full subreads两侧均包含adapter。 Analysis - Variants Report Reference : The name of the reference sequence. Reference Length : The length of the reference sequence. Bases Called (%) : The percentage of reference sequence that has ≥ 1x coverage. % Bases Called + % Missing Bases should equal 100. Consensus Accuracy : The accuracy of the consensus sequence compared to the reference. Base Coverage : The mean depth of coverage across the reference sequence. Analysis - Top Variants Report Sequence : The name of the reference sequence. Position : The position of the variant along the reference sequence. Variant : The variant position, type, and affected nucleotide. Type : The variant type: Insertion, Deletion, or Substitution. Coverage : The coverage at position. Confidence : The confidence of the variant call. Genotype : Includes the full number of chromosomes (diploid) or half the number (haploid). Assembly - Iterations Report Assembly Iterations : The number of iterations of overlap-layout-consensus performed by the de novo or hybrid assembly algorithm. Assembly - Draft Assembly Report Draft Contigs : The number of contigs output by Celera Assembler, which may include singleton and degenerate contigs. After assembly polishing with Quiver, the final number of contigs may be smaller. N50 Contig Length : The length L of the contig for which 50% of all bases in the final contigs are of length greater than L. Reads Assembled (%) : The fraction of all reads that are assembled into contigs in the final assembly. Max Contig Length : The length of the longest contig in the final assembly. Sum of Contig Lengths : The sum of the lengths of all contigs in the final assembly. Hybrid Assembly - Assembly Iterations Report Input Contigs : The number of contigs used as input to the AHA algorithm. Min Align Score : The minimum alignment score between a read and a contig to use the alignment for scaffolding. Min Link Redundancy : The minimum number of reads that must link two contigs for those contigs to be connected in a scaffold. Min Subread Length : The minimum length required for a subread to be used by the AHA algorithm. Min Contig Length : The minimum length required for a contig to be used by the AHA algorithm. Scaffolds Across Assembly Iterations : The number of scaffolds at a particular iteration of the AHA algorithm. Linking Reads Across Assembly Iterations : The number of linking reads at a particular iteration of the AHA algorithm. Hybrid Assembly - Final Assembly Report Number : The number of scaffolds, contigs, or gaps in the initial or final assembly. Max Length : The length of the longest scaffold, contig, or gap in the initial or final assembly. N50 Length : The length L of the scaffold, contig, or gap for which 50% of all bases in the initial/final scaffold/contig/gap are of length greater than L. Sum Length : The sum of the lengths of all scaffolds, contigs, or gaps in the initial or final assembly. Initial Scaffolds : The distribution of the lengths of the scaffolds sequences before completing the AHA algorithm. Scaffolds are composed of contigs optionally separated by gap sequences. Final Scaffolds : The distribution of the lengths of the scaffolds sequences after completing the AHA algorithm. Scaffolds are composed of contigs optionally separated by gap sequences. Initial Contigs : The distribution of the lengths of the contig sequences before completing the AHA algorithm. Contigs are stretches of continuous sequence that do not contain gaps. Final Contigs : The distribution of the lengths of the contig sequences after completing the AHA algorithm. Contigs are stretches of continuous sequence that do not contain gaps. Initial Gaps : The distribution of the lengths of the gaps between contig sequences before completing the AHA algorithm. Final Gaps : The distribution of the lengths of the gaps between contig sequences after completing the AHA algorithm. Base Modifications - Motifs Report Motif : The nucleotide sequence of the methyltransferase recognition motif, using the standard IUPAC nucleotide alphabet. Modified Position : The position within the motif that is modified. The first base is 1. Example: The modified adenine in GATC is at position 2. Modification Type : The type of chemical modification most commonly identified at that motif. These are: 6mA, 4mC, 5mC, or modified_base (modification not recognized by the software.) % Motifs Detected : The percentage of times that this motif was detected as modified across the entire genome. # Of Motifs Detected : The number of times that this motif was detected as modified across the entire genome. # Of Motifs In Genome : The number of times this motif occurs in the genome. Mean Modification QV : The mean modification QV for all instances where this motif was detected as modified. Mean Motif Coverage : The mean coverage for all instances where this motif was detected as modified. Partner Motif : For motifs that are not self-palindromic, this is the complementary sequence. Assembly - Pre-Assembly Report Seed Bases : The number of bases from seed reads. Pre-Assembled Yield : The percentage of seed read bases that were successfully aligned to generate pre-assembled reads. Pre-Assembled Read Length : The average length of the pre-assembled reads. Length Cutoff : Reads with lengths greater than the length cutoff are used as seed reads for pre-assembly. Pre-Assembled Bases : The number of bases in the pre-assembled reads. Pre-Assembled Reads : The number of reads output by the pre-assembler. Pre-assembled reads are very long, highly accurate reads that can be used as input to a de novo assembler. Pre-Assembled N50 : The N50 read length of the pre-assembled reads. 待继续更新。
个人分类: PacBio RS II平台数据分析|16667 次阅读|0 个评论
[转载]关于PacBio RS II reads analysis名词释义(二)
alinatingting 2015-3-25 10:01
SMRT ® Portal Help Pacific Biosciences Terminology General Terminology Adapters : Hairpin loops that are ligated to both ends of the double stranded DNA insert. When adapter sequences are removed, the read is split into multiple subreads . 即类似发夹结构的SMRT bell adapters,在文库构建时需要连接至双链DNA模板的平末端。去除adapters后,所获得即为 multiple subreads。 Movie : Real-time observation of a SMRT Cell. 即测序一个SMRT cell实时观察时长。 Read : A contiguous sequence generated from a ZMW that includes an insert sequence and may include an adapter sequence. A read is composed of alternating subreads and adapters. 指从零膜波导孔测序获得的连续的序列,其包含insert DNA序列(靶序列,即subreads)、接头序列。 Sequencing ZMW : A ZMW that is expected to be able to produce a sequence if it is populated with a polymerase. ZMWs used for automated SMRT Cell alignment are not considered sequencing ZMWs. 零膜波导孔中被聚合酶填满,可以测序获得read,即为可测序零膜波导孔。 Subread : Sequence generated by splitting the raw sequence from a ZMW by the adapters. This is the post-sequencing version of the “insert DNA” used in sample preparation. 即 insert DNA序列, 靶序列。 Zero-Mode Waveguide (ZMW) : A nanophotonic device for confining light to a small observation volume that can be, for example, a small hole in a conductive layer whose diameter is too small to permit the propagation of light in the wavelength range used for detection. 即零膜波导孔。 Primary Analysis Terminology Adapter Screening : Annotates adapter read locations. Used to break a read into subreads during secondary analysis mapping and Circular Consensus. 鉴定adapter的位置。在标准分析比对和 Circular Consensus分析中,将每条read的adapter去除获得subreads。 High Quality Region Screening : Annotates the high quality sequencing regions of a read to be used during Raw Read Trimming. 在 Raw Read Trimming环节,鉴别每条read的高质量测序区域。 Insert Screening : Annotates insert DNA regions in the raw read. 在raw read中鉴别哪段序列为insert DNA。 Quality Value Assignment : A prediction of the error probability of a basecall. 评估每个碱基的质量。 Quality Value (QV) : The total probability that the basecall is an insertion or substitution or is preceded by a deletion. QV = -10 * log10(p) Insertion QV : The probability that the basecall is an insertion with respect to the true sequence. Deletion QV : The probability that a deletion error occurred before the current base. Substitution QV : The probability that the basecall is a substitution. Raw Read Trimming : Extraction of high quality regions from a raw read. This results in a read. Read Quality Assignment : A trained prediction of a read’s mapped accuracy based on its pulse and base file characteristics (peak signal-to-noise ratio, average base QV, interpulse duration, and so on). This is used during secondary analysis filtering. Secondary Analysis Terminology Consensus : Generation of a consensus sequence from multiple-sequence alignment. De Novo Assembly : Assembly of all subreads without a reference sequence. Filtering : Removes reads that do not meet the Read Quality and Read length parameters set by the user. The current default filtering parameters defined by Pacific Biosciences are: Read Quality ≥ .75 (as of SMRT Analysis v1.3.1) Read length ≥ 50 bases Mapping : Local alignment of a read or subread to a reference sequence. Accuracy Terminology Circular Consensus Accuracy : Accuracy of the circular consensus read. Consensus Accuracy : Accuracy of the consensus sequence compared to the reference. Read Quality : A trained prediction of a read’s mapped accuracy based on its pulse and base file characteristics (peak signal-to-noise ratio, average base QV, interpulse duration, and so on). Single Molecule Raw Accuracy : Accuracy based on one pass on one single molecule. Subread Accuracy : The post-mapping accuracy of the basecalls. Formula: , where errors = number of deletions + insertions + substitutions. Read Terminology De Novo Circular Consensus (CCS) Read : The consensus sequence produced from the alignment of subreads taken from a single ZMW. This is not aligned against a reference sequence. Raw Read : All base calls from a ZMW. Includes insert DNA and adapter sequence. Single Molecule Variant Detection (SMVD) Read : The consensus sequence produced using all subreads taken from a single ZMW and aligned to a known reference sequence. (This was formerly known as RCCS .) Read Length Terminology Mapped Read length : The distance between the first aligned base and the last aligned base in a raw read, inclusive of insert and adapter alignments. Mapped Subread Read length : The length of the subread alignment to a target reference sequence. This does not include the adapter sequence. Read length : The total number of bases produced from a ZMW after trimming. This may include the adapter sequence.
个人分类: PacBio RS II平台数据分析|4626 次阅读|0 个评论
[转载]关于PacBio RS II reads analysis(一)
alinatingting 2015-3-25 09:50
SMRT ® Portal Help What is SMRT Portal and how do I use it? Use SMRT Portal to perform secondary analysis of sequencing data generated by one or more PacBio System runs. You create and submit jobs . Jobs specify the SMRT Cells whose data will be analyzed, as well as which analysis protocols to use. After the job has completed, you then view the secondary analysis data generated. Working with SMRT Portal Create and submit a job. View the secondary analysis data generated. Create a hybrid assembly using high-confidence contigs. Open , monitor , or delete jobs. Export metrics and table data. Change your password and restore table settings Reports generated by SMRT Portal SMRT Portal reports Administrating and Managing SMRT Portal For the following functions, you must be logged in as a scientist or administrator : Managing secondary analysis protocols Managing reference sequences Importing raw data from SMRT Cells for analysis Importing SMRT Pipe jobs For the following functions, you must be logged in as an administrator : Managing application users Managing groups Specifying site-wide application settings Archiving and restoring jobs Reference SMRT Portal hardware/software requirements Protocols provided by Pacific Biosciences Pacific Biosciences software overview Pacific Biosciences terminology For troubleshooting information, see http://github.com/PacificBiosciences/SMRT-Analysis/wiki/Troubleshooting-the-SMRT-Analysis-Suite For additional technical support, contact Pacific Biosciences at TechSupport@pacificbiosciences.com or 877-920-7222.
个人分类: PacBio RS II平台数据分析|2930 次阅读|0 个评论
千年基因PacBio RS II三代测序率先升级,读长及通量显著提升
alinatingting 2014-12-5 12:24
作为全球首批使用 PacBio 最新试剂 P6-C4 的公司,千年基因通过对实验条件的不断优化及实验流程的严格控制已率先实现 PacBio RS II 三代测序的升级,读长及通量均得到显著提升。 千年基因 PacBio RS II 三代测序完美升级后,平均读长达 11Kb 以上, reads N50 长度达 16Kb 以上,每个 SMRT Cell 的测序通量高达 1Gb ,远高于 PacBio 官方的参考标准。更长读长和更高通量将有利于基因组 de novo 测序、宏基因组测序、全长转录本测序、全长 16S rDNA 测序等项目的开展。 千年基因的 PacBio RS II 三代测序自提供服务以来,已与国内大量科研单位合作开展了诸多动植物及微生物基因组 de novo 测序项目。同时,千年基因将首次应用三代平台完成人类基因组 de novo 测序,并利用三代平台长读长的优势组装得到最高质量的亚洲人参考基因组图谱,以便于亚洲人致病变异的深入挖掘。 来源于 千年基因官网 。
个人分类: 公司资讯|2933 次阅读|0 个评论
【重磅消息 错过这次再等一年】千年基因测序分析大型倾情回馈
alinatingting 2014-11-7 09:21
千年基因于 2014 年 4 月全球首家提供 HiSeq X Ten 人全基因组重测序后,目前已启动近两万份样本的合作(实例请见文末),同时随着我们主要承担测序和分析工作的韩国“ 34 亿人民币后基因组计划”的开展,强大的规模优势带动了成本优势,积聚了最专业的方案设计和实验分析经验,为真情感恩合作者 18 年来的支持,现启动大型回馈计划! HiSeq X Ten 人全基因组重测序做一个送一个! 人全基因组重测序降至万元以下; 唯一提供 HiSeq X Ten 测序的 IGN 成员,官方保证全球最高质量、周期及分析实力; 近两万份人重测序合作,积聚了最专业的方案设计和实验分析经验; 除全基因组外更具备研究需要的全套解决方案。 PacBio RS II 三代测序做一个送一个 !序列读长达 40K ,极大程度提高基因组组装。 外显子组测序 4900 元 / 样本! 史上最低价,包括建库、测序( 100 ×)及数据分析。 iPad 、 iPhone6 及单反相机等众多礼品惊喜感恩赠送! HiSeq X Ten 人全基因组重测序合作实例: 香港大学李嘉诚嘉诚医学院 1000 个样本合作; 复旦大学 150 个样本合作; 美国华盛顿大学 5000 个样本合作; 西班牙 VHIR 研究所 1500 个样本合作; 乌拉圭巴斯德研究所 80 个样本合作; 中国科学院、中国医学科学院、中山大学、南京大学、天津医科大学、华西医院等 1000 样本合作; 亚洲人基因组计划 1000 个样本合作; 韩国 34 亿 RMB 后基因组计划万份样本。 活动时间:2014年11月1日-12月31日 来源于 千年基因官网 : 千年基因测序分析大型倾情回馈
个人分类: 公司资讯|2679 次阅读|0 个评论
[转载]HiSeq X-Ten与PacBio测序仪并用才是标配!
alinatingting 2014-11-4 08:52
美国 Pacific Biosciences 公司在上周宣布,其第三季度的收入同比增长 178% ,环比增长 81% 。 这家单分子测序技术公司今年 Q3 的营业收入达到 2060 万美元,而去年 Q3 为 740 万美元,今年 Q2 为 1140 万美元。这也超过了华尔街预计的 1720 万美元。 在这一季度,产品收入为 680 万美元,与去年同期的 580 万美元相比增长 17% ,而服务及其他收入增长 38% ,从去年的 160 万美元增长至 220 万美元。产品收入包括 330 万美元的耗材收入和 350 万美元的仪器收入。 PacBio 在本季度安装了 6 台 PacBio RS II 仪器,并接到了 16 台仪器的订单,这样截至 9 月底,还有 20 台积压而未交付的订单。此外,本季度的收入还包括与罗氏协议相关的 1000 万美元的里程碑付款以及 170 万美元的季度付款。 PacBio 的 CEO Mike Hunkapiller 表示,这一季度订单的特点是多台仪器的订单和现有客户的重复订购。美国疾控中心在第三季度订购了两台仪器,而它之前已经安装了一台。此外,西奈山的伊坎基因组学和多尺度生物学研究所订购了第三台仪器。苏黎世大学和东京大学也各自订购了第二台仪器。 由于这一季度的订购强劲以及罗氏的 1000 万美元里程碑付款, PacBio 预计其 2014 财年的收入将与 2013 财年相比翻番,而它之前预计增长 70% 。据该公司的副总裁 Ben Gong 介绍,公司预计 2014 财年的收入将超过 5800 万美元,而去年为 2820 万美元。 展望未来, Hunkapiller 表示,一个新的收入来源将是那些安装了 Illumina HiSeq X Ten 系统的客户,他们在开展大规模人类基因组测序研究时,希望利用 PacBio 的长读长来弄清结构变异及其他复杂区域,如 MHC 。他引用韩国公司 Macrogen 和 J. Craig Venter 的 Human Longevity 作为证据,他们 在安装了 HiSeq X Ten 系统之后都购买了两台 PacBio RS II 系统 。 PacBio 第三季度的净亏损为 920 万美元,摊薄每股亏损 0.13 美元,明显低于去年同期的 2050 万美元。这一季度的研发费用为 1170 万美元,而去年同期为 1040 万美元,而销售、管理和行政费用从去年的 1080 万美元下降至 990 万美元。截至 9 月 30 日, PacBio 拥有 9930 亿美元的现金及投资额。 日前, PacBio 再度升级了测序聚合酶和化学染料( P6-C4 ),使得仪器的平均读长提高到 10,000 bp 或者更长,有> 50% 的序列长度都超过了 14,000 bp ,最长读长 40,000 bp ,在业界遥遥领先。此外,在通量上也有进一步的提高。 转自 测序中国 。
个人分类: 公司资讯|2309 次阅读|0 个评论
Macrogen: the first service provider for P6-C4 chemistry
alinatingting 2014-10-28 09:58
在美国举办的2014 ASHG会议上,Pacific Biosciences公司宣称: 千年基因 总部 Macrogen 将成为国际上首家运用PacBio RS II最新试剂盒P6-C4的公司。 Macrogen will be one of the first service provider to use the latest P6-C4 chemistry which represents 6th generation of polymerase and 4th generation of sequencing reagents, which was recently announced by Pacific Biosciences Inc. 结合P4-C2和P5-C3试剂盒进行测序reads参数信息: 详细信息参加Macrogen官网信息: Macrogen Introduces Latest Service Portfolio at 2014 ASHG Annual Meeting 。
个人分类: 公司资讯|3568 次阅读|0 个评论
千年基因正式提供PacBio三代测序,最高读长达40kb
alinatingting 2014-10-21 11:40
千年基因 购置的两台 PacBio RS II 三代测序仪 目前已经成功通过了一系列严格的 RD 测试,现已正式对外提供三代测序、组装以及后续全套的信息分析服务。基于 17 年的研究经验和严谨的质量控制, 千年基因 PacBio 测序平台 可提供的平均测序读长已稳定在 8-10kb ,最高读长可达 40kb ,一致准确性 99.999% 。 基于 千年基因 丰富的科研项目经验和 PacBio RS II 的读长优势,目前 千年基因 可将该平台应用于 全基因组 de novo 测序、 基因组草图的优化或基因组完成图绘制、 宏基因组测序、 全长转录本测序、 16S rDNA 全长测序、 细胞器基因组测序 、全基因组重测序及稀有变异鉴定、甲基化测序等表观遗传学 研究。 在全基因组和宏基因组 de novo 项目应用上, 千年基因 的信息分析团队通过大量实践成功实现了对二代及三代平台数据的高效整合组装,使得 Contig 及 Scaffold 数量可显著减少。在甲基化测序等碱基修饰相关的研究中,首次实现了对碱基修饰进行直接测序。 PacBio RS II 三代测序 的正式提供进一步奠定了 千年基因 在测序领域的领导地位,使其成为国内唯一一家同时拥有所有主流二代测序平台及三代测序平台的公司。目前 千年基因 已拥有 2 台 Pacbio RS II 、一套 HiSeq X Ten (包括 10 台 HiSeq X 测序仪)、 30 台 HiSeq 2000 / 2500 、 2 台 MiSeq 、 4 台 454/454 + 、 4 台 Ion Proton 、 4 台 Ion Torrent 、 2 台 ABI SOLiD 及几十台 ABI 3730 。最全面的测序平台将使千年基因向您提供最全面的、一站式的科研解决方案,不管您需要的是最长读长、最低成本、最高通量或最短周期, 千年基因 均可满足您的需求并为您提供最高质量的测序服务。 更多关于 千年基因 PacBio 三代 测序的内容,请点击如下链接: http://www.macrogencn.com/_d276851838.htm 。
个人分类: 公司资讯|2862 次阅读|0 个评论
Macrogen将运用PacBio平台对黄种人基因组进行denovo测序组装
alinatingting 2014-9-24 15:14
2014年9月24日, Macrogen集团 声称将运用 Pacific Biosciences 公司的PacBio单分子实时测序平台针对亚洲人群人类基因组进行 de novo 测序组装,从而获得亚洲人群人类参考基因组序列。 目前生物医学研究者常用的人类参考基因组序列是源自白种人,这对研究不同人类种群之间的某些复杂疾病存在局限性。 Macrogen集团 作为韩国已上市的生物测序公司,将结合PacBio RS II DNA测序平台对亚洲人类基因组开展denovo测序和组装,从而获得高质量的黄种人参考基因组序列。 Macrogen集团 目前拥有两台PacBio测序仪,将运用这两台PaBio测序仪测序获得高质量的黄种人参考基因组序列。PacBio RS II DNA测序平台拥有有别于二代短序列读长平台所没有的一些特质,其长读长能够充分运用在全长转录本测序、动植物以及细菌基因组的 de novo 测序和组装、宏基因组测序、人类基因组测序及其复杂区域的目标区域测序(如组织相容性区域的测序以及HLA基因的全长测序等)。 Macrogen CEO Jeong-Sun Seo 声称PacBio测序技术已经发展成熟、能够充分运用至人类基因组测序中,而且PacBio测序技术也是目前唯一能够充分解析人类基因组复杂区域、挖掘SNPs之外的其他类型的遗传变异信息的测序技术。同时也期待PacBio测序技术能够整体的增强 Macrogen集团 的测序服务规模,从而为各全球各科研人员提供更为全面的的测序服务。 千年基因将应用第三代测序仪PacBio RS II完成亚洲人基因组de novo测序 。 GenomeWeb 报道 Macrogen to Use PacBio Technology to Create Asian Genome References 。 附PacBio RS II有关资料: 更多资料: 1. PacBio_RS_II_Brochure.pdf ; 2. PacBio_Software_and_Analysis_Overview.pdf ; 3. PacBio Blog 。
个人分类: 公司资讯|4105 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-24 01:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部