科学网 › 标签 › RNA-seq › 相关日志

标签: RNA-seq

相关日志

POWSC：scRNA-Seq功效分析工具: YangLiBMBL 2020-9-12 03:58; 论文标题： Simulation, Power Evaluation, and Sample Size Recommendation for Single Cell RNA-seq 杂志： Bioinformatics 作者信息：软件安装： https://github.com/suke18/POWSC 输入数据：一个初始的scRNA-Seq数据集。操作步骤：对scRNA-Seq数据进行降维和细胞聚类。这一步的目的是为了提高scRNA-Seq内部参数估计的准确性。如果对细胞不加分类直接估计参数，得到的参数不足以描述数据内部的结构。对每一个细胞类，分别估计其数据分布的参数。这里我们用零膨胀珀松分布和对数式珀松分布的混合概率分布来表示每个类内部的数据分布。其中零膨胀分布表示的是抑制状态下的基因表达；对数珀松分布表示的是基于概率分布生成模拟的差异表达（Differentially expressed，DE）数据。我们针对两种不同类型的差异表达数据进行模拟。第一种是同一种实验条件下两个细胞类型之间的差异表达基因。这种情形比较简单，我们对每个细胞类模拟出基因的表达数据。至于差异表达基因，我们需要考虑两种情形：( i ) 基因在两个细胞类型下分别是抑制和表达的。这就需要我们分别用零膨胀珀松分布和对数式珀松分布来模拟表达值。我们依据两种细胞类型所含细胞的比例进行随机扰动，分别得到最终的细胞数量。我们随机抽取5%的基因作为这种类型的DE基因。( ii ) 基因在两个细胞类型下都是表达的，只是表达值高低不同。这种情形下，我们会随机模拟基因在两种细胞类型下表达值的倍数变化（Fold change）。第二种是两种不同实验条件下同一种细胞类型的差异表达基因。第二种是同一种细胞类型在不同实验条件下之间的差异表达基因。这种情形，我们只需要根据多项分布生成每个细胞类型下的基因数量。每个细胞类型所含细胞的比例是基于整体中每个细胞类型的比例模拟而成。然后对每个细胞类型，分别利用每个细胞类型表达值分布的参数来估计该类型下基因的表达值。最后我们会分别得到一个细胞特异的基因表达矩阵。注意，在这种情形下考虑到建模的难度，我们不会专门预测DE基因。相反，我们会直接根据构造的细胞特异的基因表达矩阵预测DE基因。在这一系列模拟的基因表达矩阵上，我们利用现有的主流算法预测DE基因。我们采用功效（Power）也叫真阳性率（True positive rate，TPR），和错误发现率（False discovery rate，FDR）来衡量预测的准确性。我们会尝试一系列不同的细胞数量，并从中发现能够确保FDR和TPR前提下，尽可能少的细胞数量，作为最终我们做实验用到的细胞数量。输出结果：所需的最少细胞数量。算法流程：; 个人分类: 论文交流|1863 次阅读|0 个评论

RNA-seq测序中intronic reads占比较多的原因？: chinapubmed 2019-8-23 07:17; 使用 ReSeQC 做RNA-seq reads distribution时，会发现intronic占比比较多，大概30-40%，原因如下： 1，由于转录是个动态过程，期间会存在incompleted (nancant, on-going, co-transcripted,unspliced ...) spliced RNA，并且由于intron的长度一般是exon的20倍左右，所以即使有1%的incompleted spliced RNA，也会对这个分布产生较大影响。这是一个不可避免的主要原因，并且与物种、样品来源（cell, tissue, ...）等相关。参考： Total RNA sequencing reveals nascent transcription and widespread co-transcriptional splicing in the human brain 例如 pre-mrna fraction Intronic read fraction 1% 16% 2% 28% 5% 49% 2，存在genomic DNA污染，这个也是一部分原因，主要看实验过程的技术、试剂、操作等 3，基因组注释不全。这个对于研究较多的物种，一般没太大影响，不过也是一个因素。 4，其他因素：所使用的分析软件，包括比对软件，intronic reads的定义等等。参考： http://seqanswers.com/forums/showthread.php?t=5519 http://seqanswers.com/forums/showthread.php?t=15296; 个人分类: 生物信息|3872 次阅读|0 个评论

[转载]HISAT -- 一个具有低内存需求的快速剪接比对器: chinapubmed 2019-6-2 11:03; HISAT（hierarchical indexing for spliced alignment of transcripts，转录本剪接比对分级索引）是一个比对来自RNA-Seq reads的高效系统。 HISAT使用一个基于Burrows-Wheeler变换和Ferragina-Manzini（FM）索引的索引方案，利用了两类索引进行比对：一个全基因组FM索引以定位每个比对，和许多局部FM索引用于非常快地扩展这些比对。 HISAT的人类基因组分级索引包含48,000个局部FM索引，每个索引代表了一个约64,000 bp的基因组区。在真实和模拟数据集上的测试显示HISAT是当前可用的最快的系统，具有比任何其他工具等同或更好的准确性。尽管它拥有大量索引，但是HISAT仅需要4.3GB的内存。HISAT支持任何尺寸的基因组，包括那些大于40亿碱基的基因组。下载： http://www.ccb.jhu.edu/software/hisat/index.shtml 语言：C 参考： HISAT: a fast spliced aligner with low memory requirements; 个人分类: 软件|2831 次阅读|0 个评论

[转载]SCnorm -- 单细胞RNA-seq数据的鲁棒标准化: chinapubmed 2019-6-2 10:15; RNA-seq数据的标准化对于准确的下游推论是必不可少的，但是大部分标准化方法所基于的假设都不能在单细胞条件下应用。因此，应用现有标准化方法到单细胞RNA-seq数据上引入了假象，这使得下游分析出现偏差。为了解决这个问题，我们介绍了SCnorm以准确且高效地进行单细胞RNA-seq数据标准化。 6种标准化方法对倍数变化的评估。SCnorm去除了倍数变化偏差（即在0上下均匀分布） 5种标准化方法区分不同细胞周期细胞群的能力。SCnorm效果最好。下载： https://www.biostat.wisc.edu/~kendzior/SCNORM/ 语言：R 时间：20170417 参考： SCnorm: robust normalization of single-cell RNA-seq data; 个人分类: 软件|2828 次阅读|0 个评论

[转载]AutoCirc -- 更快地鉴定RNA-seq数据中的环状RNA（circRNAs）: chinapubmed 2019-3-13 07:58; AutoCirc从RNA-seq数据中自动鉴定潜在circRNA的反向剪接位点。核心算法是C++实现的，用Perl包装，在相同计算环境下，比其他circRNA检测算法更快。AutoCirc用来检测基因组已知的所有物种中的circRNAs。它不需要基因注释，但是基因注释会改善circRNAs的检测。下载：https://github.com/chanzhou/AutoCirc 语言：C++/Perl 时间：20170829 参考： Genome-Wide Maps of m6A circRNAs Identify Widespread and Cell-Type-Specific Methylation Patterns that Are Distinct from mRNAs; 个人分类: 软件|2224 次阅读|0 个评论

上传NGS数据到GEO: 热度 1 hayidahubei 2018-12-4 07:38; 以下信息都是基于个人最近一年的经验。GEO网站可能会更新，具体信息可以登录GEO官网查看。上传数据官网： https://www.ncbi.nlm.nih.gov/geo/info/submission.html 1 注册账号 https://www.ncbi.nlm.nih.gov/account/register/?back_url=/geo/submitter/ 2 文件准备：上传的文件包含三部分（一个 Excel 表格，处理的数据文件，原始数据）详情请根据以下网站 https://www.ncbi.nlm.nih.gov/geo/info/seq.html 第一部分是一个 Excel 表格（ a metadata spreadsheet ）里面有本次课题的基本信息，所有文件信息。按要求填好。 metadata spreadsheet 的模板可以从以下链接下载： https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template_v2.1.xls 第二个部分是 processed data files. 包含完整的表达谱（行基因，列样本，值可以是标准化后的也可以是原始的 read count ）， peak 信息文件（ bed, txt ），可视化文件 (bigwig, WIG, bedGraph) 等 . 我一般会准备一个表达谱（RNA-seq）或者bigwig和peak文件（ChIP-Seq）第三部分是原始数据，对于 NGS 数据而言就是原始的 fastq 文件。但是这里 GEO 强烈建议上传压缩的文件。我一般都是压缩为 .gz 文件将准备好的三部分文件全部放到以你账号名相同的文件夹中。例如你的账号名为“ zhangsan ” , 你就需要创建一个文件夹名字为“ zhangsan ” , 然后将所有文件放到这个文件夹中。 3 上传文件（这里仅以 FTP 为例） https://www.ncbi.nlm.nih.gov/geo/info/submissionftp.html#creds 我用 FileZilla 登录 GEO （ host , ftp-private.ncbi.nlm.nih.gov; username, geo; password, ****** ）。具体账号信息网页上会有。登录上 GEO 后直接将上面的文件拖拽到 GEO，如下图所示 4 通知 GEO 你已经上传完文件。 https://submit.ncbi.nlm.nih.gov/geo/submission/ 我每次都是通过两种方式通知 GEO 。第一种方式是通过以上链接，第二种方式是通过 email （ geo@ncbi.nlm.nih.gov ） . Email 内容如下： \0 \0 5 等候 GEO 的回信。我一般在两天内收到回信，里面会给你一个 GSE 号 6 文章接收后就可以登录 GEO 修改数据状态， release 你的数据; 6647 次阅读|1 个评论

使用salmon和kallisto进行RNA-seq定量: mashengwei 2018-9-7 22:44; salmon软件于2017年发表在Nature Methods，论文题目是“ Salmon provides fast and bias-aware quantification of transcript expression ” 。不到两年的时间被引250多次。根据文中的描述，salmon要优于kallisto和express软件。今天我们结合小麦最新的IWGSCv1.1版本的基因集，介绍下其定量流程，与kallisto进行一个定量结果的比较，以及看一看基因拷贝数变化时TPM如何变化。首选要对转录本进行index salmon index --keepDuplicates -t IWGSC_v1.1_HC_LC_20170706_transcripts.fasta -i IWGSC_v1.1_HC_LC 下载测试数据,该测试数据来自中国春的叶片。 axel -a -n 12 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR947/SRR947005/SRR947005_1.fastq.gz axel -a -n 12 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR947/SRR947005/SRR947005_2.fastq.gz 进行定量 salmon quant -i IWGSC_v1.1_HC_LC -l A -1 SRR947005_1.fastq.gz -2 SRR947005_2.fastq.gz -p 8 -o SRR947005_quant -i 指要使用的转录组index 这里是我们第一步生成的IWGSCv1.1版本的转录组index； -l 这里需要指定测序模式，这里-A是指自动判定。 -1 -2 分别要输入左端测序数据和右端测序数据 -p 则是要指定运行程序的cpu线程数上述定量命令使用测序的原始reads进行的，这里还有另外一种基于比对的方式，即输入文件是BAM或SAM文件。输出的结果文件如下所示，其中quant.sf里有每个基因的表达量。 salmon定量输出文件 kallisto定量过程首先也是要对转录组进行index kallisto index -i IWGSC_v1.1_HC_LC_kallisto IWGSC_v1.1_HC_LC_20170706_transcripts.fasta 其次是定量过程。 kallisto quant -i IWGSC_v1.1_HC_LC_kallisto -t 10 -o SRR947005_kallisto SRR947005_1.fastq.gz SRR947005_2.fastq.gz 同样的结果文件如下图所示，其中abundance.tsv里有每个基因的表达量。 kallisto定量结果输出文件 salmon文章比较的内容，这里不再比较。下面我们做一个比较初步的分析。首先看TPM大于0, 0.5, 1, 10的基因数目。注意两者转录本的总数是一致的。 TPM 0 0.5 1 10 Salmon 109998 58690 43160 7172 kallisto 116087 60805 44721 7443 kallisto-Salmon 6089 2115 1561 271 从基因数量上来看，kallisto有更多的基因有TPM值，而且相同转录本获得的TPM值，kallisto获得的往往要大于salmon获得的。但这也不是绝对的，如下图。以转录本TraesCS3B02G080100.1为例，这里使用salmon获得的TPM值是338.82，而使用kallisto获得的是168.69。那么针对这一个基因，哪个更准确一点呢？ image-20180902220909122 而查阅信息可知，主要是两者的 effecting length 不同导致，而count数量很相似。 Name Length EffectiveLength TPM(salmon) NumReads target_id length eff_length est_counts tpm(kallisto) TraesCS3B02G080100.1 171 35.605 338.816942 531.769 TraesCS3B02G080100.1 171 78.4896 532.115 168.686 This is the computed effective length of the target transcript. It takes into account all factors being modeled that will effect the probability of sampling fragments from this transcript, including the fragment length distribution and sequence-specific and gc-fragment bias (if they are being modeled). 而kallisto里的定义为： “Effective length” is a scaling of transcript length by the fragment length distribution 具体的可参见“https://haroldpimentel.wordpress.com/2014/05/08/what-the-fpkm-a-review-rna-seq-expression-units/”。查过一些资料，越看越糊涂。不过，如果使用同一软件处理所有的数据应该是没有问题的。因为IWGSC官方也有这个数据集的count和TPM值，我去查可一下，竟然和我的不一样。 transcript COUNT \0 COUNT TPM TraesCS3B02G080100.1 294.42 96.0559 而我这边给的count是532.115，tpm是168.686。事情变得复杂起来。我细想了原因，可能有两方面的原因。其一，我们使用的软件版本不同，其二我们使用的数据SRR947005，他们可能经过一些预处理。而我直接下下来使用，没有经过预处理。关于软件版本，他们用的是0.42.3，而我用的是kallisto 0.44.0 。所以，接下来我们就要排除软件版本的差异。 To calculate the read counts and TPMs we used Kallisto version 0.42.3 . The index was built with the default values and K=31. Kallisto was run with the default parameters. All the fastq files from a single sample are run together. The reference used was RefSeqv1.1, including the High and Low quality genes (IWGSC_v1.1_ALL_20170706_transcripts.fasta) 结果有点让我接受不了。即如果我使用0.42.3版本，得到的count和TPM就和IWGSC上下载的一样了。但显然与我0.44.0的版本不一致。所以中间出现了什么变故？ kallisto target_id length eff_length est_counts tpm(kallisto) 0.44.0 TraesCS3B02G080100.1 171 78.4896 532.115 168.686 0.42.3 TraesCS3B02G080100.1 171 79.8953 294.42 96.0563 有什么变故我们不得而知，但显然让我有点接受不了，我的结果里有多少这样任性的基因？做出来的差异基因有多少又是可信的？下面是作者的回答。软件作者建议使用最新版本。 image-20180903155107203 作者都这样说了，加上最新版本的count也与salmon一致，所以，这让本打算使用850 RNA-seq 样本做些分析的我有点迟疑。第二部分，探究基因拷贝数对定量结果的影响尽管最近science上转录组那篇文章也有相似的讨论，不过我还是想眼见为实。这个测试也非常简单，那就是人为增加某个基因的拷贝数，观察对这个基因本身的影响以及另外另个同源基因的影响。这里选取TraesCS3D02G074400.1 ，TraesCS3B02G080100.1 和TraesCS1D02G227700.1 。TraesCS3D02G074400.1是孤家寡人。而TraesCS3B02G080100.1则有多个同源基因，TraesCS3B02G080700.1， TraesCS3D02G067400.1, TraesCS3A02G067400.1, TraesCS3B02G080600.1, TraesCS3D02G067100.1, TraesCS7B02G443100.1, TraesCS3D02G067200.1, TraesCS3D02G219800.1, TraesCS3A02G233600.1 ；而TraesCS1D02G227700.1对应的有TraesCS1B02G240400.1，TraesCS1A02G226300.1,同时该基因还有可变剪切，TraesCS1D02G227700.2，TraesCS1B02G240400.2，TraesCS1A02G226300.2。所以我们比较的重点就放在这几个基因上，看这几个基因的变化。 kallisto index -i IWGSC_v1 .1_HC_LC_kallisto_add IWGSC_v1 .1_HC_LC_add.fasta kallisto quant -i IWGSC_v1 .1_HC_LC_kallisto_add -t 10 -o SRR947005_kallisto_add SRR947005_1 .fastq.gz SRR947005_2 .fastq.gz 首先对这三个基因来说，其表达量减半。因为我们在序列上一字未改的复制了这3个序列。所以从结果看，复制的基因分享了一半的reads。 target_id length eff_length est_counts tpm(kallisto) add|TraesCS3B02G080100.1 171 79.2217 266.054 83.6109 TraesCS3B02G080100.1 171 79.2217 266.054 83.6109 add|TraesCS3D02G074400.1 752 561.072 4175.4 185.275 TraesCS3D02G074400.1 752 561.072 4175.4 185.275 add|TraesCS1D02G227700.1 1867 1675.73 284.687 4.22962 TraesCS1D02G227700.1 1867 1675.73 284.687 4.22962 同样的我们再比较多拷贝的情况。多拷贝的我们看这个基因TraesCS3B02G080100。复制之后，TraesCS3B02G080100的表达减半，其他拷贝几乎不变。那么是否对可变剪切的转录本有影响呢？结果和上面一样，只是TraesCS1D02G227700.1自身TPM值减半。既然拷贝数增加，只改变其自身的TPM值。那么同样的道理，如果减少一个拷贝数，其他拷贝数的TPM也不会发生显著变化。当然这里是有一个前提，那就是不同拷贝之间序列不是100%一致的。刚才的复制我们一字未改，现在我们改变其中一个碱基，我们再观察结果如何。统一在这3个转录本序列的第80位改变一个碱基。理论上，改变之后这3个转录本的TPM值为0。 Kallisto的结果如下 target_id length eff_length est_counts tpm(kallisto) 1snp|TraesCS3D02G074400.1 752 561.072 0 0 1snp|TraesCS3B02G080100.1 171 79.2217 0 0 1snp|TraesCS1D02G227700.1 1867 1675.73 0.698188 0.010373 TraesCS1D02G227700.1 1867 1675.73 568.676 8.44886 TraesCS3B02G080100.1 171 79.2217 532.107 167.222 TraesCS3D02G074400.1 752 561.072 8350.8 370.551 如上表所示，实际情况也差不多如此，只有1snp|TraesCS1D02G227700.1有很小的TPM。在改一个SNP的情况下，salmon表现似乎更好，修改的全部是0，而原来的TPM值也不变。 Name Length EffectiveLength TPM NumReads 1snp|TraesCS3D02G074400.1 752 550.209 0 0 1snp|TraesCS3B02G080100.1 171 35.447 0 0 1snp|TraesCS1D02G227700.1 1867 1665.119 0 0 TraesCS1D02G227700.1 1867 1665.119 7.729668 567.493 TraesCS3B02G080100.1 171 35.447 340.231283 531.757 TraesCS3D02G074400.1 752 550.209 343.102088 8323.484 所以总结来说，在同一个项目中，使用的软件版本要一致。至于哪一个salmon和kallisto哪个更好，我个人可能更偏向salmon，但kallisto毕竟是science使用的，所以做小麦的话，kallisto应该是公认的。kallisto算出来的差异基因数量要多于salmon。但同时也要注意IWGSC注释的转录本的正确率。特别是对于低可信度的基因，基因结构不正确，做出来的TPM可能也不对。而且IWGSC注释的转录本其3’和5’的非翻译区有不少缺失。转录组里还可以组装出新的转录本或者新的可变剪切。目前IWGSC给出的转录本是26万左右，而其中高可信的基因只有10万。我们进行差异表达分析时使用的是26个转录本，但只有那10万个高可信基因的功能注释较为可信。所以后续的功能富集分析，就要慎重。差异表达可以包括低可信的基因，但功能富集分析时可以不包括在里面，特别是不能用来充当总数，science上的那篇文章也正是这样做的。另外，功能富集分析时使用的背景基因应该是在某条件下表达的基因集，而不是总基因集。比如，总共有10个基因，其中只有5个基因表达，而这5个表达的基因里有2个差异表达，此时使用的总数是5而不是10。当然，如果差异基因里包括低可信的基因，那表达的总基因里也可以包括低可信度的基因。不过，我还是建议使用表达的高可信度的基因作为整体。昨天我在推送里表达了在基因富集分析中背景基因如何选择的观点？我的观点是需要使用表达的基因，确切的说是使用表达的并且有功能注释的基因作为背景。比如，做GO分析，背景基因都得有GO注释信息，那些没有GO注释信息的显然不宜拿来当作背景。同样的拿来做GO分析的差异表达基因也得都GO注释信息，那些差异表达但没有GO注释信息的基因就不必包括在里边。为啥？道理很简单，我要做的是GO信息的富集分析，那些没有GO注释信息的基因即使放在里边也没毛用。这是我的观点，也许不对。如果有大神跳出来吊打，我还是欢迎的。群里也有小伙伴发表自己的看法，看过之后很受启发。接下来，且听我细细道来。这里所说的表达的基因，是指只要在分析所用样本中的一个里有表达（如TPM0.5就认为表达），比如在叶片和根里，只要基因在这两个组织中的任何一个里表达，我们就认为基因是表达的。即取的是不同样本间的并集。这里只是拿叶片和根说事，如果在文章里有人这样做，你可以将这篇文章扔到垃圾桶了。同时我在google上也查了一些资料。在biostars（https://www.biostars.org/p/17628/）也有很多人在讨论。基本的结论是，使用表达的基因作为背景是合适的，没有人明确反对这一做法不妥。根据上面的回答，找到这篇文献“Multiple sources of bias confound functional enrichment analysis of global -omics data”。该文2015年发表在genome biology上。文中的结论是： The generation of an estimated background ‘universe’ in RNA-seq data could be achieved by removing zero-count genes , but the nature of this ‘universe’ will still depend on many factors. This list should contain only factors (RNA or protein) that are both robustly ‘probed or sequenced’ (to avoid technology and detection bias) and ‘called’ as expressed (to avoid biological bias) in the experiment. After all, we do not want to carry out functional enrichment analysis of a specific tissue simply to be informed that we are studying that tissue! In conclusion, functional enrichment analysis must not be considered proof of biological plausibility or validity in the analysis of high-throughput -omics data. We strongly advocate for efforts to generate appropriate background expression ‘universes’. We also urge that background gene lists are provided for any functional enrichment analysis, and that a higher statistical threshold is used as a default, given the scale of the pre-existing biases, to avoid marginal (e.g., 1 × 10^−3^ or 1 × ^10−4^) enrichments being relied on to drive the interpretation of an experiment. 做差异基因功能富集分析的一定要看看本文。里边讨论了各种有可能导致最终结果不准确的情况。一些在线进行GO富集分析的网站，如果不能自己背景序列，那就是耍流氓。 However, somewhat surprisingly, the Gene Ontology consortium website analysis tool does not allow for this option, making any analysis thoroughly unreliable. 实际上任何实验手段都不是完美的。我们现在做RNA-seq比较方便，RNA-seq并不是万能呢，蛋白水平就要比转录水平要好。还有组织毕竟是混杂，那单细胞结果又如何呢？代谢组呢？通过差异表达基因功能富集结果我们可以说参与了某些通路，或者在哪些通路上富集。但最好不要说与哪些通路无关，但可以说这些通路上的基因没有富集。; 18052 次阅读|0 个评论

Differential gene expression analysis using coexpression and: wc12436109 2018-8-31 15:17; Differential gene expression analysis using coexpression and RNA-Seq data 利用共表达和 RNA SEQ 数据进行差异基因表达分析 MRFSEQ As a fundamental tool for discovering genes involved in a disease or biological process, differential gene expression analysis plays an important role in genomics research. High throughput sequencing technologies, e.g., RNA-Seq, are increasingly being used for differential gene expression analysis which was dominated by the microarray technology in the past decade. However, inferring differential gene expression based on the observed difference of RNA-Seq read counts has unique challenges that were not present in microarray-based analysis. The differential expression estimation may be biased against low read count values such that the differential expression of genes with high read counts is more easily detected. The estimation bias may further propagate in downstream analyses at the systems biology level if it is not corrected. To obtain a better inference of differential gene expression, we have proposed a new efficient algorithm based on a Markov random field (MRF) model, called MRFSeq, that uses additional gene coexpression data to enhance the prediction power. Our main technical contribution is the careful selection of the clique potential functions in the MRF so its maximum a posteriori (MAP) estimation of can be reduced to the well-known maximum flow problem and thus solved in polynomial time. By using incorporating the loopy belief propagation technique, MRFSeq is able to not only call differentially expressed (DE) genes but also assign confidence scores to each inferred DE gene. Our extensive experiments on simulated and real RNA-Seq datasets demonstrate that MRFSeq is more accurate and less biased against genes with low read counts than the existing methods based on RNA-Seq data alone. For example, on the well-studied MAQC dataset, MRFSeq improved the sensitivity from 11.6% to 38.8% for genes with low read counts. 抽象动机： RNA-Seq 越来越多地被用于差异基因表达分析，由于过去的十年里微阵列技术主导。然而 , ( 基于观察到的 RNA-Seq 读数的差异 ) 来推断差异基因表达 , 呈现出在基于微阵列的分析中所没有呈现的独特的挑战。该差异表达估计是针对低读取计数值，高读取计数基因的差异表达更容易被检测到。估计偏差如果没有纠正在系统生物学级别的下游分析中可能会进一步传播。结果：为了获得更好的差异基因表达推论，我们提出了一种基于马尔科夫随机场的新型高效算法（ MRF ）模型，称为 MRFSeq ，它使用额外的基因共表达数据来提高预测能力。我们的主要技术贡献就是仔细选择 MRF 中的团聚势函数 , 所以它的最大后验估计可以降低到众所周知的最大流量问题 , 从而在多项式时间内解决。我们在模拟和真实 RNA-Seq 数据集上进行大量的实验表明 , 与仅基于 RNA-Seq 数据的现有方法相比 , MRFSeq 更准确，且对读取计数低的基因的偏倚更小。例如，在经过深入研究的 MAQC 数据集 MRFSeq 上低读数基因的敏感性从 11.6 ％提高到 38.8 ％。可用性： MRFSeq 以 C 语言实现，可在 http ： //www.cs.ucr.edu/~yyang027/mrfseq.htm 联系方式： yyang027@ucr.edu 或 jiang@cs.ucr.edu 补充信息：补充数据可在生物信息学在线。 2013 年 2 月 27 日收到 ; 于 2013 年 6 月 6 日修订 ; 接受 2013 年 6 月 10 日 1 引言在基因组学研究中已被广泛使用。 RNA-Seq ，下一代测序技术，最令人兴奋的应用之一，被用于揭示生物系统中转录组的复杂性（ Wang 等人， 2009 ）。许多前所未有的发现正在被 RNA-Seq 产生，例如新的亚型的推断，反义调控模式的刻画和基因间表达模式的研究（ Carninci 等， 2005; Graveley ，等人， 2011; Nagalakshmi 等人， 2008; Trapnell 等， 2010 ）。近年来， RNA-Seq 在定量分析基因表达和转录变体发现方面发挥了重要作用。在过去的十年中，这些应用大部分都是以基于微阵列的技术为主。在这些定量分析中， RNA 群体部分测序，获得的读取序列与参考基因组被对齐。然后将对齐的读段分配给基因 ( 基于它们共享的共同区域 ) 。该分配给基因的阅读数被称为基因的读断数 , 该基因已被证明几乎与基因的表达水平（是线性相关的 Marioni 等， 2008 ）。差异基因表达分析是鉴定基因在感兴趣的生物条件之间是否不同的基因表达。鉴于RNA-Seq读取计数数据，可以通过检查观察到的读数差异是否显著 , 来检测差异表达（DE）或同等表达（EE）基因来，例如大于一些自然的随机变化。为了测试RNA-Seq读取计数之间的差异的显著性, 首先将读取计数的分布被假定为泊松分布（Marioni等，2008; Srivastava和Chen，2010; Wang等， 2010）。然而，泊松分布可能低估了读取计数的差异并在差异基因表达分析中,导致意外的假阳性（Nagalakshmi等，2008; 罗宾逊和史密斯，2007）。为了解决这个问题，对RNA-Seq读取数据应用于负二项式分布（Anders和Huber，2010; Robinson和Smyth，2007,2008; 罗宾逊等人，2010年），并已成为最先进的统计数据模型。除了基于泊松或者基于负二项分布的方法之外，还提出了两个数据驱动的概率方法，baySeq（Hardcastle和Kelly，2010）和NOISeq （Tarazona等，2011）。此外，鉴于基因的带注释的或推断的mRNA转录物（或同种型），最近公布了用于检测转录物水平的差异表达的一些统计方法（格里菲斯等人，2010;李和杜威，2011; Trapnell等，2013;郑和陈，2009）。由于可以通过简单地总结其同种型的表达水平来计算具有已知(或推断) 同种型基因的表达水平，所以这些转录水平的方法可以用作检测同种型的差异表达替代方法（Trapnell等，2013），尽管这些方法的准确性显然取决于所提供的y亚型的质量。尽管 RNA-Seq 数据的统计特性在上述统计方法中充分研究和考虑，但这些方法遭受以下问题。首先，它观察到统计功效值随着读取计数值而增加（ Oshlack 和 Wakefield ， 2009; Oshlack 等， 2010;Young 等， 2010 ）。请注意，基因的读取计数是正比于基因表达水平乘以基因长度。因此，与短和 / 或表现不佳的同行基因相比，长或高度表达的基因更可能被检测为 DE 基因。 DE 基因检测中存在这种偏倚是不可避免的，甚至使使用于读取计数的数据 , 标准化或重新标定（ Oshlack andWakefield ， 2009; Young 等人， 2010 ）。据了解，如果， DE 基因的选择偏倚未校正的，可能导致偏向下游分析（ Oshlack 和 Wakefield ， 2009; Oshlack 等， 2010; Young 等， 2010 ）。其次，基因表达之间的依赖关系不是在这些方法中使用。基于微阵列数据的基因表达分析，基因共表达模式的先验知识 , 已被用于改善算法的性能用于检测表型相关的通路（ Rahnenfuhrer 等， 2004 ），寻找重要的途径监管机构（ Sivachenko 等人， 2005 ），鉴定差异基因表达模式（ Jacob 等， 2012 ）和微阵列数据的分类（ Rapaport 等， 2007 ）。尤其要获得更准确魏和李（ Wei and Li ， 2007 ）提出了一个 DE 基因的推断马尔可夫随机场（ MRF ）模型，整合基于微阵列数据的 gammagamma 模型 (Kendziorski 等， 2003; Newton 等人， 2001 ）和提取来自 KEGG 路径的基因共表达网络（ Kanehisa and Goto ， 2000 ）等， DE 基因可以通过 MRF 模型的最大后验（ MAP ）估计来确定。他们的实验结果表明额外的基因共表达信息可以帮助检测基因表达的更微妙的变化（例如，局部的已知途径中的干扰）并显著改善 DE 基因的整体预测准确性（ Wei 和 Li ， 2007 ）。但是由于连续微阵列的强度值和不连续的 RNA-Seq 读数差异， MRF （ Wei and Li ， 2007 ）的模型不能立即应用于 RNA-Seq 数据。而且，由于 MAP 估计问题对于 MRF 模型通常是 NP-Hard （ Boykov ， 2001 ） MRF 模型（ Wei and Li ， 2007 ）通过启发式算法解决方法，迭代条件模式，它提供了一个没有置信度分数的近似最佳预测。在这项工作中，我们提出了一种新型的 MRF 模型 MRFSeq ，将 RNA-Seq 读数与先前的基因共表达网络知识结合起来 , 来推断 DE 基因。不同于（ Wei and Li ， 2007 ）中的 MRF 模型，我们仔细选择了 MRF 模型中这个集团聚函数 ,, DE 基因的 MAP 估计可以降低到众所周知的流量网络方面最大流量问题水平。根据 Kolmogorov 和 Zabih 的工作（ Kolmogorov 和 Zabih ， 2004 ）。由于最大流量问题是多项式时间可解的，我们的 MRF 模型可以用多项式时间精确求解。此外，我们介绍一个 loopy 置信传播方法（ Mooij ， 2007; Weiss ， 2000 ）来计算推断 DE 或 EE 基因的置信度。我们广泛的模拟实验和真实的 RNA-Seq 数据表明 ,,,,,MRFSeq 通过在不损失精度的情况下获得相当高的灵敏度，实现了大幅改善的总体估计性能。一个对预测结果的详细分析表明，通过 MRFSeq 预测的DE基因在不同的读取计数值上的分布更均匀,相比于的现有方法所获得的计数。因此，MRFSeq可以帮助缓解DE基因对低读数计数基因的选择偏倚。我们的分析进一步表明，大多数DE或EE基因可以单独由RNA-Seq数据正确预测，也可以通过MRFSeq正确预测，这意味着在差异分析结果中,使用基因共表达的先验知识不会引入新的偏差分析结果。此外，我们比较MRFSeq与最近出版的转录水平方法，Cuffdiff 2（Trapnell et al。，2013）使用来自UCSC hg19的注释转录组的真实的RNA-Seq数据（Meyer 等人，2013）。比较显示MRFSeq比Cuffdiff 2敏感得多。本文的其余部分安排如下。第2.1节定义了我们算法中使用的术语和符号，同时2.2节提供了MRF模型的构成和其团势函数。2.3节中显示了最大流量问题的减少。实验结果在第3节中描述，其中还包含MRFSeq与现有差异表达分析方法（包括edgeR）之间的比较（Robinson等，2010）， DESeq（Anders和Huber，2010），baySeq（Hardcastle和Kelly，2010）NOISeq（Tarazona等，2011）和Cuffdiff2（Trapnell等，2013）。特别是第3.4节比较了低读数和低基因的方法的性能显示MRFSeq 不仅实现了显着的整体更高的准确性，但也提供了较少的偏见预测。第4节给出了一些结论性意见。由于页面限制,在正文中,用于每个预测可信度的计算,Loopy置信传播方法以及一些数字和表格都被省略了，并在提供补充材料。 2材料和方法 2.1术语和符号假设G={g1，g2，...，gn}是待测差异表达的基因和X={x1，x2，...，xn}二元随机变量，使每个Xi属于{0,1}表示基因gi的DE状态。随机变量如果xi=0，基因gi是一个DE基因;xi=1，基因gi是一个EE基因。假定两个随机变量xi和xj是相关的;两个基因gi和gj形成一对共表达基因。配置x是随机变量X的0-1赋值。假设在在感兴趣的两个条件A和B中,分别有p和q重复。让读数计数aij和bij是读数的数量，与之对齐基因gi分别在条件A和B的第j个重复。对于每个基因gi，两组读取计数RA,i={ai1，ai2，:::，aip}和 RB,i={bi1，bi2，:::，biq} 所有读数映射到参考基因组后,从两个条件A和B的所有重复中重新总结出来。对于观察到的读取差异计数,流行的统计测量为错误的发现率和先验概率。目前的统计学方法通过独立检验来推断DE基因对于每个基因，如果其读取计数的差异测量值超过一定的阈值（Oshlack等，2010）。在我们的方法中，DE基因是观察到读数与基因共表达的差异的最大化似然函数的配置决定，而不需要事先知道阈值。 MRFSeq使用，但不是仅限于,DESeq的FDRqi（AndersandHuber，2010）读取计数RA,i和RB,i的差值测量，其中qi 。为了提高我们算法的计算效率，通过将区间划分为相同长度的间隔为0.05的20区间来进一步离散FDRqi(被进一步离散)。让yi2{1，2……20}表示观察到的差异qi所属的间隔，并且 Y={y1，y2，...，yn}是所有离散化的FDR的集合。该给定其观察值Y隐藏变量X的联合概率,由MRF模型表示，一种能够捕获随机变量的统计依赖性的图形模型（Kindermann和Snell，1980）在下一小节中有描述。给定X对Y的联合概率，估计基因的DE状态实际上涉及两个推论问题。首先是MAP估计问题，即搜索一个配置x使得Pr(x|Y）被最大化。算法为MAP估计问题将在本节后面讨论。其次是边际概率问题，即计算概率Pr(xi|Y）作为每个基因gi上配置的致信水平。该边际概率问题的loopy置信传播方法在补充材料中给出。 2.2MRF模型令H=(Vx，E）是一个无向图,表示G的共表达式网络，使每个节点vxiVx与随机变量xi￠X相关联以及节点vxi共享的每个边(i,j) 并且编码两个相关的随机变量xi和xj的依赖性。假定两个变量xi和xj被假定为相关的,如果基因gi和gj是共表达的。为了确定哪对基因是共表达基因，使用COXPREdb（Obayashi和Kinoshita，2011）中定义的相关系数ci,j作为两个基因gi和gj之间的基因共表达的测量。如果ci,j大于阈值p，则认为两个基因是一对共表达基因。我们在整个这项工作中使用p=0.5，因为它文献被广泛使用（Patil等，2011;Watson，2006）。在我们的模型中，我们认为每个基因的DE状态应该依赖于其观察到的计数差异和其共表达基因的DE状态。换句话说，我们可以假设每个随机变量在条件上独立于H中由非相邻顶点索引的变量。因此，满足以下性质得到：其中N(vxj)表示H中vxi的邻居。由Hammersley-克利福德定理（Besag，1974）给定Y的随机变量的X的联合分布可以被分解为一个集团潜在函数的形式 T，在给定的集合中配置的正函数在图H使得为了模拟共表达基因之间的成对依赖性，我们可以使用一个MRF模型，它只含潜在的函数大小最多2个.这种类型的MRF被称为成对MRF（Besag,1986），并将用于我们的工作。有两种潜在函数在我们的MRF模型中被使用。一个是一元函数评分随机变量xi与其观察证据yi的兼容程度。另一个是成对的潜在函数测量每对相关变量xi和xj之间的统计相关性。通过定义潜在函数，给定Y的X的联合分布可写为其中Z是标准化项以确保联合概率PrjXjY）总和为1. 令一元函数定义如下：为了计算一元函数，在我们的MRF模型中,应该给出两个先验概率之间的比例应该作为已知参数。为了估计参数，首先合成10000个DE基因和10000个EE基因的4个重复（每个条件2个）的读取计数。我们对DE和EE基因读取计数的模拟,遵循在DESeq模拟研究中使用的相同的步骤（Anders和Huber，2010）。对于DE基因，在两个条件之间观察到的读取计数的log2倍数变化率是从均值为0和方差为0.7的正态分布随机抽取。对于EE基因，平均值设为0，方差为0.2。读取计数的仿真后，先前引入的离散化FDR被计算为观察到的合成读数的差异。。假设有myiDE基因和nyiEE基因，在这个模拟中离散化的FDR是yi。我们进一步假设xi成立的两个背景概率相等，即 Pr(xi=1）=Pr(xi=0）。通过贝叶斯准则，先验概率的比率得到如下：对称地，我们有对于每对共表达基因gi和gj的成对函数，在COXPREdb中定义的相关系数ci,j（Obayashi和Kinoshita，2011）被用作xi和xj之间统计相关性的度量。因此，成对的潜在函数定义如下：这完成了X的联合分配的规范。为了方便起见,X的联合分布可以在方程（2）的两边取负对数改写为：这里是一个常数，每个是一个单项，每个是一个两项 E(XY)伪能量函数最大化联合概率Pr(XY)的配置实际上是使伪能量函数E(XY)配置最小化（Besag，1986 2.3MAP估计与启发式方法不同，迭代的条件模式用于近似Wei和Li（2007）的MRF模型的MAP，我们在本小节中表明，通过仔细设计MRFSeq中的潜在函数MRFSeq的MAP估计问题不再是NPHard问题，因为它可以减少到流量网络上的最大流量问题并且在多项式时间内得到最优解决。如果一个随机变量xi被一个配置x所反转，给xi状态赋值违反了其先验概率，即对于一个倒置的随机变量xi，我们定义代替反演的代价。如果xi和xj的分配状态是不同的,,即两个相关变量xi和xj被称为由配置x分开。对于一对分离的变量xi和xj而不是ci,j。分离的成本是ci,j。Kolmogorov和Zabih（2004）证明当伪能量函数的E(XY)的成对项是子模块，即满足以下属性：寻找使伪能量函数最小化的配置可以通过寻找最小化反转和分离总成本的配置来完成。也就是说，MRF模型上的MAP估计问题可以降低到在流程新网络H0上的最大流量（或最小切分问题）这样,H0的最小切割对应于MRF模型的MAP估计，并且切割的饱和容量恰好是反转和分离的总成本。很容易验证我们的配对项是子模块。从我们的MRF模型（其图表示为H=Vx，E）到流动网络的减少可按如下方式完成。 H0的节点是H节点和两个附加节点的联合，源节点s和宿节点t。 H的每个无向边(i,j)被转换成两个有向边(i,j)和伴随容量(i,j)。对于每一个节点xi，两个有向边(s,i)(i,t)被加到E’ 边(s,i)的容量是否则，边(s,i)容量是0。对称地边(i,t)的容量是否则，边(i,t)的容量为0。运行标准最大流量算法后，例如Edmond和Karp算法（EdmondsandKarp，1972）在流网络H’上获得最小割其中,Vs是与s相邻的节点，Vt是与t相邻的节点。它表示0-1分配，使得对应于Vs的节点的所有随机变量被分配1，并且对应于Vt的节点的所有随机变量被分配0。然后，如果xi为1，则将基因gi推断为DE基因， xi为0，则将基因gi推断为EE基因 2.4RNA-Seq数据集两个公开可用的人类RNA-Seq数据集，即 MAQC数据集(Bullard等，2010;Shi等，2006）和 Griffth数据集（Griffith等，2010）将被用作基准数据集评估我们选择的差异基因表达分析方法的表现。每个数据集都与一个额外的qRT-PCR数据集相关联，以验证基因的DE状态。 MAQC数据集由两个样本组成， Ambion的人类大脑参考RNA（脑）和Stratagene的人类通用参考RNA。每个样品提供7个重复和总共4500万个长度为35bp的单端RNA-Seq读数。 MAQC数据集的读数从7100万个中唯一获得通过ReCounts（Frazee等人，2011）校准的映射读数。格里菲斯的数据集是由DE的qRT-PCR验证或由ALEXA-Seq（Griffith等，2010）突出显示的表达基因制成的。它包含96个和1.98亿个跨越两种人类结肠直肠癌细胞系的双末端读数只有氟尿嘧啶的抗药性不同。为了平衡两个样品中的测序深度，如（Tarazona等，2011），如读取的库大小设置为每个条件大约1亿次读取。从SRA数据库下载了MAQC数据集的原始RNA-Seq读断 (Leinonen等，2011），而从ALEXASeq的FTP站点下载了Griffith(格里菲斯)的数据集的RNA-Seq读取跨平台的基因关联是用BioMart（Zhang等人，2011）。在下游分析步骤中丢弃不匹配的基因。为了获得Griffith数据集的读数，使用Tophat（Trapnell等，2009）将原始RNA-Seq读数与人类基因组UCSChg19（Meyer等，2013）的高覆盖率组装进行比对，其中两个不匹配被允许和映射到多个位置的读取被删除。最后，使用R软件包对格里菲斯数据集中每个基因的读数进行总结 Bioconductor的基因组特征和RSamtools以及来自Ensembl（版本60）的基因组注释信息（Flicek等，2011），只有外显子读数。为了公平比较，一个伪读数，1，应用于读数为零的所有基因，以避免一些统计计算中的零分问题。 2.5评估标准根据Bullard等人的评估方法。（2010年），我们所有的实验结果都根据精度（PRE）PRE=TP/(TP+FP)*100％灵敏度（SEN）SEN=TP/(TP+FP)*100％， TP是真阳性的数 FP是假阳性的数 FN是假阴性的数为了结合这两个评估指标，F评分（FS）（vanRijsbergen，1979），定义为 FS =2 *(PRE x SEN)/(PRE t+SEN)*100% 被用作我们测试中预测方法总体性能的度量。 3实验结果 3.1差异基因表达分析方法的选择将我们的方法与现有的基因差异分析方法进行比较 ,Tarazona等人提出了相同的选择标准。（2011年）。但是，Fisher的精确测试（Fisher，1922年）（Tarazona等，2011）进行了比较，在这里被排除在外，因为它的性能显示远低于其他方法的表现。最后，有四种方法包括edgeR（Robinson等，2010）， DESeq（Anders和Huber，2010）， baySeq（Hardcastle和Kelly，2010）和选择NOISeq（Tarazona等，2011）在我们的测试中进行比较。请注意，NOISeq有两个版本，NOISeq_real和NOISeq_sim，版本NOISeq_real用于我们的实验,因为在我们的仿真和真实数据集的重复次数总是大于1个。在这些方法中需要一些合理的截断值（MRFSeq除外）来决定统计差异测量的显著性。为了获得可比较的性能分析方案,我们的实验采用了文献中截断值。更具体地说，DESeq中选择的FDR0.1用于DESeq和edgeR。对于NOISeq和baySeq,我们分别选择0.8和0.999的概率，正如在Tarazona等人的工作中所做的那样。（2011）。在两个难度等级下进行实验以比较我们的方法MRFSeq与其他选择的方法。在第一级，基准数据集的所有读取计数都是根据DESeq仿真研究中假设的相同分布生成的。在第二级，所有读取计数的基因是从两个真实数据集中MAQC和格里菲斯数据集累积的，并可能包含低读取计数。除了与基因水平方法的比较之外，MRFSeq也与最近公布的转录水平方法Cuffdiff2-在两个RNA-Seq数据集上进行了比较。 3.2模拟研究 3.2.1模拟实验我们的仿真实验遵循（Wei和Li，2007）的框架。下载了与MSigDB中186个KEGG途径相关的所有基因集（Subramanianetal。，2005）。然后使用COXPREdb（Obayashi。）定义186个基因组的共表达网络(Kinoshita，2011），并且他们形成了186个无向图。如果其共表达网络中的边数少于节点数，则丢弃基因集。过滤后，保存由2194个不同基因组成的37个基因组。 37个共表达网络（参见补充表格S1）合并为由2194个节点和8512个边缘组成的全局网络。所有的方法在真正的DE基因的五种不同丰度水平下进行测试。绩效评估分为五类，其中每类代表10％的丰度水平间隔，使得五类覆盖DE基因的丰度水平，范围从0至50％（Wei和Li，2007）。在五个级别中的每一级中，我们随机选择10个路径的组合来形成这些集合真正的DE基因，同时将其余基因保持为真正的EE基因，使得真正的DE基因的百分比在该水平的范围内。通过遵循相同的步骤来模拟DESeq中使用的读取计数，随机获得10个基准数据集和读取计数的10个不同组合。模拟读取计数范围从25到401。所有的方法都适用于50个基准数据集。由于页面限制，总结第一区间和中提供了相近的灵敏度分数，但它不能获得可比较的精确分数，因此总体表现较差。虽然在区间; 个人分类: RNA-seq|2348 次阅读|0 个评论

任意两组RNA-seq变身，国自然得AAA: ChengyangWang 2018-2-23 10:43; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小丫来源：嘉因《 RNA-seq这样画图，国自然必得A 》介绍的4个图，需要满足两个条件，才能让RNA-seq结果迅速变成高富帅。本期介绍的方法适用于任意两组RNA-seq ：这两组sample可以是两个发育阶段，找出决定stage I到stage II这个发育过程的关键调控因子。也可以是两种处理条件，例如热刺激和正常生理条件对比，找出哪个关键调控因子应答热刺激，从而调控下游众多功能基因。为啥要变身？ RNA-seq 看基因表达量的变化，这是转录调控的结果； DNase/ATAC-seq 看到调控因子结合与否，这是原因；简单粗暴的讲：调控因子结合/不结合，决定了基因转录/不转录； RNA-seq变身DNase/ATAC-seq ，就能看到调控因子结合状态的差异。别人做RNA-seq找差异基因，你用 RNA-seq变身 DNase/ATAC-seq挖机制。思路如果能找到跟RNA-seq对应的DNase/ATAC-seq sample就最好了。如果没有现成的DNase/ATAC-seq可用，那就让 RNA-seq变身DNase/ATAC-seq ；《老板让找DNA转录调控分子，这个技术十拿九稳》这篇讲了ATAC-seq能帮你解决啥问题；结合motif分析，推测决定两组sample状态差异的关键调控因子；找motif的方法看这篇《点鼠标就能找启动子区的motif | meme-FIMO 》；用ChIP-seq验证第2步的推测。如果有已发表的ChIP-seq数据就可以直接拿来用，查询方法见这篇《转录因子调控了谁？挖全天下所有高通量实验数据，只为您解决这一个问题》；做knockdown/knockout，通过ChIP-qPCR等生化实验，全方位研究这个关键调控因子对两种状态的影响。标书提交后，要为发文章考虑，第一步的ATAC-seq是由RNA-seq变身而来，不够solid，那就按照当初做RNA-seq的实验设计，找嘉因做ATAC-seq，代替第1步。能画出什么图呢？图1 RNA-seq转换成ATAC-seq的效果。左边是真实的DNase-seq数据，右边是由RNA-seq变身的效果，跟左边特别像。详情看这篇《用RNA-seq也能找到开放染色质，ATAC-seq不开森》 Zhou, W., Sherwood, B., Ji, Z., Xue, Y., Du, F., Bai, J., Ying, M. and Ji, H., 2017 . Genome-wide prediction of DNase I hypersensitivity using gene expression. Nature communications , 8(1), p.1038. 图2 从差异ATAC-seq位点找出富集的motif，推测出关键调控因子画出颉伟组上周刚发表的Genome Biology里的图。这图能说明什么生物学问题？参考这篇《表观遗传是怎样遗传的？| 颉伟讲怎样用ATAC-seq研究表观遗传机制的视频》 Li, Y., Zheng, H., Wang, Q., Zhou, C., Wei, L., Liu, X., Zhang, W., Zhang, Y., Du, Z., Wang, X. and Xie, W., 2018 . Genome-wide analyses reveal a role of Polycomb in promoting hypomethylation of DNA methylation valleys. Genome Biology , 19(1), p.18. 图3 上面推测出的关键转录因子能在体内结合重要位点吗？找嘉因做ChIP-seq来验证。看ChIP-seq跟ATAC-seq的重叠（AD），看motif（BE），再举例看具体的几个基因（C）。 Boogerd, C.J., Aneas, I., Sakabe, N., Dirschinger, R.J., Cheng, Q.J., Zhou, B., Chen, J., Nobrega, M.A. and Evans, S.M., 2017 . Probing chromatin landscape reveals roles of endocardial TBX20 in septation. The Journal of clinical investigation , 126(8), pp.3023-3035. ( IF = 12 ) 国自然倒计时两周，来不及补这个图没关系。提交标书后，您再慢慢琢磨这个idea，一定能给您的课题带来新的启示。; 个人分类: 自然NIH|3245 次阅读|0 个评论

RNA-seq这样画图，国自然必得A: ChengyangWang 2018-2-9 14:50; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小丫来源：嘉因 RNA-seq结果只知道画heatmap、富集分析、pathway、network？本文介绍的这几个图，通过整合RNA-seq、已发表的ChIP-seq数据，让你的 RNA-seq图迅速变身高富帅。适用范围 RNA-seq的sample当中，一组是转录因子突变型/过表达/激活，另一组是野生型；有这个转录因子的ChIP-seq数据。去哪查转录因子的ChIP-seq数据？看这篇的Plan B《转录因子调控了谁？挖全天下所有高通量实验数据，只为您解决这一个问题》。没有ChIP-seq数据怎么办？点击左下角“阅读原文”帮你解决。你的RNA-seq不满足这两个条件怎么办？有办法。下期介绍任意两组RNA-seq 的变身秘籍。这些图能回答什么生物学问题？转录因子的功能是激活/抑制？转录因子调控了哪些靶基因？转录因子跟哪些调控因子一起发挥功能？原理 RNA-seq看到了差异基因，简单粗暴的讲：上调的基因是原本被转录因子抑制的，下调的基因原本是被转录因子激活的。 ChIP-seq通过找结合位点推测靶基因。如果多个转录因子调控同一群靶基因，那么这几个转录因子可能形成 regulatory module 发挥调控作用。方法用 BETA能看出转录因子的功能是激活还是抑制，还能准确找到靶基因；用Venn图直观的反映靶基因：如果转录因子的功能是激活，就用下调表达的基因跟ChIP-seq看到的靶基因一起画Venn图，反之亦然；用 CistromeCancer 找调控同一群靶基因的转录因子。能画哪些图？下面每个图3天都能画出来。图1 用RNA-seq和ChIP-seq判断转录因子的功能是激活还是抑制，详见这篇《 ChIP-seq和RNA-seq整合分析，BETA最擅长 | 自己分析数据的完美解决方案》。Tet1的功能是repressive，ESR1既有activiting又有repressive功能。出自Target analysis by integration of transcriptome and ChIP-seq data with BETA. Nature protocols . 2013 图2 用RNA-seq和ChIP-seq推测转录因子的靶基因，画出A图。图D是基因功能富集分析结果，推荐用clusterProfiler，推荐理由：《富集分析，俩人做的结果差5岁 | 你用的注释文件有多老？》。想画图F的看motif系列：《找到了motif，怎样展示结果？》出自Tissue- and stage-specific Wnt target gene expression is controlled subsequent to β-catenin recruitment to cis-regulatory modules. Development. 2016 图3 联合TCGA数据判断这个转录因子是原癌/抑癌基因，还能找到跟这个转录因子一起发挥调控作用的collaborator。看这篇《去TCGA看表型，来CistromeCancer挖机制 | RNA-seq和ChIP-seq的完美结合》。FOXM1跟MYBL2, EZH2, E2F1, E2F2, E2F8, CBX3, TTF2, BRCA1, NCAPG, SSRP1, LIN9的靶基因有很大重叠（c）。其中FOXM1、E2F1、MYBL2的重叠最多，推测这3个转录因子在癌症中形成了regulatory module（d）出自 Cistrome Cancer: A Web Resource for Integrative Gene Regulation Modeling in Cancer. Cancer Research . 2017 图4 从差异表达基因中挑选2个基因，把RNA-seq跟调控这两个基因的调控因子和组蛋白修饰的ChIP-seq数据画在一起。这图有什么生物学意义？看这篇：《他中了国自然，因为最后一周补了这张图》出自MoSET1 (Histone H3K4 Methyltransferase in Magnaporthe oryzae) Regulates Global Gene Expression during Infection-Related Morphogenesis. PLoS Gene tics. 2015 各物种ChIP-seq数据速查做过ChIP-seq或ATAC-seq的物种植物的ENCODE; 个人分类: RNA-seq|14767 次阅读|0 个评论

miRNA家族成员列表下载 | 人/小鼠/果蝇/线虫 | 还提供命令行: ChengyangWang 2017-12-18 15:20; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小哈来源：嘉因同一miRNA家族的miRNA拥有共同的种子seed序列，分享共同的靶基因（不完全相同），因此，研究miRNA与protein-coding gene、lncRNA、circle RNA的调控关系时，都要check一下同一family的miRNA。怎么知道谁和谁是一家？当然要查最权威的miRBase。研究miRNA，大家都知道miRBase数据库，不仅有序列和位置信息，还能下载miRNA family，即miRNA家族信息。下载miFam.dat文件，用记事本或写字板可以打开，推荐用 Notepad++ ，文件长这样：先有一行miRNA family ID，例如mir-17，下面都是mir-17家族成员。接下来是下一个家族名字及其成员。我研究的是人的miRNA，只对人的成员感兴趣，需要按照家族把成员提取出来。小哈把人、小鼠、果蝇、线虫的家族整理好了，每个物种一个文件。例如，人的miRNA（前两列）都属于哪个家族（后两列），一目了然：被这篇帖子生信入门路 | 生物/医学人的生信启蒙忽悠入坑生信的小朋友，试着自己提取：不懂生信，不装Linux，也能Run代码—Windows系统的Linux命令行工具Babun 在Babun里，运行下面的代码： awk '{if($1==AC){ac=$2};if($1==ID){id=$2};if($1==MI){split($3,a,-);if(a ==hsa){print $2,$3,ac,id}}}' miFam.dat hsa.mir.txt 注意：复制粘贴的时候引号可能会变，如果变了，要把引号改回英文半角。 Have Fun ~; 个人分类: RNA-seq|6607 次阅读|0 个评论

miRNA的RT-qPCR验证，小伙伴儿亲测，高效，便宜，不限物种: ChengyangWang 2017-12-18 15:08; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小丫来源：嘉因去年6月，小丫写了这篇帖子，吸引了好多小伙伴儿用这套方法做验证，有了困惑通过销售转告给小丫，小丫解答的很开心~ ~ ~ 现在重新整理一下帖子，力求描述的更清晰，希望能更方便的帮助更多的小伙伴儿 ~ 做了miRNA-seq，找到差异表达miRNA后，要做验证，Taqman探针好贵，LNA也没便宜多少~ 我要做的miRNA不在商品化的探针目录里，需要定制，贵，时间还长~ 有什么高效且经济的方法吗？小丫今天推荐带接头的引物+ SybrGreen染料法：一步完成加polyA尾巴和反转录；用miRprimer软件设计基因特异的上下游引物，用SybrGreen做qPCR。溶解曲线漂亮，Ct值20出头，跟miRNA-seq趋势一致；小丫的小伙伴儿亲测，人、小鼠、果蝇，都有效。原理一目了然：第一步：设计基因特异引物：小丫喜欢把该物种的所有miRNA都设计出来，需要做哪个基因，把相应的引物复制出来就好。 1. 到miRBase下载该物种的所有miRNA序列：进入 http://www.mirbase.org，点击Browse； Expand all，点击你要的物种的拉丁名；进入这个页面：在最下方，选择Mature sequence，点击select all，点击Fetch Sequences，就获得了该物种的所有miRNA成熟体序列。复制，粘贴到一个文本文件中，一定要扩展名是txt的那种最简单的文本文件，文件名一定要叫input_miRs.txt 。 2. 进入 https://sourceforge.net/projects/mirprimer，下载 miRprimer，把这7个文件都下载到同一个文件夹，给文件夹取个名字叫miRprimer 。把第一步获得的 input_miRs.txt文件也放入 miRprimer文件夹中。它一次最多计算25个miRNA的引物，所以，如果你的miRNA列表超过25个，需要分多次放入imput_miRs.txt文件当中。注：文件名只能是 input_miRs.txt，否则这个软件不认识~~ 在Windows系统下双击miRprimer2.exe，会有个黑色窗口闪过，没错，就是闪过，然后发现多出来5个文件，就是结果。不用设置任何参数，不用输入任何命令。所有的引物对都在result_all_primer_pairs.txt文件里，相邻的两行是一对引物，例如，F_3和R_2是第一对引物，F_2和R_2是第二对引物。刚开始为了节约时间，小丫给每个miRNA合成了2对引物。 2对引物可能只有3条，而不是4条，因为共用了一条下游引物R_2。检测溶解曲线是否干净，查看Ct值是否太大。保留一个溶解曲线干净，Ct值低的做样品的qPCR。亲测20个miRNA，往往是第一对引物就很好用，溶解曲线很干净，Ct值介于20-30之间。有个别miRNA的两对引物都有双峰，又合成了第三对引物，还是有双峰，这样的miRNA就得换实验方法了。所以，推荐的策略是：每个miRNA先合成一对引物，如果不好用，再合成第2、3对引物，再不好用，换实验方法。最好的一对都给整理好了，在result_best_primer_pairs.txt文件里：拿这对引物做qPCR，文章作者的成功率也很高：第二步：合成通用的反转录引物和基因特异引物。反转录引物序列：5’-CAGGTCCAGTTTT TTTTTTTTTTTVN, where V is A, C and G and N is A, C, G and T. 引物合成订单表如下：连同第一步获得的基因特异引物一起送公司合成，PAGE级别。第三步：加polyA和反转录反应体系如下： 1ul 10X polyA polymerase buffer（NEB, M0276S） 1ul 1mM ATP（20ul 10mM + 180ul H2O） 1ul 10uM RT-primer 1ul 1mM dNTP（NEB, N0447S, 20ul 10mM + 180ul H2O） 0.5ul 200U/ul SuperScriptreg; III Reverse Transcriptase（Invitrogen, 18080093） 0.2ul 100U/200ul polyA polymerase （NEB, M0276S） 10pg to 100 ng RNA sample complete with RNase-free water up to 10ul. 反应条件如下： 42C, 1h；95C, 5min 稀释： 4 ~ 8 X，分装，-20C冻存。注：RNA的量一定要按照要求控制好， 10ul体系10pg to 100 ng RNA sample ，不要贪多。总RNA里miRNA的比例的确很低，所幸Invitrogen的SuperScriptreg; III Reverse Transcriptase反转录效率很高。如果RNA加的太多，反而降低反转录效率，得不偿失，切记！！第四步，RT-qPCR 反应体系： 10ul SybrGreen Master Mix（Roche, 4913914001） 9ul primer（50ul 2uM Forward primer + 50ul 2uM Reverse primer + 900ul H2O） 1ul cDNA 反应条件： 95C, 5min; 95C, 15s; 60C, 30s; 40 cycles 95C, 15s; 60C, 30s; 4C, 1h 仪器：ABI StepOnePlus，用机器默认的溶解曲线程序。注：原文使用的反转录酶是NEB的MuLV，亲测1/3的miRNA的Ct值超过了30，改用Invitrogen的SuperScriptreg; III Reverse Transcriptase，所有miRNA的Ct值降至20出头。所以推荐使用反转录效率高的SSIII，价格贵一半，效率高2的n次方。该方法出自文献：方法：doi:10.1186/1471-2105-15-29 软件：doi:10.1186/1472-6750-11-70 protocol：10.1007/978-1-4939-1062-5_7 相关文章 RT-qPCR验证，选哪个lncRNA的哪段设计引物？我要百发百中！; 个人分类: RNA-seq|12794 次阅读|0 个评论

全世界的miRNA分析工具都在这里: ChengyangWang 2017-12-18 15:00; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小丫来源：嘉因如果评选年度最佳生物信息网站，我就选tools4miRs ！来自伟大的波兰，居里夫人的祖国！纪念居里夫人诞辰150周年。延伸阅读：居里夫人诞辰150周年 | 重温饶毅《光荣背后的辛酸》 ——科研春秋，《知识分子》旗下的科学史平台。这是去年发表在Bioinformatics上的一个工具，Tools4miRs， https://tools4mirs.org/，目前已收录了200个miRNA分析工具。有高通量测序数据的分析工具，也有单个序列的分析工具。包括数据库、测序数据分析、All-In-One工具、7类software，还提供多个工具平行预测靶基因功能。其中，7类software包括：鉴定已知miRNA 鉴定isomiRs 分析新的miRNA/Precursor 差异表达分析靶基因预测靶基因功能分析 miRNA的SNP分析以靶基因预测为例，有以下工具。列出了在线还是本地、适用的物种、算法特点、是否要求高通量测序数据作为输入、带不带靶基因功能富集分析功能、参考文献。 References列有该工具Homepage链接、paper网页链接、Pubmed引用链接。真是人性化啊！如果能按参考文献的年代排序就做到了极致。工具太多，眼花缭乱？还提供筛选功能，太贴心了。还能直接选择多个个工具，在它的服务器上预测靶基因，平行对比多个工具的结果。实践出真知，https://tools4mirs.org/，收藏本帖，在电脑端打开微信，开始实践吧！延伸阅读 miRNA家族成员列表下载 | 人/小鼠/果蝇/线虫 | 还提供命令行 miRNA的RT-qPCR验证，小伙伴儿亲测，高效，便宜，不限物种（附各试剂货号）; 个人分类: RNA-seq|5910 次阅读|0 个评论

选哪个lncRNA的哪段设计引物？RT-qPCR验证，我要百发百中！: 热度 1 ChengyangWang 2017-12-18 13:40; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小丫来源：嘉因前几年是lncRNA测序时代，最近进入了后lncRNA时代，人们都在研究lncRNA的功能和调控机制。去年4月，小丫写了这篇帖子，得到的评价是“看透了lncRNA验证，但描述得不够清楚”。最近又遇到有人问这个问题，就把这帖子拿出来，重新编辑，力求逻辑更顺畅，把脑中所想传达给更多的人。问题的提出 lncRNA-seq获得了大量差异表达lncRNA，要做RT-qPCR验证。选哪个lncRNA？选变化倍数大的？表达量高的？选lncRNA的哪段设计引物？跟其它基因有重叠怎么办？总体原则 1. 用跟测序同一批次的RNA样品做RT-qPCR； 2. 按lncRNA类型排序，优先选择lincRNA（基因间的lncRNA），和位于其他基因intron区的lncRNA；与其他基因exon有重叠的lncRNA，可选择其中无重叠的区段； 3. 按表达丰度TPM排序，优先选择前50%的lncRNA；按变化倍数排序，优先选择前50%的lncRNA；注：具体限制多少TPM或变化倍数，由整体测序深度和差异表达基因的数量决定，保留排在前面的一半左右，自己斟酌； 4. 一定在测序结果里看到明显变化的峰的位置设计 RT-qPCR引物；为什么遵循以上原则？下面逐个解析。解决方案一、Sample准备 RT-qPCR验证sequencing结果，是用一个技术平台验证另一个技术平台的结果，所以，除了所使用的技术平台不同以外，其他条件都要尽量相同，其中最重要的就是样品一定要相同。测序和RT-qPCR，要求来自同一管RNA 。如果要做RT-qPCR时需要再次提取RNA ，那么退而求其次，要来自跟测序样品同一批次的细胞或同一块组织。具体可以这样操作，分两种情况：如果送RNA 到测序公司。自己提取RNA，一半RNA送公司测序，保留另一半RNA，冻存于 -80，最好存液氮，或者反转录后存cDNA。如果送细胞或组织到测序公司。由测序公司提取RNA，要求测序公司将剩余的RNA返还。测序分析结果回来了，用跟测序同一批次的RNA样品做RT-qPCR。如果用来做RT-qPCR的样品跟测序不是同一批次，那么你验证的就是两层面的叠加：技术平台间的差异 + 生物学重复间的差异。如果结果不一致，就搞不清楚是技术造成的差异，还是生物学重复的不一致。二、不能选哪种lncRNA 先说什么样的lncRNA不能选来做qPCR验证。用链特异性Strand-specific技术建库的lncRNA-seq，能够区分来自正义链和反义链的转录本，而普通的RT-qPCR无法区分来自不同链的RNA。因此，不能选与其他基因exon重叠的lncRNA ，否则，RT-qPCR结果就混合了两个基因的表达量。最好选择基因间的lncRNA ，即lincRNA，跟其他基因没有重叠。其次选择位于其他基因intron区域的lncRNA 。再次，如果lncRNA的一部分与其他基因的exon重叠，另一部分不重叠，就选不重叠的那部分。三、选哪个lncRNA 表达量高的优于表达量低的，更容易做RT-qPCR，Ct值更低，结果更可靠；另外，表达量高的基因，其差异表达筛选时的准确性更高。表达量用丰度TPM来衡量，点击链接查看详情：同一套RNA-seq，为什么公司做的跟师兄跑的结果不一样？ | TPM、read counts、RPKM/FPKM你选对了吗？同样用Ensembl算TPM，结果还是不一样？ | Ensembl的注意事项同样算read counts，为什么公司跟师兄算的结果不一样？| Ensembl、UCSC、Refseq，该用哪个由于测序和RT-qPCR原理不同，所以sequencing和RT-qPCR计算出来的变化倍数不可比，只要变化趋势相同就算结果一致。四、选哪段到IGV里查看wig文件，哪个区段峰高，并且在组间变化明显，就选哪段设计PCR引物。 lncRNA 某些区域可能看不到read ，这可能是以下原因导致的：1. 基因有不同isoform ，在你的样品里可能只表达其中一种isoform； 2. PCR或测序偏好； 3. 基因结构注释有问题。 RNA-seq计算lncRNA表达量和筛选差异基因时，用的是lncRNA全长read counts的总和，不代表每个区段都有表达或表达差异。因此，选择高峰所在的区段做qPCR，能保证万无一失。举例子在IGV里面打开wig文件，在IGV里逐个搜索满足上述原则的lncRNA ，查看read分布。栗子一下图这个lncRNA位于基因间区，有不同的isoform，其中一些exon的read counts较多，如图中三个较高的蓝色峰，且在两个样品间有明显的变化，这三个峰所在的位置就适合设计引物。怎样拿到序列呢？点击IGV里的这个小图标，然后在你感兴趣的区段左边点一下鼠标，右边点一下鼠标，就出现红色的那一段了，在红色区域点右键，copy sequence，粘贴到你的引物设计软件里，就OK啦！栗子二对于链特异性建库的lncRNA-seq数据，每个sample有Forward和Reverse两个track，分别代表正义链和反义链，你能看到两条链上转录出来的不同的转录本。下图这个lncRNA位于一个蛋白编码基因的antisense（箭头标明转录方向），虽然gene结构注释认为lncRNA位于内含子区域，但其下游仍有较多的read分布，可能是基因结构注释的问题。我标出红色的区域跟另一个基因的exon没有重叠。这里的四个track，分别是第一个sample的 Forward和Reverse，和第二个sample的 Forward和Reverse。两个sample的Reverse 间有明显的差异，可用来设计引物。最后，用哪个软件设计引物？推荐primer3，http://primer3.ut.ee，简单高效。 Product Size Ranges限制为80-150，其余全部默认。我的经验是它设计出来的第一对引物就好用。下面的帖子可能对你有帮助： miRNA的RT-qPCR验证，小伙伴儿亲测，高效，便宜，不限物种（附各试剂货号）谁来调控我感兴趣的lncRNA/circRNA/miRNA | 100%可行的解决方案V2.0 同一套RNA-seq，公司筛出的差异基因跟师兄筛出的为什么不一样？| Pvalue, FDR, cutoff 同样用Ensembl算TPM，结果还是不一样？ | Ensembl的注意事项同样算read counts，为什么公司跟师兄算的结果不一样？| Ensembl、UCSC、Refseq，该用哪个同一套RNA-seq，为什么公司做的跟师兄跑的结果不一样？ | TPM、read counts、RPKM/FPKM你选对了吗？ heatmap画不好会得出错误结论 | 数据预处理、聚类分析，HCL、 K means里的讲究富集分析，俩人做的结果差5岁 | 你用的注释文件有多老？; 个人分类: RNA-seq|20626 次阅读|1 个评论

史上最全ncRNA数据库：RNAcentral | 最权威的EMBL-EBI出品: ChengyangWang 2017-12-18 13:34; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小丫来源：嘉因小伙伴儿问：“我老板让我查查在家蚕里小分子rna库什么的，我有点摸不到头脑！” 小丫给她指了条明路：Google 小伙伴儿吐槽：上不去google 小伙伴儿们都用哪个搜索引擎？用百度？用bing？用sogo？好多关注嘉因的小伙伴儿是在微信里搜ChIP、ATAC等技术贴搜来的！感谢微信，感谢张小龙！求高人推荐好用的搜索引擎！！！为解决小伙伴儿找家蚕小分子RNA的问题，我给她推荐了这个史上最全的非编码RNA数据库——RNAcentral。包含所有物种的所有ncRNA，整合了多个数据库的资源。包括这么多种ncRNA： tRNA rRNA miRNA lncRNA snoRNA piRNA SRP RNA vault RNA and many others 史无前例大一统。建立统一规则，所有数据库，统统纳入麾下。不用在数据库之间跑来跑去，倒腾规则不统一的表格。早在2014年已经有推荐RNAcentral的微信贴了：《 RNAcentral提供ncRNA数据的单一访问点》来自欧易生物，转载自生物通。如今已升级到V7，收录的ncRNA序列增加到11,735,072条。整合的数据库从10个增加到25个。 3 - 4个月更新一次版本，网站更新的更勤快。突出特点：实践出真知 http://rnacentral.org/ 有Help，有Training，足够解决您的所有疑问。 miRNA相关扩展阅读： miRBase物种名缩写速查表 | 分享解决问题的过程，包治百病全世界的miRNA分析工具都在这里 | 平行对比多个工具的靶基因预测结果 miRNA家族成员列表下载 | 人/小鼠/果蝇/线虫 | 还提供命令行 miRNA的RT-qPCR验证，小伙伴儿亲测，高效，便宜，不限物种（附各试剂货号） RNA相关扩展阅读：测多少数据量？几个G？多少reads？如何换算？ RNA-seq要做几次生物学重复？找出来的100%都是真正的应答基因欲哭无泪的p-value = 0.051 | 做几次重复能得到较低的p-value | Power in statistics heatmap画不好会得出错误结论 | 数据预处理、聚类分析，HCL、 K means里的讲究同一套RNA-seq，为什么公司做的跟师兄跑的结果不一样？ | TPM、read counts、RPKM/FPKM你选对了吗？同样算read counts，为什么公司跟师兄算的结果不一样？| Ensembl、UCSC、Refseq，该用哪个同样用Ensembl算TPM，结果还是不一样？ | Ensembl的注意事项同一套RNA-seq，公司筛出的差异基因跟师兄筛出的为什么不一样？| Pvalue, FDR, cutoff 富集分析，俩人做的结果差5岁 | 你用的注释文件有多老？链特异RNA-seq数据不这么看就浪费了 | antisense上的lncRNA-seq 选哪个lncRNA的哪段设计引物？RT-qPCR验证，我要百发百中！; 个人分类: RNA-seq|5420 次阅读|0 个评论

链特异RNA-seq数据不这么看就浪费了 | antisense上的lncRNA-seq: ChengyangWang 2017-12-18 12:53; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小丫来源：嘉因大家都会做方便面，有人做辛拉面，有人做三鲜伊面，工艺有何不同？大家都会做RNA-seq，有人能筛出有意义的基因，有人能找出有价值的线索，有人。。。差别在哪？前六期介绍了通过去除核糖体rRNA建库的数据处理、参考基因组的选择、均一化处理、差异基因筛选、画heatmap和富集分析的合理方法：第六期：去除rRNA：同样用Ensembl算TPM，结果还是不一样？ | Ensembl的注意事项第五期：gene model ：同样算read counts，为什么公司跟师兄算的结果不一样？| Ensembl、UCSC、Refseq，该用哪个第一期：数据预处理：同一套RNA-seq，为什么公司做的跟师兄跑的结果不一样？ | TPM、read counts、RPKM/FPKM你选对了吗？第二期：差异基因筛选：同一套RNA-seq，公司筛出的差异基因跟师兄筛出的为什么不一样？| Pvalue, FDR, cutoff 第三期：heatmap ： heatmap画不好会得出错误结论 | 数据预处理、聚类分析，HCL、 K means里的讲究第四期：富集分析：富集分析，俩人做的结果差5岁 | 你用的注释文件有多老？在选哪个lncRNA的哪段设计引物？RT-qPCR验证，我要百发百中！一文中，小丫谈到用链特异性建库方式做RNA-seq，能够明确的看出read来自哪条链，即：来自蛋白编码基因，亦或是来自antisense上转录出来的lncRNA；而普通RT-qPCR无法区分来自不同链的RNA。做了链特异性建库测序，却不懂得如何看数据，就浪费了宝贵的链特异信息。嘉因生物做链特异lncRNA-seq，为您提供来自Foward和Reverse的2个bigwig文件，清楚直观的查看蛋白编码基因和antisense上lncRNA的表达情况。了解去除rRNA和链特异性的RNA-seq，先看【陈巍学基因】视频15：RiboZero和方向性RNA文库下面转载一篇生信技能树的帖子：链特异建库那点事，把链特异性建库的问题都掰扯明白了。大长文，列了个提纲。总结几条笔记，免得现在看明白了，过两天又不明白了。 1. RNA-seq基本流程。反转录用的随机引物并不均匀导致fastQC结果的前6个碱基GC含量分布不均匀。为什么加接头？为什么要双端测序？ 2. 链特异性测序。原理、流程 3. 正正反反不清楚。 DNA整体概念：正链：forward；负（反）链：reverse 局部基因概念：正义链：sensestrand，携带编码蛋白质信息的链反义链：antisensestrand，与正义链互补的链 4. dUTP到底是怎么回事 dUTP方式测序R1文件中read1的方向和基因的方向（正义链）是相反的，而R2文件中的read2方向和基因的方向是相同的。 mapping后的bam文件拖到IGV里，怎么看？ Read strand模式：看同一片段上测到的两个reads：蓝色：负链，位于正链的基因此read为R1，位于负链的基因此链为R2；红色：正链，位于正链的基因此read为R2，位于负链的基因此链为R1； first of pair of strand模式：看片段来自哪条链，以此区分哪些片段来自蛋白编码基因，哪些片段来自antisense上的lncRNA：蓝色：片段来自正链红色：片段来自负链 5. 几个常用软件的设置 hisat2 --rna-strandness RF tophat --library-type option fr-firststrand htseq-count：–s reverse rsem：--forward-prob0 sXpress --rf-stranded / --fr-stranded trinity --SSlibtype RF 6. 参数错了又怎样？链特异性当作普通建库数据：具体某一个基因而言，影响不会太大，因为绝大多数反义链本身表达量就非常低。普通建库当作链特异性数据处理：会损失大量的数据，没剩下几个read。计算出来的结果自然也会有非常大的差异，是不准确的。链特异建库那点事原创 2017-10-25 思考问题的熊关于链特异性测序的若干问题，很久以前就以为自己想清楚了，但是每次提起它的时候又容易重新产生各种各样的小困惑。于是整理一下，以免以后再时不时犯迷糊。很多东西就是这样，你以为的明白并不是真的明白，一年前的明白和一年后的明白也不是同一个明白。我这么说，不知道你能明白还是不明白。 RNA-seq基本流程下图是一个大概的RNA-seq基本流程把RNA破碎成小片段，然后将RNA转变成一条cDNA，这一步需要用到反转录酶 reverse transcriptase (RT) 才能用RNA作为模板合成DNA。不论是转录还是反转录都需要引物。通常如果我们要mRNA，那就可以用oligo-dT作为RT的引物，但是用它有两个问题，第一个是只能反转录那些有A尾巴的RNA，第二个问题是RT不是一个高度持续性的聚合酶，可能让转录提前发生终止，造成的结果就是3'端要比5'端reads富集，这样就会使得后续定量分析带来bias。另一种常用的引物称为随机引物，随机引物的好处是没有A尾巴的诸如ncRNA也被留下了，而且不会存在明显的3'端偏差。但是很多研究也发现，所谓的随机引物根本就不随机，这也是测序结果中，通常前6个碱基的GC含量分布特别不均匀的原因。这几个碱基GC含量均匀很可能不是接头或者barcode那些东西，其实是Illumina 测序RT这一步的random hexamer priming 造成的bias，很多人在处理数据的时候会把这几个碱基去掉，其实很多时候真多RNA-seq数据去不去掉基本什么影响，不过开头如果有低质量的碱基倒是应该去掉。随后是第二条链合成，这一步用是DNA聚合酶，以刚才合成的第一条链作为模板。接下来就是在序列两端加上接头，加接头一方面是为了让机器可以识别这些序列，把这些序列固定；二是为了让多个样品可以同时上机，平摊每个样品的测序价格。双端测序为了让read从两边开始延伸，也需要在两端有所需的引物。下表是常见接头种类。所谓双端测序，因为很多时候read的长度要短于insert，为了增加覆盖度于是就想出了从insert两端同时测序的办法。使得测序深度增加的同时也能够用来判断isoform方向。对于illumina数据，有一条5-3的universal adaptor；还有一条是3-5的indexed adatpor，这条引物含有特异常的barcode。需要说明的是，在双端测序中，如果insert 不是足够长，那么R1可能就会测到R2的引物，同时R2可能会测到R1引物的反向互补序列。大概的意思就是下面两张图。加了接头以后进行PCR的扩增。扩增后就开始测序，测序的过程如下图所示。测序的基本思想是机器识别四种碱基发出的不同颜色的荧光，可以理解为一个flow cell 立着非常多序列，机器一层一层扫过去，通过识别荧光而判断这一层每个序列的碱基是什么。因为一个cell密密麻麻的全是荧光信号，机器并不是总能把每一个判断的非常准确，如果某一个荧光信号没有那么清晰，这个碱基的测序质量就比较低，如下图。有的时候，如果一大片点都是同一种荧光，机器也可能犯晕，不知道到底哪一个荧光属于哪一个序列。这种情况尤其是在序列的前几个碱基容易发生。 The sequencing machine uses the first few bases to establish where the cDNA fragments are on the flow cell. If all of the bases in one part of the flow cell are all the same, like 'C', and all show up green in the picture, then the colors will bleed together and it will not be clear where exactly all of the reads are. In contrast, if you have a lot of different colors in a region, it's easier to determine where each one is, even with a little color bleed. 链特异性测序和普通的RNAseq不同，链特异性测序可以保留最初产生RNA的方向，普通建库方式为什么不行呢？因为传统建库方式通过两个接头的ligation把RNA已经变成了双链DNA，最后的文库中一部被测序的链对应正义链（sense strand），一部分被测序的链测是反义链。链特异性建库方式有不止一种，对应到不同的软件又有不同的叫法，下面是几种称呼。要记住的是dUTP 测序方式的名字是fr-firstrand，也是RF。至于具体的read方向接下来通过更详细的IGV截图说明问题。链特异性建库方式（以目前最常用的dUTP为例，如下图所示）首先利用随机引物合成RNA的一条cDNA链，在合成第二条链的时候用dUTP代替dTTP，加adaptor后用UDGase处理，将有U的第二条cDNA降解掉。这样最后的insert DNA fragment都是来自于第一条cDNA，也就是dUTP叫fr-firststrand的原因。对于dUTP数据， tophat 的参数应该为 –library-type fr-firststrand 。这里的first-strand cDNA可不是RNA strand，在使用 htseq-count 时，真正的正义链应该是使用参数 -s reverse 得到的结果。正正反反不清楚说到链特异性测序，实在让人困惑的是各种链的概念，尤其是翻译成中文就更说不清了。 DNA 的正链和负链，就是那两条反向互补的链。参考基因组给出的那个链就是所谓的正链（forward），另一条链是反链（reverse）。但是这正反一定不能和正义链（sense strand）反义链（antisense strand）混淆，两条互补的DNA链其中一条携带编码蛋白质信息的链称为正义链，另一条与之互补的称为反义链。但是携带编码信息的正义链不是模板，只是因为它的序列和RNA相同，正义链也是编码链。而反义链虽然和RNA反向互补，但它可是真正给RNA当模板的链，因此反义链也是模板链。总结两点正义链（sense strand）= 编码链（coding strand）= 非模板链 forward strand 上可以同时有sense strand 和 antisense strand。因为这完全是两个不同的概念。写这篇文章的原因，就是因为有人问我，链特异性测序数据 htseq-count 的结果是不是应该把正负链的基因分别在-s yes 和-s reverse 两个参数结果中统计出来再做下游分析。这里犯的错误就是我们混淆了基因组正反链和基因正义反义链的概念。 dUTP到底是怎么回事从前文的一个图我们可以总结出 dUTP方式测序R1文件中read1 的方向和基因的方向（正义链）是相反的，而R2文件中的read2 方向和基因的方向是相同的。可以参考下面的两个igv文件bam截图。首先解释一下igv 两个颜色参数的意义 Read strand in pastels, red for positive rightward (5' to 3') DNA strand , blue for negative leftward (reverse-complement) DNA strand , and grey for unpaired mate, mate not mapped, or otherwise unknown status. First-of-pair strand assignment is dependent on RNA transcript directionality and is useful for directional libraries. Displays reads or read pairs in which the forward read is first (F1 or F1R2) in red and reads or read pairs in which the reverse read is first (R1 or R1F2) in blue. Unknown status is in gray. For a given transcript, non-directional libraries will show a mix of red and blue reads aligning to the locus. Directional libraries will show reads of one color in the direction matching the transcript orientation. 下面这个图示按照igv 颜色选项中的read strand 方向进行区分，可以看到所有红色read都是在正链方向（注意正链不是正义链），而所有蓝色的read都是负链方向。下面基因的方向是正链方向，也就是和红色的read同向的，如果你把鼠标放到随意一个红色的read上，就能看到显示的信息是 second of pair ，也就是 pair中的read2（R2）；反之如果你在蓝色的read上面，就会显示信息是first of pair，也就是R1 。总结，dUTP测序中pair read 中的read1（R1）和基因方向相反，read2（R2）和基因方向相同再看下面这张图这张图展示了两个基因1和2，我们可以发现 gene1的正义链就在正链上，而 gene2的正义链其实是在反链上。看read情况，a，c两个read虽然针对正链负链而言方向一致，都是负链方向，但是如果把 a是pair中的read1（first of pair ），而 c是pair中的read2（second of pair）。也就是说， read方向一致，但一个是read1一个是read2，说明这两个read对应的基因一定是反向的。同样的道理，虽然 b，d都是两个方向为负链的read，但是b其实是所在pair的read2（second of pair），而d是所在pair的read1（first of pair）。再次强调，dUTP测序中pair read 中的read1（R1）和基因方向相反，read2和基因方向相同当使用read strand来进行颜色区分的时候，每一个基因上两种颜色的分布应该相对均匀（也就是所谓的pair end）。如果这个时候把颜色选项改为按照 first of pair of strand 来区分，会出现下图的变化。 gene1的read全部变成了蓝色，而gene2的read全部变成了红色。如果是非链特异性测序，在 first of pair of strand 模式下，同一个gene相关的read颜色也是明显混杂的。如下图再一次总结： dUTP 链特异性测序中，RNA 方向（gff文件中基因的方向）与read1相反，与read2相同。如果read1比对到基因组正链上，则对应的gene在基因组负链；如果read2比对到基因组正链则对应的gene在基因组正链。 dTUP 测序方式叫做fr-firstrand（留下的是cDNA第一条链），也是RF。如果dUTP链特异性测序，看基因表达量应该 counts for the 2nd read strand aligned with RNA(htseq-count option -s reverse, STAR ReadsPerGene.out.tab column 3 ) 如果想看反义链是否有转录本（比如NAT）应该用 the 1st read strand aligned with RNA ( htseq-count option -s yes，STAR ReadsPerGene.out.tab column 4) 几个常用软件的设置 STAR mpping 时无需特别设置，但如果不是链特异性数据且下游分析要用到cufflinks 则需要增加参数 --outSAMstrandField intronMotif。为的是增加一个XS标签。 If you have stranded RNA-seq data, you do not need to use any specific STAR options. Instead, you need to run Cufflinks with the library option --library-type options. For example, cufflinks... --library-type fr-firststrand should be used for the standard dUTP protocol, including Illumina’s stranded Tru-Seq. hisat2 --rna-strandness RF 目的也是给比对序列添加一个XS标签以区分方向，方便cufflinks使用。 For single-end reads, use F or R. 'F' means a read corresponds to a transcript. 'R' means a read corresponds to the reverse complemented counterpart of a transcript. For paired-end reads, use either FR or RF. With this option being used, every read alignment will have an XS attribute tag: '+' means a read belongs to a transcript on '+' strand of genome. '-' means a read belongs to a transcript on '-' strand of genome. tophat --library-type option fr-firststrand 具体解释参见下表 htseq-count -s reverse/yes(看反义链) For stranded=no , a read is considered overlapping with a feature regardless of whether it is mapped to the same or the opposite strand as the feature. For stranded=yes and single-end reads, the read has to be mapped to the same strand as the feature. For paired-end reads, the first read has to be on the same strand and the second read on the opposite strand. For stranded=reverse , these rules are reversed. RSEM --forward-prob 0（正义链）1（看反义链） The RNA-Seq protocol used to generate the reads is strand specific, i.e., all (upstream) reads are derived from the forward strand . This option is equivalent to --forward-prob=1.0 . With this option set, if RSEM runs the Bowtie/Bowtie 2 aligner, the '--norc' Bowtie/Bowtie 2 option will be used, which disables alignment to the reverse strand of transcripts. (Default: off) Probability of generating a read from the forward strand of a transcript. Set to 1 for a strand-specific protocol where all (upstream) reads are derived from the forward strand, 0 for a strand-specific protocol where all (upstream) read are derived from the reverse strand , or 0.5 for a non-strand-specific protocol. (Default: 0.5) sXpress --rf-stranded / --fr-stranded(看反义链) --fr eXpress only accepts alignments (single-end or paired) where the first (or only) read is aligned to the forward target sequence and the second read is aligned to the reverse-complemented target sequence. In directional sequencing, this is equivalent to second-strand only. --rf eXpress only accepts alignments (single-end or paired) where the first (or only) read is aligned to the reverse-completemented target sequence and the second read is aligned to the forward target sequence. In directional sequencing, this is equivalent to first-strand only. trinity --SS lib type RF Trinity performs best with strand-specific data, in which case sense and antisense transcripts can be resolved. RF : first read (/1) of fragment pair is sequenced as anti-sense (reverse( R )), and second read (/2) is in the sense strand (forward( F )); typical of the dUTP/UDG sequencing method. 参数错了又怎样？到这里，会想问两个问题。有时候我们不知道数据的建库方式是不是链特异性的，如果弄错了结果会怎么样呢？如果你用STAR mapping 完可以用igv像上文提到的那样，看看是不是链特异性测序。下面是两个真是数据的count 统计情况。对于仅仅进行基因表达定量来说，把链特异性数据当作普通建库数据来处理，可以观察第2列数据和第4列数据。具体某一个基因而言，影响不会太大，因为绝大多数反义链本身表达量就非常低。不过可以注意 noFeature 和 ambiguous 这两个值，因为基因组中存在两个基因分别在正链和负链且又重叠的情况，不区分方向会比区分方向的ambiguous数目多一些。因为如果不能通过方向来区分到底属于哪个基因，这样的read就会被认为是ambiguous。但是因为区分了方向，又会使得noFeature的数目更多一些。不过两者总体影响不会差别非常大。如果不能判断建库方式，在htseq中使用-s no 参数是一个比较保险（虽然不是非常精确）的做法。相反，如果把普通建库方式的数据当作链特异性数据来处理。比如在htseq-count中使用了-s reverse 参数，这个时候只有R2方向和基因方向相同的pair才用来算作一个count ，所有R2和基因方向不同的pair就被当作no feature了。这样的结果影响可以通过下面的表格观察。用正常方法数出的noFeature 是6万左右，而用-s yes或者reverse数出来的noFeature 就接近46万了。将近40万的read 被丢掉。所以，如果把普通建库的数据误当作链特异性数据来处理极有可能会损失大量的数据，如果弄错了链特异性建库的方式，那坑你就没几个read剩下了。另外，计算出来的结果自然也会有非常大的差异，是不准确的。作者：思考问题的熊几年前分享过一些考研经历和备考建议而被部分考研人所知，也分享过一些英语学习相关的内容而被调侃戏称为“靠谱学长”。目前在中科院上海植物生理生态研究所硕博连读，努力在生物信息学菜鸟晋级的路上前进。参考资料和更多文章可以移步作者博客 http://kaopubear.top; 个人分类: RNA-seq|25796 次阅读|0 个评论

富集分析，俩人做的结果差5岁 | 你用的注释文件有多老？: ChengyangWang 2017-12-18 12:45; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小哈来源：嘉因大家都会做方便面，有人做辛拉面，有人做三鲜伊面，工艺有何不同？大家都会做RNA-seq，有人能筛出有意义的基因，有人能找出有价值的线索，有人。。。差别在哪？前三期介绍了数据均一化处理、差异基因筛选和画heatmap的合理方法：第一期：数据预处理：同一套RNA-seq，为什么公司做的跟师兄跑的结果不一样？ | TPM、read counts、RPKM/FPKM你选对了吗？第二期：差异基因筛选：同一套RNA-seq，公司筛出的差异基因跟师兄筛出的为什么不一样？| Pvalue, FDR, cutoff 第三期：heatmap： heatmap画不好会得出错误结论 | 数据预处理、聚类分析，HCL、 K means里的讲究本文看富集分析有啥讲究？在最靠谱的富集分析，超炫的展示方式，TCGA也是他的粉丝【老客户福利】一文中谈到，clusterProfiler的优势之一是注释最新，大部分工具做KEGG富集分析用的都是2012年的版本，只有clusterProfiler实时抓取KEGG最新版数据做富集分析。 2016年8月，有人专门吐槽各种富集分析工具用的注释有多老，探讨过时的注释对富集分析结果的影响。 3900篇文章中67%用的工具注释版本古老，只用到了当前biological processes和pathway注释资源的26%。其实GO注释每天都在更新，Pathway数据库例如Reactome和PathwayCommons每个季度都在更新。42%的工具超过 5年没更新，例如被引用次数超级高的DAVID，没错，就是那个鹤立鸡群的红色bar： DAVID当时的版本是2010年的，被吐槽后两个月，2016年10月终于更新到目前的版本。五年来，注释文件发生了哪些变化呢？ Biological process的GO注释term是5年前的2倍，Reactome Pathway的注释term是5年前的1.5倍。人和小鼠的注释是5年前的2倍，其他模式生物缓慢些，1.3倍。多数gene参与的pathway数从2010年的10个增加到2016年的16个。 GO注释中有些是计算机自动给出的，叫做电子注释，IEA（inferred from electronic annotations），2009年电子注释IEA占37%，2016年，IEA仅剩14%。也就是说，目前86%的注释都是有实验证据的，比5年前更可靠。未注释的蛋白从5年前的12.4%降到4.9%，蛋白质功能注释越来越全了。过时的注释会对富集分析结果造成哪些影响呢？举个栗子，具体分析一套数据。紫色是用2016年的注释做富集分析得到显著富集的term数，再看2010年的黄色，呵呵！用2010年的注释做富集分析，丢掉了好多pathway。只有用2016年的注释才能找出紫色的圆圈。赶紧看看自己的数据是拿什么年代的注释做的富集分析，是不是该更新了？或许会有更interesting的发现呢！最后看statQuest用mm豆讲富集分析原理; 个人分类: RNA-seq|3514 次阅读|0 个评论

heatmap画不好会得出错误结论: ChengyangWang 2017-12-18 12:22; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小哈来源：嘉因大家都会做方便面，有人做辛拉面，有人做三鲜伊面，工艺有何不同？大家都会做RNA-seq，有人能筛出有意义的基因，有人能找出有价值的线索，有人。。。差别在哪？前两期介绍了数据均一化处理和差异基因筛选的合理方法：数据预处理：同一套RNA-seq，为什么公司做的跟师兄跑的结果不一样？ | TPM、read counts、RPKM/FPKM你选对了吗？差异基因筛选：同一套RNA-seq，公司筛出的差异基因跟师兄筛出的为什么不一样？| Pvalue, FDR, cutoff 本文一起看RNA-seq数据画heatmap有啥讲究？同一套数据，用不同的方法得到的heatmap差别能有多大？举个栗子，左边一坨mass不能看，右边出现明显的一块一块才好看把heatmap画好看就行了？NO，数据处理方法要合适。前年介绍过批次效应对实验结果的影响：人和小鼠心脏之间的差异远大于人的心肝脾肺？下图是每两个samples相关性的heatmap，一大块一大块的聚到一起，挺好看的吧？仔细一看，发现同一物种的各个器官聚到了一起：后来发现是实验设计出了问题，两个物种是分批测的：把批次效应batch effect考虑进去，同一器官聚到一起：具体去读这篇paper，这种反驳类的文章都很精彩，数据处理的细节都描述的很清楚，还给出了文中用的code。点击左下角“阅读原文”直达paper页面，拖到末尾看F1000最宝贵的comment。下面是画heatmap的原理视频。statQuest总能把貌似高深的算法清晰的讲解出来，易懂。 heatmap是可视化，把数字变成彩色的图块。让heatmap好看的关键在于聚类。具体讲HCL K-means; 个人分类: RNA-seq|3938 次阅读|0 个评论

同一套RNA-seq，公司筛出的差异基因跟师兄筛出的为什么不一样？: ChengyangWang 2017-12-15 15:17; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小哈来源：嘉因在同一套RNA-seq，为什么公司做的跟师兄跑的结果不一样？ | TPM、read counts、RPKM/FPKM你选对了吗？一文，聊了怎样做RNA-seq数据预处理：把samples拉到同一起跑线。今天讲差异基因筛选，继续搬statQuest视频，点击左下角“阅读原文”直达代码页。文末附第一个视频中提到的P-value和FDR视频，和阈值设定的comment音频。有些基因read counts数非常低，一个两个reads不可信，DESeq2和edgeR有各自的处理方法。上面视频中提到的P value和FDR视频： P value FDR，结合RNA-seq讲的很清楚，筛差异基因、功能富集分析，都要用到FDR。最后作者出镜答疑，阈值设定有啥讲究，0.05？; 个人分类: RNA-seq|4086 次阅读|0 个评论

TPM、read counts、RPKM/FPKM你选对了吗？: ChengyangWang 2017-12-15 15:04; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小哈来源：嘉因在 RNA测序分析，哪家公司适合我一文中，聊过类似的问题。这次小哈搬来了statQuest的3个最新视频，https://statquest.org/video-index/，点击左下角“阅读原文”直达statQuest视频目录。帮你理清RNA-seq数据预处理方法，哪个更适合你的问题。先说结论：学术界已经不再推荐RPKM、FPKM；比较基因的表达丰度，例如哪个基因在哪个组织里高表达，用TPM做均一化处理；不同组间比较，找差异基因，先得到read counts，然后用DESeq2或edgeR，做均一化和差异基因筛选；如果对比某个基因的KO组和对照，推荐DESeq2。如果找公司做RNA-seq数据处理，计算表达量时，记得要read counts。 RPKM/FPKM、TPM 在 RNA-Seq分析|RPKM, FPKM, TPM, 傻傻分不清楚？里，根据上面的视频用汉语描述了这三个值的区别。下面是视频截图不再用RPKM/FPKM，现在推荐用TPM 一表看懂TPM更适合比较同一基因在不同sample间表达丰度的差异 DESeq2或edgeR DESeq2和edgeR不用RPKM/FPKM或TPM做均一化，而是直接用原始的read counts做均一化处理。 DESeq2和edgeR能很好的解决这两个问题测序深度的差异问题，用RPKM/FPKM、TPM、DESeq2和edgeR都能处理如果组间RNA成分差异较大，怎么办？例如liver跟spleen比，组织特异性表达基因在里面捣乱；再例如常见的某个基因KO组与对照相比，该基因成分在KO组里缺失。 DESeq2做均一化用edgeR作均一化; 个人分类: RNA-seq|29693 次阅读|0 个评论

同样用Ensembl算TPM，结果还是不一样？ | Ensembl的注意事项: ChengyangWang 2017-12-15 14:53; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小哈来源：嘉因大家都会做方便面，有人做辛拉面，有人做三鲜伊面，工艺有何不同？大家都会做RNA-seq，有人能筛出有意义的基因，有人能找出有价值的线索，有人。。。差别在哪？前五期介绍了回帖、均一化处理、差异基因筛选、画heatmap和富集分析的合理方法：第五期：gene model ：同样算read counts，为什么公司跟师兄算的结果不一样？| Ensembl、UCSC、Refseq，该用哪个第一期：数据预处理：同一套RNA-seq，为什么公司做的跟师兄跑的结果不一样？ | TPM、read counts、RPKM/FPKM你选对了吗？第二期：差异基因筛选：同一套RNA-seq，公司筛出的差异基因跟师兄筛出的为什么不一样？| Pvalue, FDR, cutoff 第三期：heatmap ： heatmap画不好会得出错误结论 | 数据预处理、聚类分析，HCL、 K means里的讲究第四期：富集分析：富集分析，俩人做的结果差5岁 | 你用的注释文件有多老？本文先解决去除rRNA的RNA-seq 问题，后面谈 ensembl基因组使用的注意事项。实验和分析去除 rRNA 通常做lncRNA-seq时会用到特殊的建库方式，去除rRNA，而不是抓polyA尾巴，这样可以看到不带polyA尾巴的lncRNA。第五期说Ensembl的基因注释最准确，基因最全；好！我用Ensembl的GTF做mapping；第一期说衡量基因的丰度要用TPM；好！我用TPM排序，看看哪个基因表达丰度最高。 Q：晕！怎么这么多rRNA ！？哥花了大价钱买kit去除rRNA，怎么测序还是测到这么多rRNA？！ A：淡定！通常实验去除rRNA，还是会剩0.1-10%的rRNA 。 sample间rRNA去除效率不同，剩下那些rRNA的read count会影响TPM的计算。因此，在mapping前，先删掉 GTF文件里的 rRNA 。ensembl的GTF有一列专门标注了gene biotype，用“grep -v rRNA”一条命令搞定。用删掉rRNA的GTF做mapping，不影响rRNA mapping到genome，也就是不影响回帖率；只是在算TPM的时候，不把rRNA的read counts算在内。这样就不会因为rRNA去除效率的差异而影响其他基因丰度的计算。看看用删掉rRNA的GTF文件做mapping后，Top 10的基因是谁吧！晕！怎么最多的还是无聊的snRNA？ Q：我想把snRNA、snoRNA也删掉！Ensembl的GTF gene biotype有这么多种ncRNA。只留下lincRNA，其余的都删掉多清净？ A：不能删！ tRNA（76-90 nt）、scRNA（100 nt）、 miRNA（22 nt）因为长度太短捞不到，所以 read counts很低，影响不到TPM的计算。剩下的 snoRNA、snRNA，你确定它们在group间没有差异表达？也许他们也有着重要的功能，在你的处理条件或组织类型里表达量提高或被抑制，从而发挥了调控作用，或被调控。所以，如果rRNA去除效率差异太大，删掉GTF文件里的rRNA就好。其实，通常也不需要这样处理， rRNA read count的差异对DESeq2和edgeR结果不会影响很大。关于GTF里gene biotype的处理，没有找到文献支持，只有comment，例如： https://www.biostars.org/p/130420/ https://www.biostars.org/p/106590/ Ensembl基因组使用注意事项 Q：我又想到一个办法：rRNA通常是repeat，ensembl有三种fasta文件，其中 dna_rm的fasta文件已经将repeat变成N ，所以，rRNA的read就无法mapping回去，这是个好主意吗？ A：推荐dna或dna_sm 版本的fasta文件，不要用dna_rm。点击左下角“阅读原文”直达原贴 Q：同样是dna或dna_sm，又有 Primary assembly和toplevel，该选哪个？ A：通常推荐Primary assembly 。因为 Primary assembly去掉了 toplevel当中的单倍体和patch，它们会干扰分析结果。 Q：我只想要 chr1-22和X、Y ，那些单个chromosome文件是primary assembly？还是toplevel？ A：是Toplevel。所以，还是用primary assembly吧。如果你不想要scaffolds，可以提取primary assembly文件里的chromosome。不过，不建议这样做，因为那些scaffolds上面还有300多个基因。 Q：ensembl的版本号更新太频繁，我需要每次mapping都下载最新版本吗？ A：对于基因组成熟的物种，例如人和小鼠等模式生物，最近版本间差异不大，hg19、hg38和mm9、mm10对应的版本都可以。这取决于你想要一起分析的数据用的是哪个基因组版本。ENCODE项目最新版本都用hg38和mm10了。不过geo上的大多数数据都是hg19和mm9的。用 liftover 转换基因组版本，简单快捷，但会损失信息。实在不行，就把公共数据用最新版本重新跑一下。其他该避免的陷阱：确保文件下载完整 fasta文件和gtf文件版本对应注意其他来源的index文件的基因组版本; 个人分类: RNA-seq|4840 次阅读|0 个评论

Ensembl、UCSC、Refseq，该用哪个: ChengyangWang 2017-12-15 14:42; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小哈来源：嘉因大家都会做方便面，有人做辛拉面，有人做三鲜伊面，工艺有何不同？大家都会做RNA-seq，有人能筛出有意义的基因，有人能找出有价值的线索，有人。。。差别在哪？前四期介绍了数据均一化处理、差异基因筛选、画heatmap和富集分析的合理方法：第一期：数据预处理：同一套RNA-seq，为什么公司做的跟师兄跑的结果不一样？ | TPM、read counts、RPKM/FPKM你选对了吗？第二期：差异基因筛选：同一套RNA-seq，公司筛出的差异基因跟师兄筛出的为什么不一样？| Pvalue, FDR, cutoff 第三期：heatmap： heatmap画不好会得出错误结论 | 数据预处理、聚类分析，HCL、 K means里的讲究第四期：富集分析：富集分析，俩人做的结果差5岁 | 你用的注释文件有多老？小哈让我们算read counts，可是，为什么我算的read counts跟公司算的还是不一样？本期回过头来看mapping时选用的Gene model对结果的影响。拿到测序数据，首先要把read回帖到基因组上，这时需要基因组序列fasta文件，还要告诉它基因组上哪个位置有基因，即gene model，保存在 gtf文件里。如果分析人或小鼠的数据，就用 GENCODE 。那么，著名的Ensembl、UCSC、Refseq，跟GENCODE是啥关系？其他物种用哪个呢？ Ensembl说目前这个版本的 GENCODE = Ensembl ，www.ensembl.org/Help/Faq?id=303 只有GENCODE自己知道，它跟ensembl还是有些区别的，GTF文件稍有不同，www.gencodegenes.org/faq.html 点击查看清晰大图 Ensembl、UCSC、Refseq，选择不同，对结果有多大影响？有人专门做了对比。先总体评价了三种gene model对mapping的影响；然后举例细看对某些基因的具体影响；先说结论： Gene model 会影响基因表达量乃至差异表达基因的筛选，尤其是不同gene model对某些基因的长度、junction位点注释有出入； Ensembl的注释相对更加准确，基因更多；推荐人鼠用 GENCODE ，谁让它出自最权威的ENCODE呢，其他物种用 Ensembl 。下面逐个查看文章里的结果： The read mapping summary in the “transcriptome only” and “transcriptome + genome” mapping modes: more reads are mapped in Ensembl than in RefGene and UCSC in the “transcriptome only” mode more reads become multiple-mapped in Ensembl than in RefGene and UCSC The RefGene and UCSC consistently have the highest percentage of uniquely mapped reads; while the percentage of non-uniquely mapped reads is much higher in Ensembl. Without a gene model (indicated in pink) in the mapping step, a constant 6% of reads become unmapped. Divided uniquely mapped reads into two classes, i.e., non-junction reads and junction reads , and investigated the impact of a gene model on their mapping. The impact of a gene model on mapping of non-junction reads is different from junction reads. For the RNA-Seq dataset with a read length of 75 bp, on average, 95% of non-junction reads were mapped to exactly the same genomic location regardless of which gene models was used. By contrast , this percentage dropped to 53% for junction reads. In addition, about 30% of junction reads failed to align without the assistance of a gene model, while 10– 15% mapped alternatively. The overlap and intersection among RefGene, UCSC, and Ensembl annotations In general, different annotations have very high overlaps: there are 21,598 common genes shared by all three gene models. RefGene has the fewest unique genes while more than 50% of genes in Ensembl are unique . The correlation of gene quantification results between RefGene and Ensembl Although the majority of genes have highly consistent or nearly identical expression levels, there are many genes whose quantification results are dramatically affected by the choice of a gene model 具体看每个基因的read counts，用Ensembl和RefGene算出来的read counts差好远，为什么呢？下面举例看2个基因的情况 The different gene definitions for PIK3CA give rise to differences in gene quantification PIK3CA in the Ensembl annotation is much longer than its definition in RefGene , explaining why there are 1094 reads mapped to PIK3CA in Ensembl , while only 492 reads are mapped in RefGene . The PIK3CA gene definition in Ensembl seems more accurate than the one in RefGene, based upon the mapping profile of sequence reads. The different gene definitions for LUZP6 . In the Ensembl annotation, LUZP6 is only 177 bp long, and it is completely within another gene, MTPN. As a result, all sequence reads originating from LUZP6 are assigned to MTPN instead. In RefGene , LUZP6 and MTPN are derived from the same genomic region, and both encode exactly the same mRNA, though the protein coding sequences are different. Therefore, all reads mapped to this region are equally distributed between these two genes. The correlation of the calculated Log2Ratio (heart/liver) between RefGene and Ensembl. Although the majority of genes have highly consistent expression changes, there are many genes that are remarkably affected by the choice of different gene models .; 个人分类: RNA-seq|13580 次阅读|0 个评论

欲哭无泪的p-value = 0.051 | 做几次重复能得到较低的p-value: ChengyangWang 2017-12-15 14:12; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小哈来源：嘉因 60分万岁，多1分浪费 p-value = 0.051。。。。。。场景一：做RNA-seq，做几次重复？应该做几次？发paper时认可几次重复？场景二：RNA-seq做了3次重复，用p-value 0.05筛出的差异基因太少，只用2次重复来筛，筛出了好多，好开森 ~ ~ ~ 场景三：基因KO组跟对照组比，计算药物处理后表型是否有显著差异。做了3次实验，p-value 0.05；继续做，做到5次重复，p-value 0.05，好开森 ~ ~ ~ 减少重复次数？增加重复次数？怎样是合理的？来看看statQuest视频讲 Power in statistics，需要几次重复能获得较低的p-value。倒霉蛋儿不只你一个，增加重复次数会发生什么？多做了重复后，30%的情况p-value降到0.05以下， make sense？NO！那叫假阳性不可以为了获得好的p-value而增加重复，那会增加假阳性。正确的做法是：做实验之前，算一下到底需要多少样本量；如果实验前没评估样本量，就评估之后重新开始做实验。（你们这些做统计的不懂实验狗的忧伤）怎样评估需要做几次重复呢？实验前评估需要多少次重复， power calculation ，受4个因素影响：第4个是统计方法，最广泛应用的t-test有最强的power。重点考虑前三个因素：最好是有前期数据或已发表的数据，有第六感也成：如果没有前期数据和第六感，还有办法：对于RNA-seq数据：具体怎么算？交给电脑算，点击左下角“阅读原文”直达G*Power网站。刚更新，17 July 2017 - Release 3.1.9.3，有Windows版本和Mac版本。用法简单：你可能需要一些基础知识，搬来简洁易懂的statQuest视频。 one or two tail t-test的另一个视频回到开头的场景，解决方案：才不管怎么算呢，We always use 3 patients...; 个人分类: RNA-seq|5599 次阅读|0 个评论

[转载]RNA-seq要做几次生物学重复？找出来的100%都是真正的应答基因: ChengyangWang 2017-12-15 10:44; 本文转载自嘉因微信公众号，已获得授权。查看最新文章，敬请关注嘉因，微信ID：rainbow-genome 作者：小丫来源：嘉因尹师妹：“哈师兄，做验证实验好辛苦，老板让我提高筛选差异基因的条件，尽量降低假阳性，我该怎么筛？” 小哈打开Evernote，给尹师妹看张表： “瞧见那个100%了吗？30 million mapped reads的情况下，10次重复，2倍筛选条件， Statistical power100%，找出来的都是真的应答基因；只做3次重复，2倍筛选条件，可以达到87%；如果测序深度降到15 million mapped reads，需要10次重复，才能到85%。” 尹师妹：“我的样品有30 M mapped reads，3次重复，我用2倍，87%的 Statistical power ，我觉得这样可以接受。” https://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-0881-8 查看《生信小硕乱入生物实验室的幸福生活》系列其他文章，请关注嘉因生物，回复小哈+文章编号，例如回复“小哈1”。小哈1. 哈师弟的博士研究僧之旅开篇小哈2. 怎样批量查看lncRNA跟疾病的关系小哈3. 如何避免批次效应导致的结果不可靠小哈4. 缺了对照会怎样小哈5. 家族遗传病如何设计测序实验小哈6. 遗传病的显隐性、伴性遗传的判断小哈7. Jane帮你选期刊，选审稿人小哈8. 用Gnosis直接按影响因子检索paper 小哈9. 组蛋白修饰预示着什么？小哈10. 药物处理多久后能看到组蛋白修饰的变化？小哈11. lncRNA上的SNP对其作用机制的影响小哈12. 需要测多少数据量？read数和G的换算小哈13. RT-qPCR验证，选哪个lncRNA的哪段设计引物？小哈14. 研究单个基因的生物信息学分析工具（大全）小哈15. miRNA的RT-qPCR验证，小伙伴儿亲测，高效，便宜，不限物种（附各试剂货号）小哈16. RNA-seq要做几次生物学重复？找出来的100%都是真正的应答基因; 个人分类: RNA-seq|2256 次阅读|0 个评论

TGICL的使用及结果解读: 热度 1 luria 2017-6-1 15:19; Trinity无比强大，但是在组装结果还是太零散，此外内存占用也是硬伤。如果你有一个土豪机器，能一次运行几百G的程序，那建议将所有样本的PE reads清理后R1，R2相应合到一起，再用Trinity 进行PE组装。没有强大机器的人们一般会将多个样本分开组装，再通过一些手段对contig再组装，最后生成所有样本共同的Unigene，得到所有样本统一的reference，来比对计算差异表达。这里推荐一款老牌的聚类组装软件——TGICL ( TGI Clustering tools )，完成这个contig再组装的过程。它先使用mageblast对输入的fasta文件进行比对后聚类成cluster，再使用CAP3对每个cluster进行组装。此外因为聚类后各cluster间相互独立无交集，程序提供多线程的选项（来弥补CAP3这一步计算速度慢的缺陷）。 1. 下载安装到https://sourceforge.net/projects/tgicl/files/?source=navbar下载最新版的TGICL (以最新版v2.1版为例)。建议下载TGICL-2.1.tar.gz原程序，貌似rpm/deb二进制的安装会有报错，具体没有深究，感兴趣的朋友可以使用rpm/deb格式的安装包进行安装，欢迎将过程分享到此博文下，谢谢。 tar -zxvf TGICL-2.1.tar.gz cd TGICL-2.1 perl Build.PL ./Build ./Build test ./Build install ＃如果哪一步有permission denied的提示，则需要在命令前加sudo 如果在终端中输入 perldoc -F /usr/local/bin/tgicl 出现TGICL的help页面（如下图）则表示安装完成！ 2. TGICL的使用以某处为工作目录，将需去冗余和组装的fasta序列(例如Trinity组装结果中大于500bp的序列文件trinity_gt500.fasta)放到工作目录下，运行 tgicl -F trinity_gt500.fasta -c 3 这时可能会出现如下提示，可以不用理会： Use of :locked is deprecated at /usr/local/share/perl/5.18.2/TGI/DBDrv.pm line 36. 运行完结果如下 err_tgicl_trinity_gt500.fasta.log和tgicl_trinity_gt500.fasta.log分别是标准错误输出和标准输出的记录文件，如果运行中无报错，两者应该是一样的。文件中记录了建立索引、聚类和组装三个过程的一些信息。重点来了： Q1：工作目录下trinity_gt500.fasta, trinity_gt500.fasta_cl_clusters, trinity_gt500.fasta.singletons和masked.lst这四个文件之间是什么关系？为了清晰起见，这里既作了后三个文件中序列的韦恩图，又作了四个文件中序列的韦恩图。结果显示 A. trinity_gt500.fasta_cl_clusters和trinity_gt500.fasta.singletons文件中的序列居然有交集！ B. trinity_gt500.fasta_cl_clusters和trinity_gt500.fasta.singletons的并集就是trinity_gt500.fasta中全体序列 C. masked.lst里的序列既有 trinity_gt500.fasta_cl_clusters里的，又有trinity_gt500.fasta.singletons里的序列 Q2：asm文件夹下的文件与cluster是什么关系？因为-c指定用3个CPU，这里会生成3个文件夹asm_1,asm_2,asm_3。从这3个文件中的log_std发现这些log_std里的CL没有重复，而且加在一起正好是trinity_gt500.fasta_cl_clusters里的结果，表明程序先将trinity_gt500.fasta_cl_clusters中的cluster分给N个CPU（在N个文件夹中）来做的。然后，CAP3组装每个asm文件夹下log_std中的clusters，然而并不是每个cluster里的序列都能用上，组装没有用上的序列就写进了每个asm文件夹下的singletons文件里。 Q3：在第1个问题里rinity_gt500.fasta_cl_clusters和trinity_gt500.fasta.singletons为什么会有交集，交集又是什么？ Bingo! 想必大家也猜到了，这个交集就是所有asm文件夹下singlets文件中序列的并集。为了验证这个猜想，先检查一下所有asm文件夹下singlets文件是否有交集，发现没有，不出所料。所有asm文件夹下singlets文件里的序列的并集就是trinity_gt500.fasta.singletons和trinity_gt500.fasta_cl_clusters序列里的交集。发现正好是的，有猜想一致！综上所述，最终的结构图是因此只需要将trinity_gt500.fasta.singletons里的序列提出来，再将各asm文件夹下的contigs合并到一起换个Unigene的ID号即可。 vim collect_tgicl_result.py 将以下代码复制到collect_tgicl_result.py中 #!/usr/bin/env python import sys, os from Bio import SeqIO '''collect_tgicl_result.py''' def main(tgicl, singleton, fasta, *asm_dirs): unigene = 1 with open('result.fasta', 'w') as result: for i in asm_dirs: for x in SeqIO.parse(os.path.join(i, 'contigs'), 'fasta'): print result, 'cluster_contig%s\n%s' %(unigene, x.seq) unigene += 1 fa_dic = {fa.id:fa.seq for fa in SeqIO.parse(fasta, 'fasta')} for i in open(singleton): print result, '%s\n%s' %(i.strip(), fa_dic ) if __name__ == '__main__': if len(sys.argv) == 1: print (' collect TGICL result\n' ' python %s singletons fasta asm*\n' ' singletons is located in workspace\n' ' fasta is fasta file which was used to be clustered and assembled\n' asm* are asm directories, `contigs' file must be in those dirs\n ) %(sys.argv ) sys.exit(1) main(*sys.argv) 在工作目录下运行如下： python collect_tgicl_result.py trinity_gt500 .fasta.singletons trinity_gt500 .fasta asm_* 运行完会生成一个tgicl_result.fasta文件，即TGICL聚类组装后最终的Unigene。参考材料［1］ Geo Pertea1, Xiaoqiu Huang, Feng Liang, et al. TIGR Gene Indices clustering tools (TGICL):a software system for fast clustering of large EST datasets. Bioinformatics. 2003, 19(5):651-652 ［2］ http://bioinformation.cn/?p=563; 个人分类: RNA-seq|10998 次阅读|2 个评论

由链特异性RNA-SEQ联想到的: liujd 2017-4-18 19:43; 个人分类: 生物信息|9 次阅读|0 个评论

零基础也可以做RNA-seq差异分析: LLina 2017-3-3 12:33; 基因表达谱的差异分析是RNA-seq中最常见的应用。你眼中的RNA-seq差异分析或许是酱紫的，对不会编程，不懂统计，纯正生物学出生的人，内心简直SOS …… 但有些人眼中的RNA-seq差异分析却是这样的，借助云平台和图形化界面，生信零基础同样可以做RNA-seq差异分析。本人也是第一次尝试，一起来看看云平台如何拯救我们于水火之中。平台用的是 GCBI ，之前也介绍过用GCBI做DNA测序和芯片分析，还不会用的在这里看攻略。RNA测序原始数据太大，就直接用了demo数据。 1.新建一个RNA测序方案，不知道怎么新建请看上面攻略。进去后的分析界面就是酱紫的。 2. 分析首先得有样本是不，点击“添加样本数据”将样本导入。如果用的是自己的测序数据，看下这里的数据上传说明，在这就不展开了。导入数据后可在“数据表”和“结果图”中查看质控分析结果。接下去就是将导入的数据进行分组，点击“添加新分组”建立组别，建了两组，分别是EG(实验组)和CG(对照组)。分好组后就可以进行差异分析啦，选择要分析的组别进行下一步。 3．差异分析参数选择在差异分析中，参数主要就是P值，Q值和fold change，分析时可默认，也可自己设定。P值和Q值还模模糊糊的看这里。在这就直接用默认了。 4.运行结果好啦，点击确定就ok啦。Demo数据是五对直肠癌和癌旁数据，在默认参数条件下共筛选出了395个差异基因，上调的137，下调的258。下方还提供给了一些标签分类，如统计了在cosmic中与肿瘤相关的基因数量等。看每个基因具体的表达值点击结果表即可。面对那么多基因，该如何快速找出感兴趣的基因呢？用上面的筛选功能即可，通过疾病，也可自定义，自定义的选项分类很详细，针对性比较强。这里附上数据筛选指南，给大家做筛选提供一些方向。好啦，RNA-seq差异分析酱紫就完结啦。这个分析流程采用的是HISAT2，StringTie，Ballogown组合，和传统流程的用的cufflinks， tophat相比，优势在哪？看这里。简单一句话，Tophat 首次被发表已经是7年前，Cufflinks也是6年前的事了。 RNA-seq差异分析网址： https://www.gcbi.com.cn/gclab/html/index; 个人分类: 生信分析|19601 次阅读|0 个评论

[转载]基因表达量表示方法RPKM VS FPKM: lemoncyb 2016-11-11 03:18; 我们都知道RNA-seq是通过NGS技术来检测基因表达量的测序方法。在衡量基因表达量方面，若是单纯以比对到参考基因的Reads个数（我们通常称之为Count值）来衡量基因的表达量，在统计上是一件相当不合理的事。今天就为大家介绍一下衡量基因表达量的RPKM和FPKM两种方法。在随机抽样的情况下，序列较长的基因被抽到的概率本来就会比序列短的基因高，如此一来，序列长的基因永远会被认为表达量较高，而错估基因真正的表达量。在测序深度不同的情况下，测序深度更深的样品中，比对到每个基因的Read数量更多。为排除因基因的长度、测序深度等因素造成的干扰，RPKM（Reads Per Kilobase Million）和FPKM（Fragments Per Kilobase Million）等方法就应运而生了。 RPKM （Reads Per Kilobase per Million）和 FPKM （Fragments Per Kilobase per Million）首先需要解释FPKM和RPKM的原理是相似的，区别在于FPKM对应的是DNA片段，比如在一个Illumina的pair-end（双尾）RNA-seq中，一对（两个）reads对应是一个DNA片段。有了FPKM（RPKM）概念，我们就能比较：同一个样本中基因A和基因B的相对表达量；或者不同样本中，同一个基因的相对表达量。具体的原因是：引入“每一千碱基（per kilobase）”的原因在于，不同的RNA可能有不同长度，长度越长，对应的reads就越多。当每个RNA都除以自身长度（以1000碱基为单位）时，就可以比较同一个样本中不同基因的相对表达量了。相似地，引入“每一百万reads”的原因是，不同的样本可能测序的深度不一样，深度越深，当然对应的reads就越多了。如果结果除以各自库的数量（以一百万reads为单位），那么我们就能很好地衡量两个不同样本中同一个基因的相对表达量。 RPKM RPKM是将Map到基因的Reads数除以Map到Genome的所有Read数(以Million为单位)与RNA的长度(以KB为单位)。 FPKM FPKM是将Map到基因的Fragments数除以Map到Genome的所有Read数(以Million为单位)与RNA的长度(以KB为单位)。从公式上可以看出，方法是将Reads（Fragments）Count进行标准化，分别是对测序深度标准化（以Million为单位）和对基因长度标准化（以KB为单位），从而消除了因测序深度和基因长度不同对基因表达量的影响。; 个人分类: Bioinformatics|21773 次阅读|0 个评论

RNA-seq分析方法和工具的文章: xbinbzy 2016-2-22 12:44; 文章： A survey of best practices for RNA-seq data analysis 2016 ( http://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-0881-8 ) 文章：A comparison of methods for differential expression analysis of RNA-seq data 2013 （ https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-14-91 ）; 个人分类: 科研文章|3086 次阅读|0 个评论

ABBS: Identification of reference genes for qRT-PCR in human: chshou 2015-12-2 09:19; Identification of reference genes for qRT-PCR in human lung squamous-cell carcinoma by RNA-Seq Cheng Zhan, Yongxing Zhang, Jun Ma, Lin Wang, Wei Jiang, Yu Shi and Qun Wang Department of Thoracic Surgery, Zhongshan Hospital, Fudan University, Shanghai 200031, China Acta Biochim Biophys Sin 2014, 46: 330–337; doi: 10.1093/abbs/gmt153 Although the accuracy of quantitative real-time polymerase chain reaction (qRT-PCR) is highly dependent on the reliable reference genes, many commonly used reference genes are not stably expressed and as such are not suitable for quantification and normalization of qRT-PCR data. The aim of this study was to identify novel reliable reference genes in lung squamous-cell carcinoma. We used RNA sequencing (RNA-Seq) to survey the whole genome expression in 5 lung normal samples and 44 lung squamous-cell carcinoma samples. We evaluated the expression profiles of 15 commonly used reference genes and identified five additional candidate reference genes. To validate the RNA-Seq dataset, we used qRT-PCR to verify the expression levels of these 20 genes in a separate set of 100 pairs of normal lung tissue and lung squamous-cell carcinoma samples, and then analyzed these results using geNorm and NormFinder. With respect to 14 of the 15 common reference genes (B2M, GAPDH, GUSB, HMBS, HPRT1, IPO8, PGK1, POLR2A, PPIA, RPLP0, TBP, TFRC, UBC, and YWHAZ), the expression levels were either too low to be easily detected, or exhibited a high degree of variability either between lung normal and squamous-cell carcinoma samples, or even among samples of the same tissue type. In contrast, 1 of the 15 common reference genes (ACTB) and the 5 additional candidate reference genes (EEF1A1, FAU, RPS9, RPS11, and RPS14) were stably and constitutively expressed at high levels in all the samples tested. ACTB, EEF1A1, FAU, RPS9, RPS11, and RPS14 are ideal reference genes for qRT-PCR analysis of lung squamous-cell carcinoma, while 14 commonly used qRT-PCR reference genes are less appropriate in this context. Expression profiling of 15 common reference genes in RNA-Seq data 全文: http://abbs.oxfordjournals.org/content/46/4/330.full 相关论文: 1 Evaluation and validation of a robust single cell RNA -amplification protocol through transcriptional profiling of enriched lung cancer initiating cells 2 Reference Genes Selection and Normalization of Oxidative Stress Responsive Genes upon Different Temperature Stress Conditions in Hypericum perforatum L. 3 Connectivity Mapping for Candidate Therapeutics Identification Using Next Generation Sequencing RNA - Seq Data 4 Application of the whole-transcriptome shotgun sequencing approach to the study of Philadelphia-positive acute lymphoblastic leukemia 5 Identification of Pathogen Signatures in Prostate Cancer Using RNA - seq; 个人分类: 期刊新闻|1832 次阅读|0 个评论

[转载]RNA-Seq分析新工具: mashengwei 2015-5-3 09:00; 利用RNA-Seq技术来分析转录组现在是一种很普遍的方法，在我读PhD期间分析过细菌的转录组数据。做差异表达分析的基本流程是：做质量控制-利用bwa map reads到基因组上-计算各个基因上unique mapped的reads-利用DEGSeq来做差异表达分析（有空的时候我在把这个整理上来）。由于原核生物不存在可变剪接，所以无论使用bwa或者bowtie都可以。最近在处理human genome的转录组数据，所使用的方法还是参照之前PLoB上发布的文章《利用tophat和Cufflinks做转录组差异表达分析的步骤详解》。（更多关于转录组分析工具和方法，譬如饱和度评估、Tophat使用等等可以直接在PLoB搜索）。在最近的一个月内，三篇介绍RNA-Seq数据分析新方法的文章发表在Nature集团旗下的刊物上，其中一篇发表在《Nature Methods》上，另外两篇都发表在《Nature Biotechnology》上。有趣的是，这三篇文章都有一位共同的作者，那就是约翰霍普金斯大学计算生物学中心的Steven Salzberg。Salzberg是生物信息学和计算生物学领域的杰出科学家，在基因组组装上经验丰富，曾参与人类基因组计划。自新一代测序出现以来，他和他的团队开发了一系列应用程序，其中Bowtie和TopHat程序被广泛下载和引用。这三篇文章分别介绍了三种新工具： HISAT 、StringTie和Ballgown。它们分别取代了Salzberg之前开发的早期工具，为RNA-Seq的原始读取到差异表达分析提供了一种全新的方式。 HISAT 全称为Hierarchical Indexing for Spliced Alignment of Transcripts，由约翰霍普金斯大学开发。它取代Bowtie/TopHat程序，能够将RNA-Seq的读取与基因组进行快速比对。这项成果发表在3月9日的《Nature Methods》上。 HISAT 利用大量FM索引，以覆盖整个基因组。以人类基因组为例，它需要48,000个索引，每个索引代表~64,000 bp的基因组区域。这些小的索引结合几种比对策略，实现了RNA-Seq读取的高效比对，特别是那些跨越多个外显子的读取。尽管它利用大量索引，但 HISAT 只需要4.3 GB的内存。这种应用程序支持任何规模的基因组，包括那些超过40亿个碱基的。 HISAT 软件可从以下地址获取：http://ccb.jhu.edu/software/hisat/index.shtml。 StringTie则由约翰霍普金斯大学联合德州大学西南医学中心开发，能够组装转录本并预计表达水平。它应用网络流算法和可选的de novo组装，将复杂的数据集组装成转录本。与Cufflinks等程序相比，在分析模拟和真实的数据集时，StringTie实现了更完整、更准确的基因重建，并更好地预测了表达水平。例如，对于从人类血液中获得的9000万个读取，StringTie正确组装了10,990个转录本，而第二名的组装程序Cufflinks只组装了7,187个，提高了53%。对于模拟的数据集，StringTie正确组装了7,559个转录本，比Cufflinks的6,310个提高了20%。此外，它的运行速度也比其他组装软件更快。StringTie软件可从以下地址获取：http://ccb.jhu.edu/software/stringtie/。 Ballgown于3月初发表在《Nature Biotechnology》上，是开展差异表达分析的工具。它能利用RNA-Seq实验的数据，预测基因、转录本或外显子的差异表达。Ballgown软件的详细说明如下：https://github.com/alyssafrazee/ballgown; 3318 次阅读|0 个评论

[转载]如何通过RNA-Seq了解转录本的结构: alinatingting 2014-12-26 15:22; 测序转录组的方法可不止一种。一些研究人员的目标是计数转录本，评估表达水平，则测序可代替DNA芯片。而另一些研究人员感兴趣的是转录本的结构。大家都知道，真核生物的基因常常经过选择性剪接。是否包含特定的外显子，这有着深远的生物学影响。前一个应用比较简单，也更加广泛。它与Illumina测序平台的特征相吻合，这些平台提供了短的RNA序列，但每次有数十亿个。而对于后一个阵营的研究人员而言，生物信息学工具和长读取计数才是问题的关键。长长短短的读取据Pacific Biosciences的首席科学官Jonas Korlach介绍，哺乳动物的转录本大约在1,000至3,000个碱基，并以多种形式存在。例如，一个基因有5个外显子，则可能出现各种配置，如12345、1245、1345、245等等。弄清这些不同形式的结构和丰度应该不是什么难事，只要测序每个RNA分子并计算其数量。然而，问题在于目前的测序技术无法做到这一点。 Illumina的HiSeq v4试剂每次运行大约产生40亿个高度准确的读取，这对转录组测序而言是足够了。然而，每个双端读取的长度在2 x 125 bp，这就难以确定哪些片段是在一起的。如果这些读取中包含重复元件，则很难定位到基因组中。斯坦福大学遗传学教授Michael Snyder在接受采访时表示：“你仔细想想，我们研究转录组的方式是疯狂的。我们得到RNA，将其炸成碎片，然后又尝试将它们组合回去，了解转录组一开始是个什么样子。这是一种可怕的方式。” Pacific Biosciences的单分子测序系统 PacBio RS II产生了平均长度在8,500 bp的读取，这足以覆盖大多数的转录本。但RS II的每个SMRT Cell只产生50,000至80,000个读取，这对于全面读取每个转录本而言还是太少。目前，市场上的长读取技术还有Illumina的Moleculo技术和Oxford Nanopore Technologies的纳米孔技术。混合方法对于许多研究人员来说，两全的解决方案就是将两种方法相结合。在最近一项发表于PNAS上的研究中，Snyder的研究团队采用混合策略，利用PacBio的长读取和Illumina的短数据来测序一位儿童及其父母的淋巴母细胞转录组。同时，Illumina的读取也能用来检查PacBio碱基检出的错误。华盛顿大学西北基因组中心的技术开发主任Jason Underwood也在H1人胚胎干细胞系的转录组分析中采用了这种策略。他们的“混合测序（hybrid sequencing）”方法鉴定出H1细胞中表达的数百个新基因/长链非编码RNA（lncRNA）以及数千个已知基因的异构体。不过，Underwood并不总是利用短读取来进行错误校正，在分析鸡的转录组结构时，他只使用了长读取技术。他利用SMRT测序来产生鸡胚胎心脏的全长cDNA，鉴定出9,000多个新颖的转录异构体，以及Ensembl注释中未包含的500多个基因。据Korlach介绍，PacBio的技术让研究人员能捕获全部的转录本多样性。在这种称为Iso-Seq的方法中，用户合成cDNA并筛分，创建出不同长度的文库，然后环化并测序。PacBio的SMRT分析软件对相同结构的转录本进行聚类，从而最大限度减少测序错误。互补的策略是环化测序（circular consensus sequencing，CCS），其中cDNA被环化并反复测序，以产生更加准确的平均读取。鉴于PacBio的读取次数相对较低，一些研究人员将这种技术与选择一些基因的方法相结合。在一项最新的研究中，瑞士巴塞尔大学Peter Scheiffele领导的研究团队利用PacBio方法，对成年小鼠大脑中的370,000个轴突蛋白转录本进行测序，鉴定出这个家族中近1,400个独特的异构体。分析工具为了理解那些数据，Scheiffele的团队使用了一种称为GMAP的算法程序，这也是Underwood使用的。分析转录本结构的其他生物信息学工具包括Cufflinks、SpliceMap和 SigFuge。SigFuge由北卡罗来纳大学教堂山分校D. Neil Hayes副教授的实验室开发，是一种鉴定有趣的结构变异的工具。Hayes则使用它来鉴定数千个患者样本中的癌症标志物。“如果变异很重要，那么它应当是经常性的，”他解释道。有了SigFuge，“我们能够检测RNA结构中经常性的结构变异。” 但是你需要多少序列才能找到它们呢？Hayes认为没有简单的答案。“一般来说，越多越好。但是你测序越多，研究就越昂贵。”他认为每个肿瘤转录组需要6000万个Illumina读取。作为一般准则，Underwood建议对全转录组分析感兴趣的用户至少分析每个样品的100万个读取。“最低和最高表达的RNA之间可能相差5至6个数量级，”他说。因此，即使是最稀有的转录本，100万个读取应该也够了。这大约需要PacBio仪器上的20个SMRT cell，或每次运行8个cell，2.5次运行。（Jeffrey M. Perkel ）参考文献 Tilgner, H, et al., “Defining a personal, allele-specific, and single-molecule long-read transcriptome,” Proc Natl Acad Sci USA, 111:9869-74, 2014. Au, KF, et al., “Characterization of the human ESC transcriptome by hybrid sequencing,” Proc Natl Acad Sci USA, 110:E4821–30, published online November 26, 2013, doi: 10.1073/pnas.1320101110. Thomas, S, et al., “Long-read sequencing of chicken transcripts and identification of new transcript isoforms,” PLoS ONE, 9:e94650, 2014. Schreiner, D, et al., “Targeted combinatorial alternative splicing generates brain region-specific repertoires of neurexins,” Neuron, in press, 2014. 转自测序中国。; 个人分类: 转录组测序|2421 次阅读|0 个评论

RNA提取和建库流程对mRNA-Seq的影响: alinatingting 2014-8-14 14:21; 目前RNA-Seq是挖掘不同生长时期及不同胁迫条件下、不同组织细胞中其差异表达基因通常所采用的研究方法，同时还可以鉴定获得新的转录本信息以及不同的可变剪切事件，因而RNA-Seq目前应用很广泛。结合不同的RNA提取方法及文库构建流程对RNA-Seq获得的测序数据产生不同的影响。 1.关于总RNA提取关于RNA提取对于大家最为熟悉的是 Trizol-based的RNA提取方法，也有结合试剂盒来进行提取的。在提取总RNA的过程中通常会引入影响后续PCR酶促反应的抑制剂等，这些抑制剂如不正确去除的话，会对后续的反转录、末端修复、加A以及接头连接和PCR扩增等产生影响，如阻碍聚合酶的聚合、影响聚合酶的活性甚至降解聚合酶等，从而对最终获得的测序数据造成影响。样本中常见的抑制剂包含由样本中本身就带有的和在实验操作过程中带入的，样本中本身包含的抑制剂如血液中的血红蛋白，植物样本中的腐殖酸、黄腐酸等；在实验过程中带入的抑制剂如EDTA、肝素、氯酚仿等。不同样本中可能引入的抑制剂或其他污染物会不一样，详见 DNA/RNA Isolation Considerations When Using TruSeq Library Preparation 。如果样本中存在这些抑制剂等污染物质的话，需结合试剂盒进一步进行纯化，比如过柱子过滤的试剂盒等，达到总RNA理想标准方可开展后续实验。总RNA提取结果检测标准：总RNA溶解环境：ph7.5-8.0；结合Qubit or Pico/RiboGreen/Agilent 2100进行检测； Substance Absorbance (nm) 260/280 Ratio Values 260/230 Ratio Values Pure DNA 280 nm ~1.8 2.0–2.2 Pure RNA 280 nm ~2.0 2.0–2.2 EDTA, Carbohydrates, Phenol 230 nm 1.5 2.0 Guanidine HCL 230 nm 1.5 2.0 2.关于去除rRNA 考虑到总RNA中含有大量的rRNA序列，大约是在80%-90%的序列是rRNA，因而会结合不同的方法来去除总RNA中的rRNA。真核生物种常规的去除rRNA的方法是通过oligo(dT)富集带有polyA尾的mRNA来实现的，但是这种方法针对不含有polyA尾的转录本序列以及存在部分降解的总RNA样本，所以这种方法针对FF( Formalin-Fixed )样本和FFPE ( Paraffin-Embedded ) 石蜡包埋样本是不适用的，否则对获得样本中最全面的转录本信息会产生显著影响。针对于FF和FFPE样本以及原核生物的总RNA中去除rRNA，则需结合 RiboZero、RiboMinus等是结合来开展去除，其实针对rRNA序列进行杂交捕获去除的原理来去除的。针对FFPE样本还有结合双链特异性核酸酶构建文库来降低后续测序数据中的rRNA序列比例的。常见去除rRNA方法： a. rRNA 消减杂交法：相应的试剂盒有 MICROBExpress bacterial mRNA enrichment kit (Ambion) ， RiboMinus bacteria transcriptome isolation kit (Invitrogen) 和 Ribo-Zero rRNA removal kit (Epicentre) ； b. 5′ 单核苷酸依赖的外切酶处理法：相应的试剂盒主要有 mRNA-ONLY prokaryotic mRNA isolation kit (Epicentre) ； c. 选择性引物扩增法：相应试剂盒主要有 Ovation prokaryotic RNA-seq system (NuGEN) ； d. 依赖于双链特异核酸酶的 cDNA 均一化法：相应的试剂盒主要有 trimmer-direct cDNA normalization kit(Evroge n) ； e. 大肠杆菌 poly(A) 聚合酶加尾法：相应的试剂盒有 MessageAmp II-bacteria kit (Ambion) ；与 RNA 结合蛋白 Hfq 等免疫共沉淀法，由于 Hfq 能够高效地结合 small RNA ，并能辅助它们与靶标 mRNA 结合，因此常用于 small RNA 及其靶标 mRNA 的研究。 3. 关于文库构建针对去除rRNA之后获得的mRNA进行构建文库，通常有两种思路： a. 先对mRNA结合oligo(dT ) 进行反转录，再针对cDNA进行fragmentation； b. 先mRNA fragmentation再结合随机引物进行反转录。这两种方法获得的结果会有很多差异：a.蓝线；b.红线。上图显示先针对mRNA进行打断再进行反转录获得测序reads主要是针对基因本体的；若先反转录，尤其是结合oligo(dT)进行反转录获得的测reads对转录本3'端具有比较强的偏好性，所以在mRNA-Seq中建议采用先对mRNA打断再进行反转录的文库构建方法。根据mRNA文库构建类别，又分为常规的mRNA文库构建、均一化文库构建(引入双链特异性核酸酶)、全长cDNA文库以及链特异性文库构建(引入dUTP替换合成第二链中的dTTP)等，需根据具体的研究目的来选择，均一化文库构建可获得文库中低丰度表达基因信息、链特异性文库可获得正反向链上的转录本信息及可变剪切信息等。 Macrogen 千年基因针对结合NGS平台测序RNA文库要求等详细信息汇总如下： *上述表格针对总RNA以及mRNA、病毒ssRNA的情况均有列出，供参考。附参考文献（如有什么问题欢迎随时**我ttwu@macrogencn.com ，谢谢！）： 1. Influence of RNA extraction methods and library selection schemes on RNA-seq data ； 2. IVT-seq reveals extreme bias in RNA-sequencing ； 3. Ribosomal RNA depletion for massively parallel bacterial RNA-sequencing applications ； 4. Comprehensive comparative analysis of RNA sequencing methods for degraded or low input samples ； 5. illumina support ； 6. Macrogen 千年基因support ； 7. Prokaryotictranscriptomics: a new view on regulation, physiology and pathogenicity ； 8. Efficientand robust RNA-seq process for cultured bacteria and complex communitytranscriptomes ； 9. Aperspective: metatranscriptomics as a tool for the discovery of novelbiocatalysts ； 10. Deepsequencing analysis of small noncoding RNA and mRNA targets of the globalpost-transcriptional regulator ； 11. Globalanalysis of small RNA and mRNA targets of Hfq ； 12. Validationof two ribosomal RNA removal methods for microbial metatranscriptomics ； 13. RNA-Seq a revolutionary tool for transcriptomics.pdf 。; 个人分类: 转录组测序|19564 次阅读|1 个评论

How to calculate FPKM values of interested genes: ginseachen 2014-7-3 10:21; FPKM, Fragments Kilobase of exon model per millon mapped reads, which can be used to indicate the expression (abundance) characteristics of genes. Now I will describe operation about obtaining interested gene FPKM value. 1.Software Download 1).fastq-dump: convert sra file to fastq file. website: http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software 2).bowtie:an ultrafast and memory efficient tool for aligning sequencing reads to long reference sequences. website: http://bowtie-bio.sourceforge.net/bowtie2/index.shtml 3).cufflinks:assembles transcripts, estimates their abundances, and tests for differential expression and regulation in RNA-Seq samples. website: http://cufflinks.cbcb.umd.edu/ 4).gffread: convert gff3 file to gtf file. website: http://cufflinks.cbcb.umd.edu/ (This program is included with cufflinks package) 2. Operation 1) Download genome.fa and genes.gff3 file from genome website; Download sra file from NCBI 2) Format conversion $ fastq-dump -I --split-files SRR123456789.sra # convert sra file to fastq file $ gffread -E genes.gff3 -o genes.gtf # convert gff3 file to gtf file 3) Index files $bowtie2-build genome.fa genome 4) Alignment $bowtie2 -x genome -1 SRR123456789_1.fastq -2 SRR123456789_2.fastq -S SRR123456789.sam $samtools view -bS SRR123456789.sam SRR123456789.bam $samtools sort SRR123456789.bam SRR123456789 5) FPKM values $cufflinks SRR123456789.bam -G genes.gtf -o result After these operations, we can extract FPKM values from genes.frkm_tracking file based on gene ID. Notes: If you find some bugs, please contact me.; 5575 次阅读|0 个评论

[转载]美国奥本大学沟鲶BSR-Seq文章: jackiehu 2014-3-17 10:14; BMC Genomics. 2013 Dec 30;14(1):929. Bulk segregant RNA-seq reveals expression and positional candidate genes and allele-specific expression for disease resistance against enteric septicemia of catfish. 关键词：BSR-Seq, Bulked segregant RNA-seq. 分离群体分组转录组测序，联合分离群体分组分析(BSA)和基于NGS的转录组测序(RNA-seq)技术。物种与疾病：ESC, enteric septicemia of catfish （斑点叉尾鱼回肠型败血症)。斑点叉尾鮰，又称沟鲶、钳鱼，原产于北美洲，一种大型淡水鱼类。实验材料：4个BC1家系(抗病X感病F1与感病亲本回交)，每条鱼35g左右。对照群体：每个家系100条，共400条鱼。处理群体：每个家系300条，共1200条鱼，注入1000ml爱德华氏细菌(4×108CFU/ml)。取材：3-5天后，从2个家系群中收集死去个体为敏感鱼。2周后，同样的2个家系群中收集所有活着的个体为抗病鱼。于此同时，收集对照群体的鱼。测序方案：抗性组、敏感组、和对照组；每个组每个家系选12条，共24条鱼。3组共72条鱼，每条鱼取相同重量的肝脏组织，抽提RNA。每个组的个体所提出的RNA，等量混合，Truseq文库构建，PE100转录组测序。 Trinity软件进行de novo组装。转录组测序数据量为：抗性组，151M reads；敏感组，116M reads；对照组，132M reads。共得clead reads为374 M，de novo组装成232338条非冗余contigs，均长825bp。其中5.1万多条长度大于1Kb。基因差异表达分析发现，抗性组比较对照组时，224个基因差异表达，其中130个上调。而差异倍数大于10倍的基因有42个。敏感组对比对照组时，总计有1240个基因差异表达，其中差异倍数在10倍以上的有233个。抗性组与敏感组比较时，差异表达基因有1255个，在抗性组中上调表达的528个基因中，有4个差异倍数大于100；19个差异倍数在50-100之间；86个差异倍数在10-50之间。在抗性组中表达降低的基因中，2个超过100倍；10个在50-100之间；86个在10-50之间。使用Popoolation软件分析，鉴定出513371个SNPs；使用VarScan软件，鉴定到482035个SNPs，其中两个软件共同鉴定到465537个SNPs，这些SNPs位于31646个contigs之中。位于11249个contigs之中的56419个显著SNPs在抗性组和敏感组之间具有显著的等位频率差异。而这11249个contigs中，5480个可以比对上已知基因，代表了4304个unique基因。分析抗性组和敏感组的RNA-seq数据，得到分离群体频率比（Bulk frequency ratios,BFR）。大量含有标志SNPs的基因的BFR值大于2；总计359个基因的BFR值等于大于4；其中337个基因的BFR值在4-16之间；23个基因大于16；还有4个基因的BFR大于32. BFR值大于等于4的359个基因，所含有的组合分离等位比率在7以下，其中大都是具有1-3个组合分离等位比率，这表明BFR值大的这些基因并不是因为等位基因特异性表达，而可能是遗传分离所到导致的。共有354个BFR值大的基因被鉴定出含有显著SNPs，BLASTN搜索鲶鱼基因组草图，这354个基因在201个scaffolds之中，其中134个被定位到连锁群上。共有354个BFR值大的基因被鉴定出含有显著SNPs，BLASTN鲶鱼基因组草图（未发表），发现这些基因位于201个scaffolds之中，其中134个scaffolds已被定位到连锁群上。鉴定到8条染色体上含有沟鲶抗病性QTLs (基因数目5或含有BFR10的基因)， LG6、15和17上基因数目最多，而6条染色体含有BFR值10的基因。一般来说，蓝鲶的ESC抗病性要强于沟鲶。本研究98个SNPs组合等位比率大于14的基因中， 18个基因的亲本起源已知，11个基因起源自斑点叉尾鮰/沟鲶（channel catfish）， 7个基因起源自长鳍叉尾鮰/蓝鲶（blue catfish）。 11个优先表达沟鲶等位基因的基因中，6个在抗性鱼中高表达，5个在敏感鱼中高表达。而7个优先表达蓝鲶等位基因的基因中，4个在抗性鱼中高表达，3个在敏感鱼中高表达。本文经以上分析共找出17个同时具有高BFR值和低等位基因比的差异表达基因，这17个基因是候选抗病关键基因。本文转自：http://www.bgitechsolutions.cn/bbs/forum.php?mod=viewthreadtid=545; 个人分类: 遗传|3822 次阅读|0 个评论

[转载]List of RNA-Seq bioinformatics tools: chuangma2006 2013-8-16 09:01; List of RNA-Seq bioinformatics tools From Wikipedia, the free encyclopedia RNA-Seq ( RNA-Seq.ppt / RNA-Seq Guide ) is a revolutionary technique to perform transcriptome studies based on next-generation sequencing technologies. This technique is largely dependent on bioinformatics tools developed to support the different steps of the process. Here are listed some of the principal tools commonly employed and links to some related web resources. To follow an integrated guide to the analysis of RNA-seq data, please see - Next Generation Sequencing (NGS)/RNA , Hands-On Tutorial or RNA-Seq Workflow . Also, important links are SEQanswers , RNA-SeqList , RNA-SeqBlog , Biostar and bioscholar . Contents 1 Quality control and pre-processing data 1.1 Quality control and filtering data 1.2 Pre-processing data 2 Alignment Tools 2.1 Short (Unspliced) aligners 2.2 Spliced aligners 2.2.1 Aligners based on known splice junctions (annotation-guided aligners) 2.2.2 De novo Splice Aligners 2.2.2.1 De novo Splice Aligners that also use annotation optionally 2.2.2.2 Other Spliced Aligners 3 Quantitative analysis and Differential Expression 3.1 Multi-tool solutions 4 Workbench (analysis pipeline / integrated solutions) 4.1 Commercial Solutions 4.2 Open Source Solutions 5 Fusion genes/chimeras/translocation finders/structural variations 6 Copy Number Variations identification 7 RNA-Seq simulators 8 Transcriptome assemblers 8.1 Genome-Guided assemblers 8.2 Genome-Independent assemblers 9 Visualization tools 10 Functional, Network Pathway Analysis Tools 11 Further annotation tools for RNA-Seq data 12 RNA-Seq Databases 13 Webinars and Presentations 14 References Quality control and pre-processing data Quality control and filtering data Quality assessment is the first step of the bioinformatics pipeline of RNA-Seq. Often, is necessary to filter data, removing low quality sequences or bases (trimming), linkers, overrepresented sequences or noise to assure a coherent final result. clean_reads clean_reads . condetri condetri . cutadapt cutadapt removes adapter sequences from next-generation sequencing data (Illumina, SOLiD and 454). It is used especially when the read length of the sequencing machine is longer than the sequenced molecule, like the microRNA case. FastQC FastQC is a quality control tool for high-throughput sequence data ( Babraham Institute ) and is developed in Java . Import of data is possible from FastQ files, BAM or SAM format. This tool provides an overview to inform about problematic areas, summary graphs and tables to rapid assessment of data. Results are presented in HTML permanent reports. FastQC can be run as a stand alone application or it can be integrated into a larger pipeline solution. See also seqanswers/FastQC . FASTX FASTX Toolkit is a set of command line tools to manipulate reads in files FASTA or FASTQ format. These commands make possible preprocess the files before mapping with tools like Bowtie. Some of the tasks allowed are: conversion from FASTQ to FASTA format, information about statistics of quality, removing sequencing adapters, filtering and cutting sequences based on quality or conversion DNA / RNA . Flexbar Flexbar performs removal of adapter sequences, trimming and filtering features. FreClu FreClu improves overall alignment accuracy performing sequencing-error correction by trimming short reads, based on a clustering methodology. HTSeq HTSeq . htSeqTools htSeqTools is a Bioconductor package able to perform quality control, processing of data and visualization. htSeqTools makes possible visualize sample correlations, to remove over-amplification artifacts, to assess enrichment efficiency, to correct strand bias and visualize hits. PRINSEQ PRINSEQ generates statistics of your sequence data for sequence length, GC content, quality scores, n-plicates, complexity, tag sequences, poly-A/T tails, odds ratios. qrqc qrqc is a Bioconductor package to quick read quality control. RNA-SeQC RNA-SeQC is a tool with application in experiment design, process optimization and quality control before computational analysis. Essentially, provides three types of quality control: read counts (such as duplicate reads, mapped reads and mapped unique reads, rRNA reads, transcript-annotated reads, strand specificity), coverage (like mean coverage, mean coefficient of variation, 5’/3’ coverage, gaps in coverage, GC bias) and expression correlation (the tool provides RPKM-based estimation of expression levels). RNA-SeQC is implemented in Java and is not required installation, however can be run using the GenePattern web interface. The input could be one or more BAM files. HTML reports are generated as output. RSeQC RSeQC analyzes diverse aspects of RNA-Seq experiments: sequence quality, sequencing depth, strand specificity, GC bias, read distribution over the genome structure and coverage uniformity. The input can be SAM, BAM, FASTA, BED files or Chromosome size file (two-column, plain text file). Visualization can be performed by genome browsers like UCSC, IGB and IGV. However, R scripts can also be used to visualization. Sabre sabre . SAMStat SAMStat identifies problems and reports several statistics at different phases of the process. This tool evaluates unmapped, poorly and accurately mapped sequences independently to infer possible causes of poor mapping. Scythe scythe . SEECER seecer SEECER is a sequencing error correction algorithm for RNA-seq data sets. It takes the raw read sequences produced by a next generation sequencing platform like machines from Illumina or Roche. SEECER removes mismatch and indel errors from the raw reads and significantly improves downstream analysis of the data. Especially if the RNA-Seq data is used to produce a de novo transcriptome assembly, running SEECER can have tremendous impact on the quality of the assembly. Sickle Sickle . ShortRead ShortRead is a package provided in the R (programming language) / BioConductor environments and allows input, manipulation, quality assessment and output of next-generation sequencing data. This tool makes possible manipulation of data, such as filter solutions to remove reads based on predefined criteria. ShortRead could be complemented with several Bioconductor packages to further analysis and visualization solutions ( BioStrings , BSgenome , IRanges , and so on). See also seqanswers/ShortRead . SysCall SysCall is a classifier tool to identification and correction of systematic error in high-throughput sequence data. Trimmomatic Trimmomatic performs trimming for Illumina platforms and works with FASTQ reads (single or pair-ended). Some of the tasks executed are: cut adapters, cut bases in optional positions based on quality thresholds, cut reads to a specific length, converts quality scores to Phred-33/64. Pre-processing data Further tasks performed before alignment. DeconRNASeq DeconRNASeq is an R package for deconvolution of heterogeneous tissues based on mRNA-Seq data. FastQ Screen FastQ Screen screens FASTQ format sequences to a set of databases to confirm that the sequences contain what is expected (such as species content, adapters, vectors, etc). FLASH FLASH is a read pre-processing tool. FLASH combines paired-end reads which overlap and converts them to single long reads. IDCheck IDCheck . Alignment Tools After control assessment, the first step of RNA-Seq analysis involves alignment (RNA-Seq alignment) of the sequenced reads to a reference genome (if available) or to a transcriptome database. See also List of sequence alignment software and HTS Mappers . Short (Unspliced) aligners Short aligners are able to align continuous reads (not containing gaps result of splicing) to a genome of reference. Basically, there are two types: 1) based on the Burrows-Wheeler transform method such as Bowtie and BWA, and 2) based on Seed-extend methods, Needleman-Wunsch or Smith-Waterman algorithms. The first group (Bowtie and BWA) is many times faster, however some tools of the second group, despite the time spent tend to be more sensitive, generating more reads correctly aligned. See a comparative study of short aligners - comparative study . BFAST BFAST aligns short reads to reference sequences and presents particular sensitivity towards errors, SNPs, insertions and deletions. BFAST works with the Smith-Waterman algorithm. See also seqanwers/BFAST . Bowtie Bowtie is a fast short aligner using an algorithm based on the Burrows-Wheeler transform and the FM-index . Bowtie tolerates a small number of mismatches. See also seqanswers/Bowtie . Burrows-Wheeler Aligner (BWA) BWA implements two algorithms, mainly based on Burrows–Wheeler transform . The first algorithm is used with reads with low error rate (3%). The second algorithm was designed to handle more errors and implements a combined strategy: Burrows–Wheeler transform and Smith-Waterman method. BWA allows mismatches and small gaps (insertions and deletions). The output is presented in SAM format. See also seqanswers/BWA . Short Oligonucleotide Analysis Package (SOAP) SOAP . GNUMAP GNUMAP performs alignment using a probabilistic Needleman-Wunsch algorithm. This tool is able to handle alignment in repetitive regions of a genome without losing information. The output of the program was developed to make possible easy visualization using available software. Maq Maq first aligns reads to reference sequences and after performs a consensus stage. On the first stage performs only ungapped alignment and tolerates up to 3 mismatches. See also seqanswers/Maq . Mosaik Mosaik . Mosaik is able to align reads containing short gaps using Smith-Waterman algorithm , ideal to overcome SNPs, insertions and deletions. See also seqanswers/Mosaik . NovoAlign (commercial) NovoAlign is a short aligner to the Illumina platform based on Needleman-Wunsch algorithm. Novoalign tolerates up to 8 mismatches per read, and up to 7bp of indels. It is able to deal with bisulphite data. Output in SAM format. See also seqanswers/NovoAlign . RazerS RazerS . See also seqanswers/RazerS . SEAL SEAL uses a MapReduce model to produce distributed computing on clusters of computers. Seal uses BWA to perform alignment and Picard MarkDuplicates to detection and duplicate read removal. See also seqanswers/SEAL . SeqMap SeqMap . See also seqanswers/SeqMap . SHRiMP SHRiMP employs two techniques to align short reads. Firstly, the q-gram filtering technique based on multiple seeds identifies candidate regions. Secondly, these regions are investigated in detail using Smith-Waterman algorithm. See also seqanswers/SHRiMP . SMALT Smalt . Stampy Stampy combines the sensitivity of hash tables and the speed of BWA. Stampy is prepared to alignment of reads containing sequence variation like insertions and deletions. It is able to deal with reads up to 4500 bases and presents the output in SAM format. See also seqanswers/Stampy . ZOOM (commercial) ZOOM is a short aligner of the Illumina/Solexa 1G platform. ZOOM uses extended spaced seeds methodology building hash tables for the reads, and tolerates mismatches and insertions and deletions. See also seqanswers/ZOOM . Spliced aligners Many reads span exon-exon junctions and can not be aligned directly by Short aligners, thus specific aligners were necessary - Spliced aligners. Some Spliced aligners employ Short aligners to align firstly unspliced/continuous reads (exon-first approach), and after follow a different strategy to align the rest containing spliced regions - normally the reads are split into smaller segments and mapped independently. See also Methods to study splicing from high-throughput RNA Sequencing data and Methods to Study RNA-Seq (workflow) . Aligners based on known splice junctions (annotation-guided aligners) In this case the detection of splice junctions is based on data available in databases about known junctions. This type of tools cannot identify new splice junctions. Some of this data comes from other expression methods like expressed sequence tags (EST). Erange Erange is a tool to alignment and data quantification to mammalian transcriptomes. See also seqanswers/Erange . IsoformEx IsoformEx . MapAL MapAL . OSA OSA . RNA-MATE RNA-MATE is a computational pipeline for alignment of data from Applied Biosystems SOLID system. Provides the possibility of quality control and trimming of reads. The genome alignments are performed using mapreads and the splice junctions are identified based on a library of known exon-junction sequences. This tool allows visualization of alignments and tag counting. See also seqanswers/RNA-MATE . RUM RUM performs alignment based on a pipeline, being able to manipulate reads with splice junctions, using Bowtie and Blat. The flowchart starts doing alignment against a genome and a transcriptome database executed by Bowtie. The next step is to perform alignment of unmapped sequences to the genome of reference using BLAT. In the final step all alignments are merged to get the final alignment. The input files can be in FASTA or FASTQ format. The output is presented in RUM and SAM format. RNASEQR RNASEQR . See also seqanswers/RNASEQR . SAMMate SAMMate . See also seqanswers/SAMMate . SpliceSeq SpliceSeq . X-Mate X-Mate . De novo Splice Aligners De novo Splice aligners allow the detection of new Splice junctions without need to previous annotated information (some of these tools present annotation as a suplementar option). See also De novo Splice Aligners . ABMapper ABMapper . See also seqanswers/ABMapper . ContextMap ContextMap was developed to overcome some limitations of other mapping approaches, such as resolution of ambiguities. The central idea of this tool is to consider reads in gene expression context, improving this way alignment accuracy. ContextMap can be used as a stand-alone program and supported by mappers producing a SAM file in the output (e.g.: TopHat or MapSplice). In stand-alone mode aligns reads to a genome, to a transcriptome database or both. CRAC CRAC propose a novel way of analyzing reads that integrates genomic locations and local coverage, and detect candidate mutations, indels, splice or fusion junctions in each single read. Importantly, CRAC improves its predictive performance when supplied with e.g. 200 nt reads and should fit future needs of read analyses. GSNAP GSNAP . See also seqanswers/GSNAP . HMMSplicer HMMSplicer can identify canonical and non-canonical splice junctions in short-reads. Firstly, unspliced reads are removed with Bowtie. After that, the remaining reads are one at a time divided in half, then each part is seeded against a genome and the exon borders are determined based on the Hidden Markov Model . A quality score is assigned to each junction, useful to detect false positive rates. See also seqanswers/HMMSplicer . MapSplice MapSplice . See also seqanswers/MapSplice . OLego OLego . See also seqanswers/OLego . PALMapper PALMapper . See also seqanswers/PALMapper . Pass Pass aligns gapped, ungapped reads and also bisulfite sequencing data. It includes the possibility to filter data before alignment (remotion of adapters). Pass uses Needleman-Wunsch and Smith-Waterman algorithms, and performs alignment in 3 stages: scanning positions of seed sequences in the genome, testing the contiguous regions and finally refining the alignment. See also seqanswers/Pass . PASSion PASSion . PASTA PASTA . QPALMA QPALMA predicts splice junctions supported on machine learning algorithms. In this case the training set is a set of spliced reads with quality information and already known alignments. See also seqanswers/QPALMA . SeqSaw SeqSaw . SoapSplice SoapSplice . SpliceMap SpliceMap . See also seqanswers/SpliceMap . SplitSeek SplitSeek . See also seqanswers/SplitSeek . SuperSplat SuperSplat was developed to find all type of splice junctions. The algorithm splits each read in all possible two-chunk combinations in an iterative way, and alignment is tried to each chunck. Output in “Supersplat” format. See also seqanswers/SuperSplat . Subread Subread is a superfast, accurate and scalable read aligner. It uses the seed-and-vote mapping paradigm to determine the mapping location of the read by using its largest mappable region. It automatically decides whether the read should be globally mapped or locally mapped. For RNA-seq data, Subread should be used for the purpose of expression analysis. Subread is very powerful in mapping gDNA-seq reads as well. See also seqanswers/Subread . Subjunc Subjunc is a specialized version of Subread. It uses all mappable regions in an RNA-seq read to discover exons and exon-exon junctions. It uses the donor/receptor signals to find the exact splicing locations. Subjunc yields full alignments for every RNA-seq read including exon-spanning reads, in addition to the discovered exon-exon junctions. Subjunc should be used for the purpose of junction detection and genomic variation detection in RNA-seq data. See also seqanswers/Subjunc . TrueSight TrueSight . De novo Splice Aligners that also use annotation optionally GEM . MapNext MapNext . See also seqanswers/MapNext . STAR STAR is an ultrafast tool that employs “sequential maximum mappable seed search in uncompressed suffix arrays followed by seed clustering and stitching procedure”, detects canonical, non-canonical splices junctions and chimeric-fusion sequences. It is already adapted to align long reads (third-generation sequencing technologies) and can reach speeds of 45 million paired reads per hour per processor. See also seqanswers/STAR . TopHat TopHat is prepared to find de novo junctions. TopHat aligns reads in two steps. Firstly, unspliced reads are aligned with Bowtie. After, the aligned reads are assembled with Maq resulting islands of sequences. Secondly, the splice junctions are determined based on the initially unmapped reads and the possible canonical donor and acceptor sites within the island sequences. See also seqanswers/TopHat . Other Spliced Aligners G.Mo.R-Se G.Mo.R-Se is a method that uses RNA-Seq reads to build de novo gene models. Quantitative analysis and Differential Expression These tools calculate the abundance of each gene expressed in a RNA-Seq sample (see also Quantification models ). Some softwares are also designed to study the variability of genetic expression between samples (differential expression). Quantitative and differential studies are largely determined by the quality of reads alignment and accuracy of isoforms reconstruction. See a comparative study of differential expression methods and Which method should you use for normalization of rna-seq data? . Alexa-Seq Alexa-Seq is a pipeline that makes possible to perform gene expression analysis, transcript specific expression analysis, exon junction expression and quantitative alternative analysis. Allows wide alternative expression visualization, statistics and graphs. See also seqanswers/Alexa-Seq . ASC ASC . See also seqanswers/ASC . BaySeq BaySeq is a Bioconductor package to identify differential expression using next-generation sequencing data, via empirical Bayesian methods . There is an option of using the “snow” package for parallelisation of computer data processing, recommended when dealing with large data sets. See also seqanswers/BaySeq . BBSeq BBSeq . See also seqanswers/BBSeq . BitSeq BitSeq . CEDER CEDER . CPTRA CPTRA . casper casper is a Bioconductor package to quantify expression at the isoform level. It combines using informative data summaries, flexible estimation of experimental biases and statistical precision considerations which (reportedly) provide substantial reductions in estimation error. Cufflinks Cufflinks is appropriate to measure global de novo transcript isoform expression. It performs assembly of transcripts, estimation of abundances and determines differential expression and regulation in RNA-Seq samples. See also seqanswers/Cufflinks . DESeq DESeq is a Bioconductor package to perform differential gene expression analysis based on negative binomial distribution. See also seqanswers/DESeq . DEGSeq DEGSeq . See also seqanswers/DEGSeq . DEXSeq DEXSeq is Bioconductor package that finds differential differential exon usage based on RNA-Seq exon counts between samples. DEXSeq employs negative binomial distribuition, provides options to visualization and exploration of the results. DiffSplice DiffSplice is a method for differential expression detection and visualization, not dependent on gene annotations. This method is supported on identification of alternative spicing modules (ASMs) that diverge in the different isoforms. A non-parametric test is applied to each ASM to identify significant differential transcription with a measured false discovery rate. EBSeq EBSeq . EdgeR EdgeR is a R package for analysis of differential expression of data from DNA sequencing methods, like RNA-Seq, SAGE or ChIP-Seq data. edgeR employs statistical methods supported on negative binomial distribution as a model for count variability. See also seqanswers/EdgeR . eXpress eXpress performance includes transcript-level RNA-Seq quantification, allele-specific and haplotype analysis and can estimate transcript abundances of the multiple isoforms present in a gene. Although could be coupled directly with aligners (like Bowtie), eXpress can also be used with de novo assemblers and thus is not needed a reference genome to perform alignment. It runs on Linux, Mac and Windows. ERANGE ERANGE performs alignment, normalization and quantification of expressed genes. See also seqanswers/ERANGE . featureCounts featureCounts an efficient read summarization/quantification program. It is implemented in both SourceForge Subread package and Bioconductor Rsubread package . FDM FDM GPSeq GPSeq MATS MATS . MISO MISO quantifies the expression level of splice variants from RNA-Seq data and is able to recognize differentially regulated exons/isoforms across different samples. MISO uses a probabilistic method (Bayesian inference) to calculate the probability of the reads origin. See also seqanswers/MISO . MMSEQ MMSEQ is a pipeline for estimating isoform expression and allelic imbalance in diploid organisms based on RNA-Seq. The pipeline employs tools like Bowtie, TopHat, ArrayExpressHTS and SAMtools. Also, edgeR or DESeq to perform differential expression. See also seqanswers/MMSEQ . Myrna Myrna is a pipeline tool that runs in a cloud environment ( Elastic MapReduce ) or in a unique computer for estimating differential gene expression in RNA-Seq datasets. Bowtie is employed for short read alignment and R algorithms for interval calculations, normalization, and statistical processing. See also seqanswers/Myrna . NEUMA NEUMA is a tool to estimate RNA abundances using length normalization, based on uniquely aligned reads and mRNA isoform models. NEUMA uses known transcriptome data available in databases like RefSeq . NOISeq NOISeq . See also seqanswers/NOISeq . NSMAP NSMAP allows inference of isoforms as well estimation of expression levels, without annotated information. The exons are aligned and splice junctions are identified using TopHat. All the possible isoforms are computed by combination of the detected exons. RNAeXpress RNAeXpress Can be run with Java GUI or command line on Mac, Windows and Linux. Can be configured to perform read counting, feature detection or GTF comparison on mapped rnaseq data. rSeq rSeq RSEM RSEM . See also seqanswers/RSEM . rQuant rQuant is a web service ( Galaxy (computational biology) installation) that determines abundances of transcripts per gene locus, based on quadratic programming . rQuant is able to evaluate biases introduced by experimental conditions. A combination of tools is employed: PALMapper (reads alignment), mTiM and mGene (inference of new transcripts). Scotty Scotty Performs power analysis to estimate the number of replicates and depth of sequencing required to call differential expression. SpliceTrap SpliceTrap . SplicingCompass SplicingCompass . Multi-tool solutions DEB DEB is a web-interface/pipeline that permits to compare results of significantly expressed genes from different tools. Currently are available three algorithms: edgeR, DESeq and bayseq. Workbench (analysis pipeline / integrated solutions) See also an interesting blog 16 rna-seq tools you have to consider for your analysis pipeline . Commercial Solutions Avadis NGS Avadis NGS . CLC Genomics Workbench CLC Genomics Workbench DNASTAR DNASTAR GeneSpring GX GeneSpring GX geospiza geospiza Golden Helix Golden Helix NextGENe NextGENe Partek Partek Open Source Solutions ArrayExpressHTS ArrayExpressHTS (and ebi_ArrayExpressHTS ) is a BioConductor package that allows preprocessing, quality assessment and estimation of expression of RNA-Seq datasets. It can be run remotely at the European Bioinformatics Institute cloud or locally. The package makes use of several tools: ShortRead (quality control), Bowtie, TopHat or BWA (alignment to a reference genome), SAMtools format, Cufflinks or MMSEQ (expression estimation). See also seqanswers/ArrayExpressHTS . BiNGS!SL-seq . Chipster Chipster . easyRNASeq easyRNASeq . ExpressionPlot ExpressionPlot . FX FX . Galaxy : Galaxy is a general purpose workbench platform for computational biology. There are several publicly accessible Galaxy servers that support RNA-Seq tools and workflows, including NBIC's Andromeda , the CBIIT-Giga server, the Galaxy Project's public server , the GeneNetwork Galaxy server , the University of Oslo 's Genomic Hyperbrowser , URGI 's server (which supports S-MART), and many others. GENE-Counter GENE-Counter is a Perl pipeline for RNA-Seq differential gene expression analyses. Gene-counter performs alignments with CASHX, Bowtie, BWA or other SAM output aligner. Differential gene expression is run with three optional packages (NBPSeq, edgeR and DESeq) using negative binomial distribution methods. Results are stored in a MySQL database to make possible additional analyses. GenePattern GenePattern offers integrated solutions to RNA-Seq analysis ( Broad Institute ). GeneProf GeneProf : Freely accessible, easy to use analysis pipelines for RNA-seq and ChIP-seq experiments. MultiExperiment Viewer (MeV) MeV is suitable to perform analysis, data mining and visualization of large-scale genomic data. The MeV modules include a variety of algorithms to execute tasks like Clustering and Classification, Student's t-test , Gene Set Enrichment Analysis or Significance Analysis. MeV runs on Java . See also seqanswers/MeV . NGSUtils NGSUtils . RobiNA RobiNA provides a user graphical interface to deal with R/BioConductor packages. RobiNA provides a package that automatically installs all required external tools (R/Bioconductor frameworks and Bowtie ). This tool offers a diversity of quality control methods and the possibility to produce many tables and plots supplying detailed results for differential expression. Furthermore, the results can be visualized and manipulated with MapMan and PageMan . RobiNA runs on Java version 6. S-MART S-MART handles mapped RNA-Seq data, and performs essentially data manipulation (selection/exclusion of reads, clustering and differential expression analysis) and visualization (read information, distribution, comparison with epigenomic ChIP-Seq data). It can be run on any laptop by a person without computer background. A friendly graphycal user interface makes easy the operation of the tools. See also seqanswers/S-MART . Taverna Taverna . wapRNA wapRNA . Fusion genes/chimeras/translocation finders/structural variations Genome arrangements result of diseases like cancer can produce aberrant genetic modifications like fusions or translocations. Identification of these modifications play important role in carcinogenesis studies. BreakDancer BreakDancer . See also seqanswers/BreakDancer . ChimeraScan ChimeraScan . EBARDenovo EBARDenovo . FusionAnalyser FusionAnalyser . FusionCatcher FusionCatcher . FusionHunter FusionHunter identifies fusion transcripts without depending on already known annotations. It uses Bowtie as a first aligner and paired-end reads. See also seqanswers/FusionHunter . FusionMap FusionMap . FusionSeq FusionSeq . See also seqanswers/FusionSeq . SOAPFuse SOAPFuse . SOAPfusion Soapf usion . TopHat-Fusion TopHat-Fusion is based on TopHat version and was developed to handle reads resulting from fusion genes. It does not require previous data about known genes and uses Bowtie to align continuous reads. See also seqanswers/TopHat-Fusion . ViralFusionSeq ViralFusionSeq is high-throughput sequencing (HTS) tool for discovering viral integration events and reconstruct fusion transcripts at single-base resolution. See also hkbic/VFS and SEQWiki/VFS . DeFuse DeFuse . Copy Number Variations identification CNVseq CNVseq detects copy number variations supported on a statistical model derived from array-comparative genomic hybridization . Sequences alignment are performed by BLAT, calculations are executed by R modules and is fully automated using Perl. See also seqanswers/CNVseq . RNA-Seq simulators These Simulators generate in silico reads and are a useful tool to compare and test the efficiency of algorithms developed to handle RNA-Seq data. Moreover, some of them make possible to analyse and model RNA-Seq protocols. BEERS Simulator BEERS is formatted to mouse or human data, and paired-end reads sequenced on Illumina platform. Beers generates reads starting from a pool of gene models coming from different published annotation origins. Some genes are chosen randomly and afterwards are introduced deliberately errors (like indels, base changes and low quality tails), followed by construction of novel splice junctions. dwgsim dwgsim . Flux simulator Flux Simulator implements a computer pipeline simulation to mimic a RNA-Seq experiment. All component steps that influence RNA-Seq are taken into account (reverse transcription, fragmentation, adapter ligation, PCR amplification, gel segregation and sequencing) in the simulation. These steps present experimental attributes that can be measured, and the approximate experimental biases are captured. Flux Simulator allows joining each of these steps as modules to analyse different type of protocols. See also seqanswers/Flux . RSEM Read Simulator rsem-simulate-reads . RNASeqReadSimulator RNASeqReadSimulator contains a set of simple Python scripts, command line driven. It generates random expression levels of transcripts (single or paired-end), equally simulates reads with a specific positional bias pattern and generates random errors from sequencing platforms. RNA Seq Simulator RNA Seq Simulator . Transcriptome assemblers The transcriptome is the total population of RNAs expressed in one cell or group of cells, including non-coding and protein-coding RNAs. There are two types of approaches to assemble transcriptomes. Genome-guided methods use a reference genome (if possible a finished and high quality genome) as a template to align and assembling reads into transcripts. Genome-independent methods does not require a reference genome and are normally used when a genome is not available. In this case reads are assembled directly in transcripts. Genome-Guided assemblers Cufflinks Cufflinks . IsoInfer IsoInfer . IsoLasso IsoLasso . RNAeXpress RNAeXpress . Scripture Scripture . See also seqanswers/Scripture . Genome-Independent assemblers KISSPLICE KISSPLICE . Oases Oases . See also seqanswers/Oases . Rnnotator . SOAPdenovo SOAPdenovo . See also seqanswers/SOAPdenovo . Scaffolding Translation Mapping (STM) . Trans-ABySS Trans-AByss . See also seqanswers/Trans-ABySS . Trinity Trinity . See also seqanswers/Trinity . Velvet Velvet (algorithm) . Velvet(EMBL-EBI) . See also seqanswers/Velvet . Visualization tools Artemis Artemis . Apollo Apollo . EagleView EagleView . GBrowse GBrowse . Integrated Genome Browser IGB . Integrative Genomics Viewer (IGV) IGV . GenomeView genomeview . MapView MapView . Tablet Tablet Tbrowse- HTML5 Transcriptome Browser Tbrowse . Savant Savant Samscope Samscope . SeqMonk SeqMonk . See also seqanswers/SeqMonk . Vespa Vespa . Functional, Network Pathway Analysis Tools Ingenuity Systems (commercial) iReport IPA : Ingenuity’s IPA and iReport applications enable you to upload, analyze, and visualize RNA-Seq datasets, eliminating the obstacles between data and biological insight. Both IPA and iReport support identification, analysis and interpretation of differentially expressed isoforms between condition and control samples, and support interpretation and assessment of expression changes in the context of biological processes, disease and cellular phenotypes, and molecular interactions. Ingenuity iReport supports the upload of native Cuffdiff file format as well as gene expression lists. IPA supports the upload of gene expression lists. Gene Set Association Analysis for RNA-Seq ( GSAA-Seq ) : GSAA-Seq is a computational method that assesses the differential expression of a pathway/gene set between two biological states based on RNA-Seq data. Further annotation tools for RNA-Seq data seq2HLA seq2HLA is an annotation tool for obtaining an individual's HLA class I and II type and expression using standard NGS RNA-Seq data in fastq format. It comprises mapping RNA-Seq reads against a reference database of HLA alleles using bowtie , determining and reporting HLA type, confidence score and locus-specific expression level. This tool is developed in Python and R . It is available as console tool or Galaxy module. See also seqanswers/seq2HLA . HLAminer HLAminer is a computational method for identifying HLA alleles directly from whole genome, exome and transcriptome shotgun sequence datasets. HLA allele predictions are derived by targeted assembly of shotgun sequence data and comparison to a database of reference allele sequences. This tool is developed in perl and it is available as console tool. pasa pasa . RNA-Seq Databases queryable-rna-seq-database queryable-rna-seq-database . RNA-Seq Atlas RNA-Seq Atlas . SRA SRA . Webinars and Presentations RNASeq-Blog Presentations RNA-Seq Workshop Documentation (UC Davis University) VIDEO: Strategies for Identifying Biologically Compelling Genes from Breast Cancer Subtype RNA-Seq Profiles with Accompanying Analysis Princeton Workshop Youtube/RNA-Seq NGS Leaders COFACTOR genomics References ^ Wang Z, Gerstein M, Snyder M. (January 2009). RNA-Seq: a revolutionary tool for transcriptomics . Nature Reviews Genetics 10 (1): 57–63. doi : 10.1038/nrg2484 . PMC 2949280 . PMID 19015660 . ^ a b Yang Liao, Gordon K Smyth and Wei Shi (2013). The Subread aligner: fast, accurate and scalable read mapping by seed-and-vote . Nucleic Acids Research 41 . doi : 10.1093/nar/gkt214 . PMID 23558742 . ^ http://bioinformatics.oxfordjournals.org/content/29/1/15.full ^ Cole Trapnell, Lior Pachter and Steven Salzberg (2009). TopHat: discovering splice junctions with RNA-Seq . Bioinformatics 25 (9): 1105–1111. doi : 10.1093/bioinformatics/btp120 . PMC 2672628 . PMID 19289445 . ^ Cole Trapnell, Brian A Williams, Geo Pertea, Ali Mortazavi, Gordon Kwan, Marijke J van Baren, Steven L Salzberg, Barbara J Wold and Lior Pachter (2010). Transcript assembly and abundance estimation from RNA-Seq reveals thousands of new transcripts and switching among isoforms . Nature Biotechnology 28 (5): 511–515. doi : 10.1038/nbt.1621 . PMC 3146043 . PMID 20436464 . ^ Zerbino DR, Birney E (2008). Velvet: Algorithms for de novo short read assembly using de Bruijn graphs . Genome Research 18 (5): 821–829. doi : 10.1101/gr.074492.107 . PMC 2336801 . PMID 18349386 . zz: http://en.wikipedia.org/wiki/List_of_RNA-Seq_bioinformatics_tools; 个人分类: NGS|5796 次阅读|0 个评论

揭发国内RNA-seq测序的欺诈行为: 热度 1 gaoshannankai 2013-6-15 01:47; 1. 我看到很多公司建议客户做双端测序，其实单端就够了（深度高一点），双端测序由于两个方向数据很难保证都好，还有其他问题，因此比单端并无明显优势；他们建议双端，一来可以多收一倍的价格，另外可以把RNA-seq数据与其他的 DNA测序（这个必须是双端）集中到一个lane以减少成本；没看我以前发表文章的不要误会，当前绝大部分软件没有充分使用paired的信息，所以双端当单端处理，但是如果你有这方面经验，就不一样了。跑龙套的可不行。 2.最好做strand-specific的，这个只是建库成本提高一点，但可以得到更多有用信息； 3.有的公司会劝客户先测一个多来源（比如各组织叶、根、茎）样本的大数据（深度非常高），然后再根据客户要求测（比如客户需要3个叶，3个根的样本），造成很大浪费。其实只要测 3个叶，3个根对客户的问题就足够了。 4.强制绑定分析服务，大多数分析都是找几个本科生跑跑龙套，现在很多更专业的小公司分析更便宜，质量更高。; 6666 次阅读|1 个评论

再谈RNA-seq转录组数据分析的几个问题: 热度 5 gaoshannankai 2013-5-31 04:11; 上次谈到了谈谈RNA-seq实验的几点经验，国内学者少走弯路 http://blog.sciencenet.cn/blog-907017-688359.html 其中很重要的就是质量控制和去除污染 alignment或拼接前，必须去除adapter、病毒、rRNA等污染序列。 alignment或拼接后，还要仔细查看alignment的比例，以及实验重复之间的表达相关性最近做的一个Tni转录组（一种虫子），通过拼接得到70458个转录本，后来质量控制发现不对劲，就把数据blast到nt数据库，我的天有11825条转录本来自大肠杆菌，这么多，肯定是污染，必须进一步去除否则对后续分析影响很大，你比如说标准化。; 6593 次阅读|8 个评论

谈谈RNA-seq实验的几点经验，国内学者少走弯路: 热度 7 gaoshannankai 2013-5-10 03:39; 谈谈RNA-seq实验的几点经验，国内学者少走弯路随着illumina推出myseq等更便宜的设备，RNA-seq在国内使用越来越多但是由于国内的垄断等原因，很多公司对客户进行误导自己基于多个项目和大量数据处理的经验，给大家几点建议，仅供参考 1. 一定要坚定跟着illumina，尽管其他几款设备也有很大进步，但是差距很是不小的； 2. 100bp单向测序足够了，不用paired end为好，后者经常被用了宰客； 3. 组装还是trinity最好，华大那个更快 4. 组装前要对测序的数据做严格的质量控制，去污染（primer、病毒、rRNA） 5. 建议使用strand specific技术因为RNA-seq制备方法必须反转录成 cDNA，因此丢失了转录体序列的方向性，为了知道转录本来自具体哪条DNA，人们发明了strand specific。 strand-specific RNA-seq library的制备方法太多了，但是dUTP还是最成熟最可靠的我们实验室有个protocal又快又便宜，你们可以参考一下 High-Throughput Illumina Strand-Specific RNA Sequencing Library Preparation Silin Zhong等; 11950 次阅读|19 个评论

[转载]RNA-seq转录本拼接与重构的探讨: bioseq 2012-9-14 11:07; RNA进行测序一直以来都被认为是一种发现基因的有效方法，而且这种方法还被认为是对编码基因以及非编码基因进行注释的金标准。与以前的方法相比，大规模平行RNA测序方法（massively parallel sequencing of RNA）极大增强了RNA测序技术的处理能力，使我们得以能够对转录组进行测序。在本文中即将介绍到的这两种RNA测序方法就能以前所未有的精度对转录组进行分析。Trapnell小组使用的方法是一种名为Cufflinks的软件。这种软件能够随时发现小鼠生肌细胞（myoblast cell）内新出现的转录子，还能在细胞分化时对转录子表达水平进行监测，从而分析基因表达情况和剪接情况。Guttman小组也使用了与Trapnell小组相类似的软件方法，不过他们使用的是另一种名为Scripture的软件。Scripture软件可以对源自三个小鼠细胞系的转录组进行再注释（reannotate），从而对数百个最近新发现的lincRNA（large intergenic noncoding RNA）进行完整的基因模式注释。虽然RNA测序技术已经出现了将近20年，但直到最近才开始构建克隆文库。对人类、小鼠以及其它重要模式生物进行全长基因克隆构建的科研项目需要几年的时间才能够完成。但是有了最新的测序技术，我们将不再需要构建克隆文库，可以直接对cDNA片段进行测序。我们现在可以只需要花费几天，仅用以往同类项目科研经费的很少一部分就能够得到一个比较满意的完整的细胞转录组。但是这种新技术也存在一点问题。不用构建克隆，我们就无法知道哪一个“结果（mRNA或蛋白）”来自哪一个转录子。最近已经有人开始通过对已知的或者预测出来的转录子的短RNA序列进行测序的方式来对基因表达和可变剪接进行分析研究。虽然这些研究可以得到很多信息，但是这种方法只能用于分析已知基因和对已知的可变连接区域进行分析。为了充分利用RNA序列数据进行生物学研究，我们还应该能够重建转录子并且还要能够在不借助参考注释基因组信息的情况下对这些转录子的相对丰度进行精确的测量。过去我们在利用短RNA序列重建转录子时主要采用了两条策略（图1）。第一条策略是利用ABySS软件从头构建的方法，这样就可以与全长cDNA序列进行比对，从而解决序列注释的问题。这种办法还可以用于发现参考基因组中未收录或者收录不完全的转录子，还可以用于发现那些缺乏参考基因组RNA序列数据物种的转录子。不过这种利用小片段序列从头组装转录子的方法实施起来非常困难，只有丰度很高的转录子才有可能被成功组装。 RNA-Seq reads：短片段RNA序列；Align reads to genome：与基因组数据比对；Genome：基因组；Assemble transcripts de novo：从头组装转录子；More abundant：高丰度； Assemble transcripts from spliced alignments：通过与各种剪接方案比对组装转录子； Align transcripts to genome：将转录子与基因组进行比对；Less abundant：低丰度；图1 利用RNA序列数据重建转录子的两种方法。图中左侧示意的先比对再组装的办法是Trapnell小组和Guttman小组采用的方法。该方法首先将短片断RNA序列与基因组序列进行比对，计算出所有可能的剪接方案，然后根据这些剪接方案重建出转录子。图中右侧展示的则是先组装再比对的方法。该方法先从根据RNA片段序列直接头合成出转录子序列，然后再用各种剪接方式对合成的转录子进行剪接，将剪接产物与基因组进行比对，找出内含子和外显子结构，以及各个不同剪接体之间的差异。由于这种从头合成的方法绝大部分情况下只对高丰度转录子管用，因此左侧图中展示的先比对再组装的策略要更为灵敏，不过这一观点尚需进一步论证。图中每个RNA片段都根据其来源转录子被标上了各种颜色。重建转录子中的蛋白编码区被标记成了深色。第二种策略是先将每一个短片段RNA与基因组进行比对，然后再重建转录子。Trapnell小组和Guttman小组采用的就是这种策略。这两个小组使用的都是TopHat比对软件，通过该软件与基因组进行比对，获得了大量的剪接体。早期的RNA测序只能得到25~32个碱基长度的序列片段，现在我们可以得到75个碱基甚至更长的序列片段，这样就更容易进行序列比对，可以将片段末端固定在不同的外显子当中来判断哪种剪接体才是正确的，这样就不需要借助先前的注释信息了。通过上述这两种方法最终都能得到各种转录子图谱，再通过末端配对信息剔除掉不太可能的选择最终就能得到想要的转录子。在使用哪种算法方面也是有很大差别的。比如Trapnell小组采用的Cufflinks软件就使用了一种非常严格的算术模型来发现每一个位点所有的可变调控转录子，还可以计算出每一种转录子的优势度。Guttman小组采用的Scripture软件则采用了统计学分段模型（statistical segmentation model）来区分表达位点和实验噪声。需要对Cufflinks软件技术、Scripture软件技术以及利用ABySS软件从头构建的方法进行大规模的测试，才能判断出哪一种方法在哪一种情况下面最为合适、有效。令人吃惊的是，尽管我们已经利用数以百万计的EST和数千条完整的全长cDNA序列对小鼠基因组进行了详细的注释工作，但是Trapnell小组和Guttman小组还是发现了数千条以前从未发现过的转录子，其中包括已知基因的新型同工型转录子以及全新的编码基因及非编码基因的转录子。 Trapnell小组发现了3724条新的可信度非常高的已知基因的同工型转录子，这些转录子不论在人工注释的基因数据库还是在自动注释的基因数据库中都没有收录过。Trapnell小组还发现他们所发现的每一个转录子经过单独的表达验证之后都能对后续的分析起到重要的作用。实验表明，RNA测序工作能够在很大一个动态范围内准确地反映基因的表达情况，但是之前的实验都只能根据已知的同工型转录子或者预测的同工型转录子来进行判断。根据RNA片段的测序结果直接重建出所有的同工型转录子，然后再根据这些同工型转录子的出处将所有的配对片段进行分类，Trapnell小组用这种方法就能非常准确地判断出每一个基因的每一个同工型转录子的表达水平。他们还发现将每一个RNA片段正确地组装入转录子，能够极大的影响同一基因其它已知同工型转录子的预计表达水平。如果能够检测每一个同工型转录子的表达水平，那么我们就能够对基因表达的调控机制进行更加深入的研究。这种调控机制可能发生在转录水平，比如形成具有不同转录起始位点的同工型转录子；也可以发生在转录后水平，比如虽然转录起始位点相同，但是内部剪接方式不同的各同工型转录子。Trapnell小组还发现，随着实验的推进，有大量基因的表达都会因为上面提到的这两种调控机制而发生明显的改变。这种能够在如此长时间段里对整个基因组表达调控情况进行检测的能力让我们能够进一步了解到基因组的新功能。比如，在这种水平上的详细数据能够让我们构建出更加合适的基因组调控网络模型，也可以利用这些数据根据每个基因各同工型转录子剪接情况与表达情况之间的关系来改变模型中的某些调控参数，而不用直接改变每一个基因的参数。 Guttman小组也发现了很多新的同工型剪接转录子，不过他们的工作重点主要都放到了各个新发现的转录子身上，尤其是lincRNA。之前利用芯片测序（ChIP-Seq）方法和全基因组瓦片芯片（whole-genome tiling array）方法发现了编码lincRNA的位点，但是由于分辨率不够因此不能构建出准确的模型。Guttman小组在Scripture软件的帮助下对609个已知位点构建出了基因模型，同时还发现了1000多个新的lincRNA，并解析了这些lincRNA的结构。Guttman小组还发现了469个蛋白编码基因的反义转录子。通过为这些非编码RNA构建基因模型的方式能够让我们更好地开展基因功能研究了。比如Guttman小组就检测了各转录子的保守情况。与以前的观察结果一样，lincRNA要比内含子序列保守得多，但是其保守程度不如蛋白编码序列高。相反，反义转录子并不比编码蛋白的外显子区域的保守水平高，这说明这两种转录子各自具有不同的功能。RNA测序数据还能够展示非编码转录子的表达模式，这些数据表明lincRNA的丰度不仅要比蛋白编码RNA的丰度低，同时其表达水平也较低，而且同蛋白编码RNA相比，lincRNA的表达还具有非常明显的组织特异性。简单来说，如果能够更详细地了解非编码RNA的表达模式，为这些RNA构建出更为准确的基因模型，那么我们就能够更加清楚地知道它们在基因表达调控网络模型以及基因间相互作用模型中的作用，从而对它们的功能有更加深入的了解和认识。 Trapnell小组和Guttman小组发现了如此之多的新转录子这一事实不由得不让我们思考一个问题，为什么我们的注释工作会如此滞后呢？在Trapnell小组的试验中，已知的各种同工型转录子占到了总数的80%以上，这说明这些已知的转录子都来自高表达水平的基因，因此很容易通过以往的cDNA克隆测序方法给发现。Guttman小组的情况也基本相同。还有11%的RNA片段是来自已知基因新发现的同工型转录子，其中62%的片段都能与现有的EST或mRNA相印证，但是它们都还没有作为一个独立的转录子被注释。可能在以往的研究当中也零星的发现过这些低丰度的同工型转录子，可能只是因为它们与已知的转录子比较相似，或者是因为没能得到完整的测序，因此没有进行注释。与这种情况类似，被Guttman小组发现的lincRNA中有43%都可以在以往的小鼠cDNA研究工作中找到踪迹。由于lincRNA具有明显的组织特异性而以往的研究工作往往又只局限于研究某些组织，因此剩余的57%的lincRNA应该都是以前没有发现过的新的转录子。早期大规模RNA测序工作的重点都是针对蛋白编码区域，这可能也是我们注释工作显得落后的原因之一。Trapnell小组和Guttman小组采用的这种RNA测序方法能够明白无误地区分编码转录子和非编码转录子。 Trapnell小组使用的Cufflinks软件、Guttman小组使用的Scripture软件，以及其它一些类似的软件可以极大地改进我们的基因组注释工作，不论是被研究得非常详细的基因组还是缺乏EST和全长mRNA序列信息的基因组都能从中受益。但是利用RNA测序方法来进行基因注释工作也不是完美无缺的。通过Cufflinks软件和Scripture软件被发现的转录子中有大量的转录子都属于已知的转录子，只不过因为覆盖率较低所以都是不完整的转录子。正如用RNA测序方法重建的转录子很难与EST数据相吻合一样，很多低表达水平或者组织特异性表达的转录子也很难通过现有的RNA测序方法被发现。随着测序技术的不断进步，我们也能够对转录组开展更为深入的测序工作，能够发现更多、更可靠的转录子。不过我们还需要更加先进的方法来区分低丰度的功能性转录子和背景噪声以及各种人为的假象。虽然Cufflinks和Scripture都是非常好的基因组注释工具，但针对不同的基因组（因为每个基因组的特点比如基因的密度、内含子的长度和含量、可变剪接发生的频率高低等等都不尽相同），我们仍然需要各种不同的软件（或算法）来更好地匹配并注释这些基因组。我们还需要看看Cufflinks和 Scripture在处理其它与小鼠基因组完全不同的基因组时表现如何。大规模并行测序技术已经彻底改变了我们对基因组的研究方法，测序结果的质量也在不断提高，得到的信息量也在爆炸式增长。通过本文的介绍，我们也可以看到RNA测序技术以及转录子发现技术对于基因组注释工作以及基因组转录水平及转录后水平调控机制研究工作的重要意义。如果相应的软件能够及时跟上，那么RNA测序技术将有更大的成就。原文检索： Brian J Haas Michael C Zody. (2010) Advancing RNA-Seq analysis, Nature Biotechnology , 28(5): 421-423.; 6270 次阅读|0 个评论

12 3 下一页

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: RNA-seq

相关日志

关闭安全验证