科学网

 找回密码
  注册

tag 标签: FPKM

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]基因表达量表示方法RPKM VS FPKM
lemoncyb 2016-11-11 03:18
我们都知道RNA-seq是通过NGS技术来检测基因表达量的测序方法。在衡量基因表达量方面,若是单纯以比对到参考基因的Reads个数(我们通常称之为Count值)来衡量基因的表达量,在统计上是一件相当不合理的事。今天就为大家介绍一下衡量基因表达量的RPKM和FPKM两种方法。 在随机抽样的情况下,序列较长的基因被抽到的概率本来就会比序列短的基因高,如此一来,序列长的基因永远会被认为表达量较高,而错估基因真正的表达量。在测序深度不同的情况下,测序深度更深的样品中,比对到每个基因的Read数量更多。 为排除因基因的长度、测序深度等因素造成的干扰,RPKM(Reads Per Kilobase Million)和FPKM(Fragments Per Kilobase Million)等方法就应运而生了。 RPKM (Reads Per Kilobase per Million)和 FPKM (Fragments Per Kilobase per Million) 首先需要解释FPKM和RPKM的原理是相似的,区别在于FPKM对应的是DNA片段,比如在一个Illumina的pair-end(双尾)RNA-seq中,一对(两个)reads对应是一个DNA片段。有了FPKM(RPKM)概念,我们就能比较:同一个样本中基因A和基因B的相对表达量;或者不同样本中,同一个基因的相对表达量。 具体的原因是:引入“每一千碱基(per kilobase)”的原因在于,不同的RNA可能有不同长度,长度越长,对应的reads就越多。当每个RNA都除以自身长度(以1000碱基为单位)时,就可以比较同一个样本中不同基因的相对表达量了。相似地,引入“每一百万reads”的原因是,不同的样本可能测序的深度不一样,深度越深,当然对应的reads就越多了。如果结果除以各自库的数量(以一百万reads为单位),那么我们就能很好地衡量两个不同样本中同一个基因的相对表达量。 RPKM RPKM是将Map到基因的Reads数除以Map到Genome的所有Read数(以Million为单位)与RNA的长度(以KB为单位)。 FPKM FPKM是将Map到基因的Fragments数除以Map到Genome的所有Read数(以Million为单位)与RNA的长度(以KB为单位)。 从公式上可以看出,方法是将Reads(Fragments)Count进行标准化,分别是对测序深度标准化(以Million为单位)和对基因长度标准化(以KB为单位),从而消除了因测序深度和基因长度不同对基因表达量的影响。
个人分类: Bioinformatics|21773 次阅读|0 个评论
How to calculate FPKM values of interested genes
ginseachen 2014-7-3 10:21
FPKM, Fragments Kilobase of exon model per millon mapped reads, which can be used to indicate the expression (abundance) characteristics of genes. Now I will describe operation about obtaining interested gene FPKM value. 1.Software Download 1).fastq-dump: convert sra file to fastq file. website: http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software 2).bowtie:an ultrafast and memory efficient tool for aligning sequencing reads to long reference sequences. website: http://bowtie-bio.sourceforge.net/bowtie2/index.shtml 3).cufflinks:assembles transcripts, estimates their abundances, and tests for differential expression and regulation in RNA-Seq samples. website: http://cufflinks.cbcb.umd.edu/ 4).gffread: convert gff3 file to gtf file. website: http://cufflinks.cbcb.umd.edu/ (This program is included with cufflinks package) 2. Operation 1) Download genome.fa and genes.gff3 file from genome website; Download sra file from NCBI 2) Format conversion $ fastq-dump -I --split-files SRR123456789.sra # convert sra file to fastq file $ gffread -E genes.gff3 -o genes.gtf # convert gff3 file to gtf file 3) Index files $bowtie2-build genome.fa genome 4) Alignment $bowtie2 -x genome -1 SRR123456789_1.fastq -2 SRR123456789_2.fastq -S SRR123456789.sam $samtools view -bS SRR123456789.sam SRR123456789.bam $samtools sort SRR123456789.bam SRR123456789 5) FPKM values $cufflinks SRR123456789.bam -G genes.gtf -o result After these operations, we can extract FPKM values from genes.frkm_tracking file based on gene ID. Notes: If you find some bugs, please contact me.
5565 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 14:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部