科学网

 找回密码
  注册

tag 标签: stringtie

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

FPKM, RPKM, RPM以及TPM的关系之见解
热度 1 hayidahubei 2017-3-10 09:50
FPKM ,RPKM,RPM以及TPM的关系之见解 RPKM : Reads Per Kilobase of exon model per Million mapped reads ( 每千个碱基的转录每百万映射读取的 reads) FPKM : Fragments Per Kilobase of exon model per Million mapped fragments( 每千个碱基的转录每百万映射读取的 fragments) RPM/CPM : Reads/Counts of exon model per Million mapped reads ( 每百万映射读取的 reads) TPM : Transcripts Per Kilobase of exon model per Million mapped reads ( 每千个碱基的转录每百万映射读取的 Transcripts) ##################################################################### RPKM (Reads Per Kilobase Million) FPKM (Fragments Per Kilobase Million) TPM(Transcripts Per Kilobase Million) RPM (Reads per million) CPM (Counts per million) ##################################################################### FPKM ( 推荐软件, cufflinks/Stringtie) 和 RPKM ( 推荐软件, Range/Deseq) 的计算方法基本一致,公式如下 ( 外显子的表达 ) : RPKM= total exon reads/ (mapped reads (Millions) * exon length(KB)) 你可以用这个公式计算基因,外显子,转录本的表达,这里以基因的表达为例进行说明: total exon reads:某个样本mapping到特定基因的外显子上的所有的reads mapped reads (Millions) :某个样本的所有reads总和 exon length(KB):某个基因的长度(外显子的长度的总和,以KB为单位) 在一个样本中一个基因的 RPKM 等于落在这个基因上的总的 read 数 ( total exon reads ) 与这个样本的总 read 数 ( mapped reads (Millions) ) 和基因长度 ( exon length(KB) ) 的乘积的比值。 ##################################################################### 而 RPM 的计算公式: RPM=total exon reads / mapped reads (Millions) RPM per gene is calculated as the number of reads per gene divided by the number ofsingle-mapping reads per sample library times one million ##################################################################### 而 TPM ( 推荐软件, RSEM/Stringtie) 的计算公式: TPM i =(N i /L i )*1000000/sum(N i /L i+……..+ N m /L m ) N i:mapping到基因i上的read数; L i: 基因i 的外显子长度的总和 在一个样本中一个基因的 TPM :先对每个基因的 read 数用基因的长度进行校正,之后再用校正后的这个基因 read 数 (N i /L i ) 与校正后的这个样本的所有 read 数 ( sum( N i /L i+……..+ N m /L m ) ) 求商 。 ##################################################################### FPKM 和 RPKM 的区别就是一个是 fragment, 一个是 read. 对于单末端测序数据 , 由于 Cufflinks 计算的时候是将一个 read 当做一个 fragment 来算的 , 故而 FPKM 等同于 RPKM. 对于双末端测序而言 , 如果一对 paired-read 都比对上了 , 那么这一对 paired-read 称之为一个 fragment , 而如果一对 paired-Read 中只有一个比对上了 , 另外一个没有比对上 , 那么就将这个比对上的 read 称之为一个 fragment. 而计算 RPKM 时 , 如果一对 paired-read 都比对上了会当成两个 read 计算 , 而如果一对 paired-read 中只有一个比对上了 , 另外一个没有比对上 , 那么就计 read 数为 1. 故而即使是理论上将各个参数都设置成一样的 , 也并不能说 FPKM=2RPKM. 对于单末端测序 , 虽然理论上 FPKM 等同于 RPKM, 但是实际上即使是使用同一个 mapping 软件得到的 mapping 结果 , 然后再分别去计算同一个基因的 RPKM ( 自己人工计算,或者用现成的一些软件都能算 ) 和 FPKM ( 用 Cufflinks/Stringtie 计算 ) , 结果却仍然是不同 , 因为 不同软件 有自己的模型和自己的一些内在算法。 RPM 与 RPKM 的区别看公式或者全称就能看出来,就不赘述了! 不管是计算 FPKM 、 RPKM , 还是计算 TPM , 我们都要先得到一个 ReadCount 的矩阵(行为基因 , 列为样本). 在计算 FPKM 和 RPKM 时,都是先按列(也就是这个样本的总 read 数)进行标化 , 之后再对对个基因的长度进行标准化 , 而 TPM 是先对基因长度进行标准化 , 之后再对列(这个时候就不再是这个样本的总 read 数了)进行标化. 这样使得最终的 TPM 矩阵的每列都相同(列和都等于 1000000 ) , 也就是说每个样本中的 TPM 的和都是一样的. 这样理论上就会使得我们更容易去比较同一个基因在不同样本中所占的 read 数的比例. 而 RPKM/FPKM 由于最终的表达值矩阵的列和(有效的read总数,测序深度)不同,故而理论上不方便直接比较同一个基因在不同样本中所占的 read 数的比例. 虽然上面说了对于单末端测序数据 , FPKM 等同于 RPKM. 但是不论是单末端测序还是双末端测序 , Cufflinks 的表达值的单位都是 FPKM , 至于在单末端测序数据下 , Cufflinks 的表达值的单位用 RPKM 代替 FPKM , 个人仍旧是持反对意见的。 以上有些结论仅仅只是个人观点 , 如果有高见 , 希望能够共同探讨!
个人分类: RNA_seq处理|57207 次阅读|3 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-18 02:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部