cdsStartStat, cdsEndStat, exonFrames of GenePredExt format gpe格式的最后一列是exonFrames,一列逗号隔开的数,可以取{0,1,2}或是-1。 -1,代表对应的exon全部位于UTR区,不参与翻译。 {0,1,2},代表对应的exon在参与翻译时,需要向前一个exon的末尾取n={0,1,2}个碱基,从而组成正确的读码框。这里说的前一个exon,和转录本所在链方向一致,即5'端的exon。 因此,第一个coding exon的exonFrame必然是0,不因start codon在这个exon内部的位置而变。 使用exonFrames的时候一定要参考到转录本方向,否则信息全都会错掉。 倒数第二列 cdsEndStat 和倒数第三列 cdsStartStat: string cdsStartStat; enum('none','unk','incmpl','cmpl') string cdsEndStat; enum('none','unk','incmpl','cmpl') These fields provide additional information about the status of the start and end of a gene's coding region. The possible statuses are: - none - no CDS specified from the sequence's data source. - unk - unknown - not known if CDS start/end is complete. - incmpl - the CDS start/end is incomplete - cmpl - the CDS start/end is complete. 来源: http://yanshouyu.blog.163.com/blog/static/2142831822014218104913372/ http://redmine.soe.ucsc.edu/forum/index.php?t=msggoto=3414S=04f4b46d643063e6206cf7564edf8460