贾安强
基因组重复序列之标准分析(de novo重复序列库)
2021-8-1 17:21
阅读:4737

使用RepeatMolder,ltr_finder,LTR_retriever和RepeatMasker分析基因组重复序列(个人经验分享),主要是针对常规的流程RepeatMolder和RepeatMasker分析的结果中出现Unclassfied比例较高进行调整。


第一步:使用RepeatMolder构建重复序列库 

BuildDatabase -name Species Species_genome.fasta 

RepeatModeler -pa 30 -database Species 

结果文件Species-families.fa为重复序列库 


第二步:使用ltr_finder和LTR_retriever寻找LTR库 

ltr_finder -D 15000 -d 1000 -L 700 -l 100 -p 20 -C -M 0.9 Species_genome.fasta > Species.scn

LTR_retriever -genome Species_genome.fasta -infinder Species.scn -threads 20 

结果Species_genome.fasta.mod.LTRlib.fa文件为LTR库 


第三步:构建重复序列库,先删除RepeatModeler中的LTR序列,因为ltr_finder和LTR_retriever也是寻找的LTR库,不然两部分的LTR会有重复 

seqkit grep -vnrp '#LTR' Species-families.fa > Species_noLTR.fasta 

cat Species_noLTR.fasta Species_genome.fasta.mod.LTRlib.fa > Species_repeat.fa 

结果Species_repeat.fa为初步获得的重复序列库 


第四步:对Unclassfied的序列进行进一步分类 将重复序列分为unknowns和knowns部分,然后对unknowns进一步分类 

seqkit grep -nrp '#Unknown' Species_repeat.fa > Species_repeat_unknowns.fasta 

seqkit grep -vnrp '#Unknown' Species_repeat.fa > Species_repeat_knowns.fasta 

下载公共数据库的重复序列,并同源比对,取最佳比对即可 

wget -c http://www.hrt.msu.edu/uploads/535/78637/Tpases020812.gz 

makeblastdb -in Tpases020812 -dbtype prot 

blastx -query Species_repeat_unknowns.fasta -db Tpases020812 -evalue 1e-10 -num_alignments 1 -outfmt 6 

将Unknown的序列的名字替换成blastx最佳比对的重复序列名字,记为Species_Tpases020812.fa,没有比对上的即为Species_noTpases020812.fa 替换后合并Species_repeat_knowns.fasta,Species_noTpases020812.fa和Species_Tpases020812.fa作为最终重复序列库Species_repeat_finna.fa 


第五步:使用RepeatMasker进行重复序列分析(建议使用4.1.1以上的版本) 

RepeatMasker -pa 30 -s -no_is -dir ./ -a -gff -lib Species_repeat_finna.fa Species_genome.fasta 

结果Species_genome.fasta.tbl即为重复序列分类结果,以gff结尾的为位置信息。


总结:该分析流程结果跟多篇文献结果类似,结果较为准确,供大家使用参考和提出建议。(此外,如果该流程分析出来的Unclassfied比例还是较高,最后可将Species_repeat_finna.fa再分为unknowns和knowns,并用blast对unknowns比对knowns,将和knowns比对上的序列删除,然后将没比对上的和knowns合并为最终的重复序列库)

转载本文请联系原作者获取授权,同时请注明本文来自贾安强科学网博客。

链接地址:https://m.sciencenet.cn/blog-3465482-1297912.html?mobile=1

收藏

分享到:

上一篇
当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?