使用RepeatMolder,ltr_finder,LTR_retriever和RepeatMasker分析基因组重复序列(个人经验分享),主要是针对常规的流程RepeatMolder和RepeatMasker分析的结果中出现Unclassfied比例较高进行调整。
第一步:使用RepeatMolder构建重复序列库
BuildDatabase -name Species Species_genome.fasta
RepeatModeler -pa 30 -database Species
结果文件Species-families.fa为重复序列库
第二步:使用ltr_finder和LTR_retriever寻找LTR库
ltr_finder -D 15000 -d 1000 -L 700 -l 100 -p 20 -C -M 0.9 Species_genome.fasta > Species.scn
LTR_retriever -genome Species_genome.fasta -infinder Species.scn -threads 20
结果Species_genome.fasta.mod.LTRlib.fa文件为LTR库
第三步:构建重复序列库,先删除RepeatModeler中的LTR序列,因为ltr_finder和LTR_retriever也是寻找的LTR库,不然两部分的LTR会有重复
seqkit grep -vnrp '#LTR' Species-families.fa > Species_noLTR.fasta
cat Species_noLTR.fasta Species_genome.fasta.mod.LTRlib.fa > Species_repeat.fa
结果Species_repeat.fa为初步获得的重复序列库
第四步:对Unclassfied的序列进行进一步分类 将重复序列分为unknowns和knowns部分,然后对unknowns进一步分类
seqkit grep -nrp '#Unknown' Species_repeat.fa > Species_repeat_unknowns.fasta
seqkit grep -vnrp '#Unknown' Species_repeat.fa > Species_repeat_knowns.fasta
下载公共数据库的重复序列,并同源比对,取最佳比对即可
wget -c http://www.hrt.msu.edu/uploads/535/78637/Tpases020812.gz
makeblastdb -in Tpases020812 -dbtype prot
blastx -query Species_repeat_unknowns.fasta -db Tpases020812 -evalue 1e-10 -num_alignments 1 -outfmt 6
将Unknown的序列的名字替换成blastx最佳比对的重复序列名字,记为Species_Tpases020812.fa,没有比对上的即为Species_noTpases020812.fa 替换后合并Species_repeat_knowns.fasta,Species_noTpases020812.fa和Species_Tpases020812.fa作为最终重复序列库Species_repeat_finna.fa
第五步:使用RepeatMasker进行重复序列分析(建议使用4.1.1以上的版本)
RepeatMasker -pa 30 -s -no_is -dir ./ -a -gff -lib Species_repeat_finna.fa Species_genome.fasta
结果Species_genome.fasta.tbl即为重复序列分类结果,以gff结尾的为位置信息。
总结:该分析流程结果跟多篇文献结果类似,结果较为准确,供大家使用参考和提出建议。(此外,如果该流程分析出来的Unclassfied比例还是较高,最后可将Species_repeat_finna.fa再分为unknowns和knowns,并用blast对unknowns比对knowns,将和knowns比对上的序列删除,然后将没比对上的和knowns合并为最终的重复序列库)
转载本文请联系原作者获取授权,同时请注明本文来自贾安强科学网博客。
链接地址:https://m.sciencenet.cn/blog-3465482-1297912.html?mobile=1
收藏