科学网-基因组重复序列之标准分析（de novo重复序列库）-贾安强的博文

基因组重复序列之标准分析（de novo重复序列库）

2021-8-1 17:21

阅读：4737

使用RepeatMolder，ltr_finder，LTR_retriever和RepeatMasker分析基因组重复序列（个人经验分享），主要是针对常规的流程RepeatMolder和RepeatMasker分析的结果中出现Unclassfied比例较高进行调整。

第一步：使用RepeatMolder构建重复序列库

BuildDatabase -name Species Species_genome.fasta

RepeatModeler -pa 30 -database Species

结果文件Species-families.fa为重复序列库

第二步：使用ltr_finder和LTR_retriever寻找LTR库

ltr_finder -D 15000 -d 1000 -L 700 -l 100 -p 20 -C -M 0.9 Species_genome.fasta > Species.scn

LTR_retriever -genome Species_genome.fasta -infinder Species.scn -threads 20

结果Species_genome.fasta.mod.LTRlib.fa文件为LTR库

第三步：构建重复序列库，先删除RepeatModeler中的LTR序列，因为ltr_finder和LTR_retriever也是寻找的LTR库，不然两部分的LTR会有重复

seqkit grep -vnrp '#LTR' Species-families.fa > Species_noLTR.fasta

cat Species_noLTR.fasta Species_genome.fasta.mod.LTRlib.fa > Species_repeat.fa

结果Species_repeat.fa为初步获得的重复序列库

第四步：对Unclassfied的序列进行进一步分类将重复序列分为unknowns和knowns部分，然后对unknowns进一步分类

seqkit grep -nrp '#Unknown' Species_repeat.fa > Species_repeat_unknowns.fasta

seqkit grep -vnrp '#Unknown' Species_repeat.fa > Species_repeat_knowns.fasta

下载公共数据库的重复序列，并同源比对，取最佳比对即可

wget -c http://www.hrt.msu.edu/uploads/535/78637/Tpases020812.gz

makeblastdb -in Tpases020812 -dbtype prot

blastx -query Species_repeat_unknowns.fasta -db Tpases020812 -evalue 1e-10 -num_alignments 1 -outfmt 6

将Unknown的序列的名字替换成blastx最佳比对的重复序列名字，记为Species_Tpases020812.fa，没有比对上的即为Species_noTpases020812.fa 替换后合并Species_repeat_knowns.fasta，Species_noTpases020812.fa和Species_Tpases020812.fa作为最终重复序列库Species_repeat_finna.fa

第五步：使用RepeatMasker进行重复序列分析(建议使用4.1.1以上的版本)

RepeatMasker -pa 30 -s -no_is -dir ./ -a -gff -lib Species_repeat_finna.fa Species_genome.fasta

结果Species_genome.fasta.tbl即为重复序列分类结果，以gff结尾的为位置信息。

总结：该分析流程结果跟多篇文献结果类似，结果较为准确，供大家使用参考和提出建议。（此外，如果该流程分析出来的Unclassfied比例还是较高，最后可将Species_repeat_finna.fa再分为unknowns和knowns，并用blast对unknowns比对knowns，将和knowns比对上的序列删除，然后将没比对上的和knowns合并为最终的重复序列库）

转载本文请联系原作者获取授权，同时请注明本文来自贾安强科学网博客。

链接地址：https://m.sciencenet.cn/blog-3465482-1297912.html?mobile=1

分享到:

当前推荐数：0

推荐到博客首页

网友评论0 条评论

该博文允许注册用户评论请点击登录