科学网

 找回密码
  注册

tag 标签: 重复序列

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]RepeatMasker简介及安装
热度 1 hsm 2015-12-17 16:52
简介 RepeatMasker is a program that screens DNA sequences for interspersed repeats and low complexity DNA sequences. The output of the program is a detailed annotation of the repeats that are present in the query sequence as well as a modified version of the query sequence in which all the annotated repeats have been masked (default: replaced by Ns). On average, almost 50% of a human genomic DNA sequence currently will be masked by the program. Sequence comparisons in RepeatMasker are performed by one of several popular search engines including, cross_match, ABBlast/WUBlast, RMBlast and Decypher. RepeatMasker 软件可以用来查找和屏蔽基因序列中的重复和低复杂度的序列。 在线查询 http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker RepeatMasker Web Server screens DNA sequences in FASTA format against a library of repetitive elements and returns a masked query sequence ready for database searches. RepeatMasker also generates a table annotating the masked regions. You can select a sequence file to process or paste the sequences(s) in FASTA format. But large sequences will be queued, and may take a while to process. 网页版可以输入fasta格式文件直接进行查询,但是对于比较的大文件不太方便,需要安装本地版本。 本地安装 1. Unix system with perl 5.8.0 or higher installed 2. Sequence Search Engine RepeatMasker uses a sequence search engine to perform it's search for repeats. Currently Cross_Match, RMBlast and WUBlast/ABBlast are supported. You will need to obtain one or the other of these and install them on your system. For Cross_Match go to http://www.phrap.org You will want to select Phred/Phrap/Consed as Cross_Match is part of the Phrap package. For RMBlast ( NCBI Blast modified for use with RepeatMasker/RepeatModeler ) please go to our download page: http://www.repeatmasker.org/RMBlast.html RMBlast的安装需要先安装BLAST+ For HMMER please download the v3.1b1 version here: http://hmmer.janelia.org/ For ABBlast/WUBlast go to NOTE: RepeatMasker open-3.2.9 or higher is required to use RMBlast. 这里以RMBlast的安装为例来做示范。 首先下载blast和RMBlast的最新安装包: RMBlast: ftp://ftp.ncbi.nlm.nih.gov/blast/executables/rmblast/LATEST BLAST+: ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST 下载RMBlast 和 BLAST+的linux 版本, ncbi-blast-2.2.28+-x64-linux.tar.gz 和 ncbi-rmblastn-2.2.28-x64-linux.tar.gz 解压之后将两个文件夹下的bin里的文件拷贝或者链接到同一个路径下,例如/mytmp/location/rmblast2.2.28。(其实主要是三个文件rmblastn,makeblastdb 和blastx) 3. TRF - Tandem Repeat Finder, G. Benson et al. RepeatMasker was developed using TRF version 4.0.4, You can obtain a free copy at http://tandem.bu.edu/trf/trf404.linux.download.html . 下载之后直接改名为 trf,复制到 /usr/local/bin 之类的地方,存放地址并不重要,只要在RepeatMasker编译的过程中准确引用其路径就可以。需要注意的是,trf 必须是可执行文件,所以需要改下属性,否则会导致RepeatMasker编译出问题。 chmod ugo+x trf (或者chmod a+x trf) 4. Repeat Database RepeatMasker will now work with custom libraries and with Dfam out of the box. Dfam is a database of profile HMM models of transposable elements ( only human at this point ) and is supported by RepeatMasker. For all other species we highly recommend obtaining the RepeatMasker version of RepBase. RepeatMasker searches are optimised to use this database and can produce higher quality annotations than can be acheived using the equivalent libraries with the -lib option. To update the Dfam libraries contained in this release go to http://www.dfam.org. To obtain RepBase for RepeatMasker go to http://www.girinst.org/server/RepBase/index.php 下载RepeatMasker的库需要注册Giri账号,可以申请免费账号,1-2个工作日Giri会给你注册的邮箱发密码邮件。得到账号之后,下载 Repeatmasker 版本的Repbase。 下载解压后,将RepeatMaskerLib.embl文件放在/mytmp/location/RepeatMasker/Libraries/ 文件夹下。 5.RepeatMasker Installation 5.1 Download RepeatMasker 可以在 http://www.repeatmasker.org/RMDownload.html 获取Latest Released Version。 5.2 Unpack the distribution Unpack the distribution in your home directory or in a location where it may be shared with other users of your system ( ie. /mytmp/location/ ). cp RepeatMasker-open-4-#-#.tar.gz /mytmp/location/ cd /mytmp/location/ gunzip RepeatMasker-open-4-#-#.tar.gz tar xvf RepeatMasker-open-4-#-#.tar 5.3 Install RepeatMasker Libraries (同4 解压Repbase到./RepeatMasker/Libraries) Download the libraries from http://www.girinst.org and unpack in the RepeatMasker program directory. It is always best to use the most current. 5.4 Configure cd /usr/local/RepeatMasker perl ./configure 需要输入perl,RepeatMasker,trf绝对路径,最后需要选择比对软件及其绝对路径,并设置默认比对软件。 出现下面的提示,就表示你成功安装了RepeatMasker。 Congratulations! RepeatMasker is now ready to use. The program is installed with a full version of the repeat library: DFAM Library Version = Dfam_1.2 RMLibrary Version = 20130422 Repbase Version = 20130422 Further documentation on the program may be found here: /mytmp/location/RepeatMasker/repeatmasker.help 参考: http://www.repeatmasker.org/ http://azaleasays.com/2011/08/04/install-repeatmasker/ http://tandem.bu.edu/trf/trf404.linux.download.html http://www.girinst.org/ http://www.repeatmasker.org/RMBlast.html http://www.repeatmasker.org/webrepeatmaskerhelp.html 原文链接: http://bio-infor.blog.163.com/blog/static/107279815201362871420572/
5539 次阅读|1 个评论
贝母超级基因组的形成原因
cjj1650 2015-6-12 19:07
贝母( Fritillaria )的基因组大小( 1C )达 30.15 Gb 至 85.38 Gb 之巨,这种超级基因组如何形成的? 一般认为,少数一些重复序列(特别是一些反转座子序列如 LTRs )的扩增是导致基因组庞大的主要原因。最近 Kelly 等 (2015) 通过 454 测序,分析了贝母属中几个代表性物种的基因组序列,研究揭示,除了转座子重复序列,贝母基因组内成千上万的低拷贝重复序列是这种超级基因组的重要组成部分,而非从前认为的少数几种重复序列所致。作者还讨论了基因组的表观遗传机制作用于这些低丰度的重复序列,导致这些重复序列从基因组中清除变得十分困难。 Kelly, L.J., S.Renny-Byfield, J. Pellicer, J. Macas, P. Novak, P. Neumann, M.A. Lysak, P.D.Day, M. Berger, M.F. Fay, R.A. Nichols, A.R. Leitch and I.J. Leitch. 2015.Analysis of the giant genomes of Fritillaria (Liliaceae) indicates that a lackof DNA removal characterizes extreme expansions in genome size. New Phytol.
个人分类: 科技进展|4078 次阅读|0 个评论
中老年“神经-肌肉系统”退行性疾病
duke01361 2012-7-27 09:00
中老年“神经-肌肉系统”退行性疾病 人类基因组内有一大类重复DNA序列是由4种碱基中的3种组成,通常被称为三核苷酸重复序列。其中,位于不同基因位点的(CTG)n•(CAG)n 、(GAA)n•(CTT)n、(CGG)n•(CCG)n重复序列可以表现出随着年龄的增加而出现“变长”的突变。我们通常把这种突变成为“三核苷酸重复序列的扩增”( Expansion of Trinucleotide Repeats ) 。三核苷酸重复序列的扩增体现“遗传性”,但却有别于“固定”性状的垂直遗传,而是双亲“遗传”给其子女出现“三核苷酸重复序列的扩增”的风险。 研究发现,如果双亲基因组上相应基因位点携带有较长的相应三核苷酸重复序列,那么其子女会在特定的发育时期出现更长的三核苷酸重复变化。呈现出由双亲到子女之间疾病性状传递的“动态”表型,因此,业界又把这一类基因突变称为“动态突变”。“动态突变”属于一种非孟德尔遗传突变。 流行病学统计表明,在人群中,任何个体均存在罹患这类疾病的风险。 比如,在中国人群中发病率很高的I型肌肉营养不良(myotonic dystrophy type 1-DM1)、亨廷顿疾病(Huntington disease:HD)、亨廷顿样疾病-2型(Huntington disease-like 2 -HDL2)、齿状核红核苍白球路易体萎缩症(dentatorubral-pallidoluysian atrophy -DRPLA)、脊髓和延髓肌萎缩症(spinal and bulbar muscular atrophy-SBMA),以及种类繁多的脊髓-小脑共济失调(spinocerebellar ataxia -SCA)等皆起因于(CTG)n•(CAG)n三核苷酸重复序列的扩增突变。 与(CTG)n•(CAG)n有关的上述疾病的基因中,(CTG)n•(CAG)n重复序列可以出现在氨基酸编码区,可以伴随着基因的转录“转移”到信使RNA分子中(mRNA),这样的(CTG)n•(CAG)n重复序列可以最终被“翻译”为一串谷氨酰胺为单位的多肽重复-聚谷氨酰胺(polyglutamine),这种聚谷氨酰胺具有“毒性”,可以影响所在多肽链正确折叠出具有生物学活性的空间构象。临床上表现为此类病理机制的疾病有 HD、DRPLA、SBMA和SCA1、 3、 6、 7、17亚型。 与此不同,如果(CTG)n•(CAG)n 位于基因的非编码区,比如RNA中的非翻译区(UTR),它们的扩增性突变往往会影响到相应染色体区段的结构,并由此影响到相关基因位点的基因转录。临床上发现的肌肉营养不良患者中的DMPK蛋白基因(dystrophia myotonica 蛋白激酶或 Myotonic dystrophy 蛋白)中的(CTG)n•(CAG)n扩增就属于此类。有时,(CTG)n•(CAG)n的扩增还会影响到mRNA前体的加工,比如DM1 和 HDL2患者基因组中的JPH3 基因内(CAG)n可以通过基因转录形成含有聚(poly)(CUG)的前体mRNA(pre-mRNAs),poly-(CUG)的存在妨碍了与“内含子”区段拼接有关的蛋白质(MBNL (CUG) 结合蛋白)的作用,从而干扰成熟的mRNA的形成。 除此之外,在脊髓-小脑共济失调8型(SCA8)患者的有关致病位点处还发现有两条DNA链分别作为基因转录模板的“双向基因转录”(bidirectional transcription)现象。这种双向基因转录使患者细胞内同时出现具有毒性的含有聚谷氨酰胺的蛋白,同时,又会生成含有多聚(CUG)n 的RNA分子,使患者遭受毒蛋白和毒RNA分子的双重困扰。 到目前为止,尚不清楚究竟是什么原因导致上述致病基因内的(CTG)n•(CAG)n会在发育过程中“变长”,特别是在中老年人群中变长。
个人分类: Science in action|4720 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 16:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部