科学网

 找回密码
  注册

tag 标签: 外显子

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]CDS, Exon, intron, utr的定义
hayidahubei 2018-12-15 05:50
参考连接: ftp://ftp.ebi.ac.uk/pub/databases/embl/doc/FT_current.html CDS:codingsequence;sequenceofnucleotidesthatcorrespondswiththesequenceof aminoacidsinaprotein(locationincludesstopcodon);featureincludesaminoacid conceptualtranslation. Exon:regionofgenomethatcodesforportionofsplicedmRNA,rRNAandtRNA;may contain5'UTR,allCDSsand3'UTR; Intron:asegmentofDNAthatistranscribed,butremovedfromwithinthetranscript bysplicingtogetherthesequences(exons)oneithersideofit; mRNA:messengerRNA;includes5'untranslatedregion(5'UTR),codingsequences(CDS, exon)and3'untranslatedregion(3'UTR); precursor_RNA:anyRNAspeciesthatisnotyetthematureRNAproduct;mayinclude ncRNA,rRNA,tRNA,5'untranslatedregion(5'UTR),codingsequences(CDS,exon), interveningsequences(intron)and3'untranslatedregion(3'UTR); rRNA:matureribosomalRNA;RNAcomponentoftheribonucleoproteinparticle(ribosome) whichassemblesaminoacidsintoproteins. tRNA:maturetransferRNA,asmallRNAmolecule(75-85baseslong)thatmediatesthe translationofanucleicacidsequenceintoanaminoacidsequence 3'UTR:1)regionatthe3'endofamaturetranscript(followingthestopcodon)that isnottranslatedintoaprotein;2)regionatthe3'endofanRNAvirus(followingthelaststopcodon)thatisnottranslatedintoaprotein; 5'UTR:1)regionatthe5'endofamaturetranscript(precedingtheinitiationcodon) thatisnottranslatedintoaprotein;2)regionatthe5'endofanRNAvirusgenome (precedingthefirstinitiationcodon)thatisnottranslatedintoaprotein;
个人分类: 基因组注释信息|4538 次阅读|0 个评论
Cell——研究揭示MS风险基因IL7R 6号外显子的上位调控机制
CZC 2017-3-31 13:24
Cell——研究揭示MS风险基因IL7R 6号外显子的上位调控机制 IL7R的6号外显子的选择性剪切受另一个SNP调控 基因多态性是最常见的遗传变异,目前在各个疾病系统中都得到了广泛的研究。在AD中,目前已经发现了30多个基因多态性与晚发性AD的发生相关;在PD中,与散发性PD发生相关的单核苷酸多态性也不在少数,在MS中也是一样。所以,疾病的发生很有可能决定于一系列的基因多态性的组合,也就是说,有些疾病的发生,不仅仅受到单个SNP的影响,还受到其他SNP的影响,最终疾病的发生风险有多大,排除了环境因素之外,就决定于SNP组合的取值情况。这与神经元动作电位发生的概率决定于突触前的时间总和和空间总和是很相似的。疾病的发生状态是一种贝叶斯概率,其决定于所携带的各种SNP,包括促进疾病发生的SNP和抑制疾病发生的SNP的综合效应。在MS中,IL7R是MS的风险基因,但是它本身还受到其他基因的调控,也就是说这里存在基因多态性之间的相互调控和协作,这是一种状态变量,最终MS发生的概率可以用公式P=P(IL7R/other SNPs)表示,也就是说IL7R引起MS的概率是在其他SNP发生状况下的贝叶斯概率。在最近的Cell文章中,科学家发现了DDX39B可以调控IL7R的水平,从而影响MS的发生。在这种情况下,一个SNP是否会发挥作用取决于另一个SNP的状态。想到这里,要想确切知道一个SNP的疾病风险,那是需要把其他SNP的状态考虑在内的,这或许是我们目前很多遗传学研究不够准确的原因之一吧! 1. DDX39B调节IL7R 6号外显子的选择性剪切 2. DDX39B周围的基因位点和MS的发生密切相关 3. DDX39B 5'-UTR的 rs2523506调节其蛋白表达水平 4. rs2523506能够降低DDX39B转录的效率 5. DDX39B和IL7R之间的相互作用 6. DDX39B调节原代CD4+T细胞中IL7R的表达 总结 这项研究揭示了DDX39B调控IL7R 6号外显子表达水平的调控机制,为我们认识MS中基因相互作用调控机制提供了非常宝贵的研究证据。 经典文章回顾 Science——科学家发现我们的大脑如何感觉“稍纵即逝”和“度日如年” Neuron—科学家发现细胞“垃圾回收站”促进大脑结构更新 Nature neuroscience——新研究揭示口渴和好盐的神经生物学机制 2016年阿尔茨海默病10大研究进展 2016年帕金森病10大研究进展 Cell——肠道菌群加重帕金森病运动障碍和神经炎症过程 地中海饮食最健康的神经科学分析 八种食物提高记忆力,增强脑活力! 预防老年性痴呆症,先从这些小事做起! 睡眠不足增加肥胖风险的神经科学解释 运动是大脑的最佳保健品 预防痴呆和脑中风,减少PM2.5是我们可以做的 益生菌也能够治疗痴呆、抑郁症和精神分离症? 喜欢我,关注我 拉到最上方标题下,点击上方蓝字关注 搜索公众号名称:神经科学临床和基础 也请你推荐给你身边的医学朋友,感谢你~
个人分类: 神经科学临床和基础|3137 次阅读|0 个评论
人菌一体化:人体,或许是微生物菌群这个内含子的外显子?
zcgweb 2015-8-27 11:27
人菌一体化:人体,或许是微生物菌群这个内含子的外显子?——这是对于人体的新理解么? CZ @ 2015.08.27 11:26:38
1702 次阅读|0 个评论
[转载](zhuan)针对核酸序列的新蛋白预测
wanglilikind 2014-3-14 10:41
针对核酸序列的新蛋白预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。 1. 重复序列分析 对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。常见的重复序列分析程序有CENSOR和RepeatMasker等,可以在Web界面上使用这些程序,或者用Email来进行。如果有大量序列需要处理,可以使用XBLAST程序,它可以从Internet上下载得到。XBLAST中以及包含了由程序作者收集整理的一些重复序列,此外还可以从Repbase中找到更多的重复序列。还可以把克隆载体也加入重复序列中,这样就可以在处理重复序列时顺便把克隆载体也一同除去。经处理的序列中重复序列所在位置会一律由“X”代替。 CENSOR和Repbase的网址是:http://www.girinst.org/。 CENSOR的Email服务地址是:censor@sharon.lpi.org。 RepeatMasker的网址是:http://ftp.genome.washington.edu/cgi-bin/RepeatMasker。 下载XBLAST的网址是:ftp://ncbi.nlm.nih.gov/pub/jmc。 下载Repbase的网址是:ftp://ncbi/nlm.nih.gov/repository/repbase/REF。 2. 数据库搜索 把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列分析预测的有效手段,在上一节中已经专门介绍了序列比对和搜索的原理和技术。但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比例的序列很难在数据库里找到合适的同源伙伴。对于EST序列而言,序列搜索将是非常有效的预测手段。 3. 编码区统计特性分析 统计获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密码子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性,即所谓的“密码子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括:双密码子计数(统计连续两个密码子的出现频率);核苷酸周期性分析(分析同一个核苷酸在3,6,9,...位置上周期性出现的规律);均一/复杂性分析(长同聚物的统计计数);开放可读框架分析等。 常见的编码区统计特性分析工具将多种统计分析技术组合起来,给出对编码区的综合判别。著名的程序有GRAIL和GenMark等,GRAIL提供了基于Web的服务。 GRAIL的网址是:http://compbio.ornl.gov/Grail-1.3/。 4. 启动子分析 启动子是基因表达所必需的重要序列信号,识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征,并依次作为启动子预测的依据,但实际的效果并不十分理想,遗漏和假阳性都比较严重。总的来说,启动子仍是值得继续研究探索的难题。 5. 内含子/外显子剪接位点 剪接位点一般具有较明显的序列特征,但是要注意可变剪接的问题。由于可变剪接在数据库里的注释非常不完整,因此很难评估剪接位点识别程序预测剪接位点的敏感性和精度。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。 常见的基因识别工具很多都包含了剪接位点识别功能,独立的剪接位点识别工具有NetGene等。 NetGene服务的Email地址是:netgene@cbs.dtu.dk。 6. 翻译起始位点 对于真核生物,如果已知转录起始点,并且没有内含子打断5'非翻译区的话,“Kozak规则”可以在大多数情况下定位起始密码子。原核生物一般没有剪接过程,但在开放阅读框中找正确的起始密码子仍很困难。这时由于多顺反操纵子的存在,启动子定位不象在真核生物中起关键作用。对于原核生物,关键是核糖体结合点的定位,可以由多个程序提供解决方案,可以参考下面的综述。 Gelfand, M. S. (1995). Prediction of function in DNA sequence analyis. J. Comput. Biol. 2, 87-115. 7. 翻译终止信号 PolyA和翻译终止信号不象起始信号那么重要,但也可以辅助划分基因的范围。 8. 其它综合基因预测工具 除了上面提到的程序之外,还有许多用于基因预测的工具,它们大多把各个方面的分析综合起来,对基因进行整体的分析和预测。多种信息的综合分析有助于提高预测的可靠性,但也有一些局限:物种适用范围的局限;对多基因或部分基因,有的预测出的基因结构不可靠;预测的精度对许多新发现基因比较低;对序列中的错误很敏感;对可变剪接、重叠基因和启动子等复杂基因语法效果不佳。 相对不错的工具有GENSCAN,可以通过Web页面或Email获得GENSCAN服务。 GENSCAN的网址是:http://ccr-081.mit.edu/GENSCAN.html。 9. tRNA基因识别 tRNA基因识别比编码蛋白质的基因识别简单,目前基本已经解决了用理论方法预测tRNA基因的问题。tRNAscan-SE工具中综合了多个识别和分析程序,通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程,据称能识别99%的真tRNA基因。可以在Web上使用这个工具,也可以下载这个程序。 tRNAscan-SE的网址是:http://www.genetics.wustl.edu/eddy/tRNAscan-SE/。 4.2 针对蛋白质的预测方法 传统的生物学认为,蛋白质的序列决定了它的三维结构,也就决定了它的功能。由于用X光晶体衍射和NMR核磁共振技术测定蛋白质的三维结构,以及用生化方法研究蛋白质的功能效率不高,无法适应蛋白质序列数量飞速增长的需要,因此近几十年来许多科学家致力于研究用理论计算的方法预测蛋白质的三维结构和功能,经过多年努力取得了一定的成果。 1. 从氨基酸组成辨识蛋白质 根据组成蛋白质的20种氨基酸的物理和化学性质可以分析电泳等实验中的未知蛋白质,也可以分析已知蛋白质的物化性质。ExPASy工具包中提供了一系列相应程序: AACompIdent:根据氨基酸组成辨识蛋白质。这个程序需要的信息包括:氨基酸组成、蛋白质的名称(在结果中有用)、pI和Mw(如果已知)以及它们的估算误差、所属物种或物种种类或“全部(ALL)”、标准蛋白的氨基酸组成、标准蛋白的SWISS-PROT编号、用户的Email地址等,其中一些信息可以没有。这个程序在SWISS-PROT和(或)TrEMBL数据库中搜索组成相似蛋白。 AACompSim:与前者类似,但比较在SWISS-PROT条目之间进行。这个程序可以用于发现蛋白质之间较弱的相似关系。 除了ExPASy中的工具外,PROPSEARCH也提供基于氨基酸组成的蛋白质辨识功能。程序作者用144种不同的物化性质来分析蛋白质,包括分子量、巨大残基的含量、平均疏水性、平均电荷等,把查询序列的这些属性构成的“查询向量”与SWISS-PROT和PIR中预先计算好的各个已知蛋白质的属性向量进行比较。这个工具能有效的发现同一蛋白质家族的成员。可以通过Web使用这个工具,用户只需输入查询序列本身。 ExPASy的网址是:http://www.expasy.ch/tools/。 PROSEARCH的网址是:http://www.embl-heidelberg.de/prs.html。 2. 预测蛋白质的物理性质 从蛋白质序列出发,可以预测出蛋白质的许多物理性质,包括等电点、分子量、酶切特性、疏水性、电荷分布等。相关工具有: Compute pI/MW:是ExPASy工具包中的程序,计算蛋白质的等电点和分子量。对于碱性蛋白质,计算出的等电点可能不准确。 PeptideMass:是ExPASy工具包中的程序,分析蛋白质在各种蛋白酶和化学试剂处理后的内切产物。蛋白酶和化学试剂包括胰蛋白酶、糜蛋白酶、LysC、溴化氰、ArgC、AspN和GluC等。 TGREASE:是FASTA工具包中的程序,分析蛋白质序列的疏水性。这个程序延序列计算每个残基位点的移动平均疏水性,并给出疏水性-序列曲线,用这个程序可以发现膜蛋白的跨膜区和高疏水性区的明显相关性。 SAPS:蛋白质序列统计分析,对提交的序列给出大量全面的分析数据,包括氨基酸组成统计、电荷分布分析、电荷聚集区域、高度疏水区域、跨膜区段等等。 ExPASy的网址是:http://www.expasy.ch/tools/。 下载FASTA的网址是:ftp://ftp.virginia.edu/pub/fasta/。 SAPS的网址是:http://www.isrec.isb-sib.ch/software/SAPS_form.html。 3. 蛋白质二级结构预测 二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。不同的氨基酸残基对于形成不同的二级结构元件具有不同的倾向性。按蛋白质中二级结构的成分可以把球形蛋白分为全α蛋白、全β蛋白、α+β蛋白和α/β蛋白等四个折叠类型。预测蛋白质二级结构的算法大多以已知三维结构和二级结构的蛋白质为依据,用过人工神经网络、遗传算法等技术构建预测方法。还有将多种预测方法结合起来,获得“一致序列”。总的来说,二级结构预测仍是未能完全解决的问题,一般对于α螺旋预测精度较好,对β折叠差些,而对除α螺旋和β折叠等之外的无规则二级结构则效果很差。 nnPredict:用神经网络方法预测二级结构,蛋白质结构类型分为全α蛋白、全β蛋白和α/β蛋白,输出结果包括“H”(螺旋)、“E”(折叠)和“-”(转角)。这个方法对全α蛋白能达到79%的准确率。 PredictProtein:提供了序列搜索和结构预测服务。它先在SWISS-PROT中搜索相似序列,用MaxHom算法构建多序列比对的profile,再在数据库中搜索相似的profile,然后用一套PHD程序来预测相应的结构特征,包括二级结构。返回的结果包含大量预测过程中产生的信息,还包含每个残基位点的预测可信度。这个方法的平均预测准确率达到72%。 SOPMA:带比对的自优化预测方法,将几种独立二级结构预测方法汇集成“一致预测结果”,采用的二级结构预测方法包括GOR方法、Levin同源预测方法、双重预测方法、PHD方法和SOPMA方法。多种方法的综合应用平均效果比单个方法更好。 nnPredict的网址是:http://www.cmpharm.ucsf.edu/~nomi/nnpredict.html。 PredictProtein的网址是:http://cubic.bioc.columbia.edu/predictprotein/。 PredictProtein的国内镜像在:http://www.cbi.pku.edu.cn/predictprotein/。 SOPMA的网址是:http://pbil.ibcp.fr/。 4. 其它特殊局部结构 其它特殊局部结构包括膜蛋白的跨膜螺旋、信号肽、卷曲螺旋(Coiled Coils)等,具有明显的序列特征和结构特征,也可以用计算方法加以预测。 COILS:卷曲螺旋预测方法,将序列与已知的平行双链卷曲螺旋数据库进行比较,得到相似性得分,并据此算出序列形成卷曲螺旋的概率。 TMpred:预测蛋白质的跨膜区段和在膜上的取向,它根据来自SWISS-PROT的跨膜蛋白数据库Tmbase,利用跨膜结构区段的数量、位置以及侧翼信息,通过加权打分进行预测。 SignalP:预测蛋白质序列中信号肽的剪切位点。 COILS的网址是:http://www.ch.embnet.org/software/COILS_form.html。 TMpred的网址是:http://www.ch.embnet.org/software/TMPRED_form.html。 SignalP的网址是:http://www.cbs.dtu.dk/services/SignalP/。 5. 蛋白质的三维结构 蛋白质三维结构预测时最复杂和最困难的预测技术。研究发现,序列差异较大的蛋白质序列也可能折叠成类似的三维构象,自然界里的蛋白质结构骨架的多样性远少于蛋白质序列的多样性。由于蛋白质的折叠过程仍然不十分明了,从理论上解决蛋白质折叠的问题还有待进一步的科学发展,但也有了一些有一定作用的三维结构预测方法。最常见的是“同源模建”和“Threading”方法。前者先在蛋白质结构数据库中寻找未知结构蛋白的同源伙伴,再利用一定计算方法把同源蛋白的结构优化构建出预测的结果。后者将序列“穿”入已知的各种蛋白质的折叠子骨架内,计算出未知结构序列折叠成各种已知折叠子的可能性,由此为预测序列分配最合适的折叠子结构。除了“Threading”方法之外,用PSI-BLAST方法也可以把查询序列分配到合适的蛋白质折叠家族,实际应用中发现这个方法的效果也不错。 SWISS-MODEL:自动蛋白质同源模建服务器,有两个工作模式:第一步模式(First Approach mode)和优化模式(Optimise mode)。程序先把提交的序列在ExPdb晶体图像数据库中搜索相似性足够高的同源序列,建立最初的原子模型,再对这个模型进行优化产生预测的结构模型。 CPHmodels:也是利用神经网络进行同源模建预测蛋白质结构的方法。 SWISS-MODEL的网址是:http://www.expasy.ch/swissmod/SWISS-MODEL.html。 CPHmodels的网址是:http://www.cbs.dtu.dk/services/CPHmodels/。
个人分类: reserch|1 次阅读|0 个评论
癫痫外显子组测序研究的知识发现
xupeiyang 2013-8-13 16:18
原创,别转载。 科研思路来自知识发现 科研思路来自科研实践、来自文献信息、来自同行交流。 科研思路和科研选题也可以来自知识发现,在我的博客“知识发现栏目” http://blog.sciencenet.cn/home.php?mod=spaceuid=280034do=blogclassid=115378view=mefrom=space 有大量的科学研究知识发现的实例和分析 ... 知识发现 一项新遗传学研究揭示了与严重儿童癫痫相关的两个新基因,并为确定治疗靶点提供了一种新策略。这项研究采用了一种称之为外显子组测序(exome sequencing)的先进遗传学技术,来搜寻不遗传的新突变。研究结果表明,它或许是发现及证实许多致病基因突变的一种高效的方法。相关论文发表在8月11日的Nature杂志上。 Nature发布外显子组测序新成果 http://www.ebiotrade.com/newsf/2013-8/2013812110114335.htm Start A-Literature C-Literature B-list Filter Literature ​ A-query: exome sequencing C-query: epilepsy The B-list contains title words and phrases (terms) that appeared in both the A and the C literature. 58 articles appeared in both literatures and were not included in the process of computing the B-list but can be viewed here . The results of this search are saved under id # 13416 and can be accessed from the start page after you leave this session. There are 460 terms on the current B-list (发现157个基因和蛋白质知识概念 are predicted to be relevant), which is shown ranked according to predicted relevance. The list can be further trimmed down using the filters listed in the left margin. To assess whether there appears to be a biologically significant relationship between the AB and BC literatures for specific B-terms, please select one or more B-terms and then click the button to view the corresponding AB and BC literatures. Use Ctrl to select multiple B-terms. http://arrowsmith.psych.uic.edu/cgi-bin/arrowsmith_uic/edit_b.cgi job id # 13416 started Tue Aug 13 03:12:23 2013 Max_citations: 50000 Stoplist: /var/www/arrowsmith_uic/data/stopwords_pubmed Ngram_max: 3 A_query_raw: exome sequencing Tue Aug 13 03:12:30 2013 A query = exome sequencing started Tue Aug 13 03:12:30 2013 A query resulted in 1680 titles C_query_raw: exome sequencing Tue Aug 13 03:12:32 2013 C: exome sequencing 1680 A: pubmed_query_A 1680 AC: ( exome sequencing ) AND ( exome sequencing ) 1680 C_query_raw: epilepsy Tue Aug 13 03:12:41 2013 C: epilepsy 140710 C_query_raw: epilepsy Tue Aug 13 03:12:41 2013 A: pubmed_query_A 1680 AC: ( exome sequencing ) AND ( epilepsy ) 58 C: epilepsy 140710 A: pubmed_query_A 1680 AC: ( exome sequencing ) AND ( epilepsy ) 58 C_query_raw: epilepsy Tue Aug 13 03:12:43 2013 C: epilepsy 140710 A: pubmed_query_A 1680 AC: ( exome sequencing ) AND ( epilepsy ) 58 C query = epilepsy started Tue Aug 13 03:12:44 2013 C query resulted in 50000 titles A AND C query resulted in 58 titles 4572 B-terms ready on Tue Aug 13 03:14:17 2013 Sem_filter: Genes Molecular Sequences, and Gene Protein Names 460 B-terms left after filter executed Tue Aug 13 03:14:46 2013 B-list on Tue Aug 13 03:18:21 2013 1 brca1 2 genome wide 3 kcnq2 4 genome sequencing 5 single nucleotide polymorphism 6 joubert syndrome 7 ubiquitin 8 gene encoding 9 transporter gene 10 stat3 11 potassium channel 12 opioid receptor 13 meningioma 14 dystrophin 15 genome project 16 gene autism 17 spinocerebellar ataxia 18 wnt 19 trk 20 candidate gene 21 scn2a 22 ryanodine receptor 23 notch1 24 chromatin remodeling 25 swi 26 quantitative trait locus 27 moyamoya disease 28 pi3k 29 caspase 30 glutamate receptor 31 helix loop helix 32 trna 33 exon 34 polydactyly 35 genomic 36 abcc8 37 myopia 38 congenital cataract 39 gene familial 40 pten 41 alms1 42 snp 43 vhl 44 nkx2-1 45 leptin 46 sod1 47 hydrocephalus 48 mody 49 calcium channel 50 tumor suppressor gene 51 essential tremor 52 lamin 53 intronic 54 glioma 55 susceptibility gene 56 rac1 57 neuroligin 58 genome 59 mitochondrial genome 60 spastic paraplegia 61 trpv4 62 tgfbeta 63 twin 64 cx3cr1 65 retinitis pigmentosa 66 transporter 67 dystonia 68 frameshift 69 whole genome sequencing 70 novel gene 71 genome array 72 kcnj11 73 gene autosomal 74 multiple endocrine neoplasia 75 trait 76 sox2 77 gene paroxysmal 78 receptor gene 79 alu 80 cystatin 81 cdna 82 ssri 83 copy 84 psen1 85 chloride channel 86 hdl 87 slc19a3 88 rbp4 89 autophagy 90 mpl 91 allelic heterogeneity 92 tcf4 93 diabetes 94 trem2 95 reading frame 96 alzheimer disease 97 inflammatory bowel disease 98 gene mutated 99 progressive external ophthalmoplegia 100 aromatase 101 ret 102 tumor suppressor 103 cytokine 104 apoe 105 sirt1 106 enhancer 107 adam10 108 hras 109 helicase 110 tremor 111 cone rod dystrophy 112 kinase 113 il-10 114 q11 115 breast cancer 116 celiac disease 117 mri 118 codon 119 alpha gene 120 cdc42 121 hypertension 122 gene patient 123 related gene 124 igf i 125 van 126 lip 127 rna 128 dna methyltransferase 129 mitochondrial 130 nf kappab 131 kelch 132 spitz 133 chaperone 134 connexin 135 dlx5 136 domain 137 ion 138 grin2a 139 gene associated 140 fgf 141 lepr 142 subunit gene 143 hydroxylase gene 144 locus 145 motor neuron disease 146 imprinted gene 147 lacking 148 cadherin 149 sdha 150 causative gene 151 scn9a 152 hla 153 meta 154 gtpase 155 gfap 156 cyst 157 map http://arrowsmith.psych.uic.edu/cgi-bin/arrowsmith_uic/view_b_txt.cgi?ID=13416 基因发现实例 Start A-Literature C-Literature B-list Filter Literature ​ AB literature B-term BC literature exome sequencing kcnq2 epilepsy 1: Clinical spectrum of early onset epileptic encephalopathies caused by KCNQ2 mutation. 2013 Add to clipboard 1: Novel KCNQ2 Mutation in a Large Emirati Family With Benign Familial Neonatal Seizures. 2013 Add to clipboard 2: Ezogabine (KCNQ2 /3 channel opener) prevents delayed activation of meningeal nociceptors if given before but not after the occurrence of cortical spreading depression. 2013 Add to clipboard 3: Similar early characteristics but variable neurological outcome of patients with a de novo mutation of KCNQ2 . 2013 Add to clipboard 4: Video/EEG findings in a KCNQ2 epileptic encephalopathy: a case report and revision of literature data. 2013 Add to clipboard 5: KCNQ2 encephalopathy: Emerging phenotype of a neonatal epileptic encephalopathy. 2012 Add to clipboard 6: KCNQ2 abnormality in BECTS: Benign childhood epilepsy with centrotemporal spikes following benign neonatal seizures resulting from a mutation of KCNQ2 . 2012 Add to clipboard 7: KCNQ2 Potassium Channel Epileptic Encephalopathy Syndrome: Divorce of an Electro-Mechanical Couple? 2012 Add to clipboard 8: Development and Validation of a Medium-Throughput Electrophysiological Assay for KCNQ2 /3 Channel Openers Using QPatch HT. 2012 Add to clipboard 9: Role of KCNQ2 and KCNQ3 genes in juvenile idiopathic epilepsy in Arabian foals. 2012 Add to clipboard 10: Activation of KCNQ2 /3 Potassium Channels by Novel Pyrazolo pyrimidin-7(4H)-One Derivatives. 2011 Add to clipboard http://arrowsmith.psych.uic.edu/cgi-bin/arrowsmith_uic/show_sentences.cgi
个人分类: 知识发现|3260 次阅读|1 个评论
ENCODE给SNP注释带来的机遇
fawnshao 2013-1-22 16:23
今天看到一文,眼前一亮:http://www.ncbi.nlm.nih.gov/pubmed/22955828 说的是非编码区的突变大多集中在DHS位点。 另一个学霸干脆就把ENCODE做出来的调控位点做成数据库regulomDB,大家把自己感兴趣的位点扔进去看看是不是在重要的调控位点就好了: http://regulome.stanford.edu 以后测序就别再吝啬于外显子区,找到内含子或者promoter区域什么的突变也不怕了,去看看是不是调控位点。 学霸们都做完了,我这样的小虾米还能再做点什么呢?再去想想吧。
个人分类: 学科发展|4751 次阅读|0 个评论
[转载]ENCODE:人类调节DNA组转录因子DNase I足迹
genesquared 2012-12-5 17:24
《Nature》2012.09.06 扩充的人类调节DNA组库容量编码在转录因子足迹中 来自美国华盛顿大学领衔的研究小组报道了41种细胞和组织中DNase I足迹,揭示了成百上千万的编码DNA结合蛋白保守识别序列的短序列元件。 -2012年9月6日《自然》 中文翻译 ________________________________________ 【题目】扩充的人类调节DNA组库容量编码在转录因子足迹中 【译文】结合在基因组DNA上的调控因子保护潜在的序列以防被DNase I切割,进而形成核苷酸水平分辨率的足迹。在41种细胞和组织中利用基因组DNase I足迹分析,我们检测了不同调控区中4500万转录因子占有事件,这些调控区代表了840万不同短序列元件的不同结合。本研究表明这种小的基因组序列间隔,大约是外显子的两倍大小,编码了很大部分DNA结合蛋白保守识别序列,这些序列大约是人类顺式调控元件数量的两倍。我们发现影响等位基因染色质状态的遗传突变体在足迹中比较密集,这些元件优先地被DNA甲基化所保护。 高分辨率DNase I剪接模式反映了核苷酸水平的进化保守性,并示踪了蛋白-DNA作用表面的结晶结构,这表明转录因子结构已经在进化上被标记在人类基因组序列上了。我们鉴定了一种50碱基对的足迹,这种足迹可以清晰地界定成千上万人类启动子中转录本起源的位点。最后,我们描述了大量调控因子识别基序,它们在序列和功能上高度保守,并表现出细胞选择性占有模式,该模式类似于发育、分化和多潜能性的主要调控因子。 英文原稿 ________________________________________ : An expansive human regulatory lexicon encoded in transcription factor footprints :Shane Neph,1, 7 Jeff Vierstra,1, 7 Andrew B. Stergachis,1, 7 Alex P. Reynolds,1, 7 Eric Haugen,1 Benjamin Vernot,1 Robert E. Thurman,1 Sam John,1 Richard Sandstrom,1 Audra K. Johnson,1 Matthew T. Maurano,1 Richard Humbert,1 Eric Rynes,1 Hao Wang,1 Shinny Vong,1 Kristen Lee,1 Daniel Bates,1 Morgan Diegel,1 Vaughn Roach,1 Douglas Dunn,1 Jun Neri,1 Anthony Schafer,1 R. Scott Hansen,1, 2 Tanya Kutyavin,1 Erika Giste,1 Molly Weaver,1 Theresa Canfield,1 Peter Sabo,1 Miaohua Zhang,3 Gayathri Balasundaram,3 Rachel Byron,3 Michael J. MacCoss,1 Joshua M. Akey,1 M. A. Bender,3, 4Mark Groudine,3, 5 Rajinder Kaul1, 2 John A. Stamatoyannopoulos1, 6 et al. :Regulatory factor binding to genomic DNA protects the underlying sequence from cleavage by DNase I, leaving nucleotide-resolution footprints. Using genomic DNase I footprinting across 41 diverse cell and tissue types, we detected 45 million transcription factor occupancy events within regulatory regions, representing differential binding to 8.4 million distinct short sequence elements. Here we show that this small genomic sequence compartment, roughly twice the size of the exome, encodes an expansive repertoire of conserved recognition sequences for DNA-binding proteins that nearly doubles the size of the human cis–regulatory lexicon. We find that genetic variants affecting allelic chromatin states are concentrated in footprints, and that these elements are preferentially sheltered from DNA methylation. High-resolution DNase I cleavage patterns mirror nucleotide-level evolutionary conservation and track the crystallographic topography of protein–DNA interfaces, indicating that transcription factor structure has been evolutionarily imprinted on the human genome sequence. We identify a stereotyped 50-base-pair footprint that precisely defines the site of transcript origination within thousands of human promoters. Finally, we describe a large collection of novel regulatory factor recognition motifs that are highly conserved in both sequence and function, and exhibit cell-selective occupancy patterns that closely parallel major regulators of development, differentiation and pluripotency. 原文地址 http://www.nature.com/nature/journal/v489/n7414/full/nature11212.html Tags: NATURE nature-2012-09-06 短序列元件 调控因子 足迹 转录因子 http://m.bioku.cn/201210/nature-regulatory-factor-transcription-footprints-short-sequence/ http://www.ncbi.nlm.nih.gov/pubmed/22955618 Nature. 2012 Sep 6;489(7414):83-90. doi: 10.1038/nature11212. An expansive human regulatory lexicon encoded in transcription factor footprints. Neph S, Vierstra J, Stergachis AB, Reynolds AP, Haugen E, Vernot B, Thurman RE, John S, Sandstrom R, Johnson AK, Maurano MT, Humbert R, Rynes E, Wang H, Vong S, Lee K, Bates D, Diegel M, Roach V, Dunn D, Neri J, Schafer A, Hansen RS, Kutyavin T, Giste E, Weaver M,Canfield T, Sabo P, Zhang M, Balasundaram G, Byron R, MacCoss MJ, Akey JM, Bender MA, Groudine M, Kaul R, Stamatoyannopoulos JA. Source Department of Genome Sciences, University of Washington, Seattle, Washington 98195, USA. Abstract Regulatory factor binding to genomic DNA protects the underlying sequence from cleavage by DNase I, leaving nucleotide-resolution footprints. Using genomic DNase I footprinting across 41 diverse cell and tissue types, we detected 45 million transcription factor occupancy events within regulatory regions, representing differential binding to 8.4 million distinct short sequence elements. Here we show that this small genomic sequence compartment, roughly twice the size of the exome, encodes an expansive repertoire of conserved recognition sequences for DNA-binding proteins that nearly doubles the size of the human cis-regulatory lexicon. We find that genetic variants affecting allelic chromatin states are concentrated in footprints, and that these elements are preferentially sheltered from DNA methylation. High-resolution DNase I cleavage patterns mirror nucleotide-level evolutionary conservation and track the crystallographic topography of protein-DNA interfaces, indicating that transcription factor structure has been evolutionarily imprinted on the human genome sequence. We identify a stereotyped 50-base-pair footprint that precisely defines the site of transcript origination within thousands of human promoters. Finally, we describe a large collection of novel regulatory factor recognition motifs that are highly conserved in both sequence and function, and exhibit cell-selective occupancy patterns that closely parallel major regulators of development, differentiation and pluripotency. Comment in • Genomics: users' guide to the human genome. PMID: 22955618 Data from this publication Epigenomics Experiments, by feature type.See all experiments (277) • DNA methylation (29) • H2AK5ac (2) • H2BK120ac (2) • H2BK12ac (3) • H2BK15ac (3) • H2BK20ac (2) • H3K14ac (2) • H3K18ac (2) • H3K23ac (2) • H3K27ac (5) • H3K27me3 (24) • H3K36me3 (26) • H3K4ac (2) • H3K4me1 (17) • H3K4me2 (2) • H3K4me3 (28) • H3K56ac (2) • H3K79me1 (4) • H3K79me2 (2) • H3K9ac (14) • H3K9me1 (1) • H3K9me3 (22) • H4K20me1 (2) • H4K5ac (2) • H4K8ac (4) • H4K91ac (2) • chromatin accessibility (40) • gene expression (5) • input control (22) • small RNA analysis (4) Publication Types, MeSH Terms, Substances, Secondary Source ID, Grant Support Publication Types • Research Support, N.I.H., Extramural • Research Support, Non-U.S. Gov't • Research Support, U.S. Gov't, Non-P.H.S. MeSH Terms • DNA/genetics* • DNA Footprinting* • DNA Methylation • DNA-Binding Proteins/metabolism • Deoxyribonuclease I/metabolism • Encyclopedias as Topic* • Genome, Human/genetics* • Genomic Imprinting • Genomics • Humans • Molecular Sequence Annotation* • Polymorphism, Single Nucleotide/genetics • Regulatory Sequences, Nucleic Acid/genetics* • Transcription Factors/metabolism* • Transcription Initiation Site Substances • DNA-Binding Proteins • Transcription Factors • DNA • Deoxyribonuclease I Secondary Source ID • GEO/GSE18927 • GEO/GSE26328 September 5, 2012 Millions of DNA switches that power human genome’s operating system are discovered By Stephanie Seiler And Leila Gray Posted under: Health and Medicine, News Releases, Research, Science The locations of millions of DNA ‘switches’ that dictate how, when, and where in the body different genes turn on and off have been identified by a research team led by the University of Washington in Seattle. Genes make up only 2 percent of the human genome and were easy to spot, but the on/off switches controlling those genes were encrypted within the remaining 98 percent of the genome. Without these switches, called regulatory DNA, genes are inert. Researchers around the world have been focused on identifying regulatory DNA to understand how the genome works. Using a new technology developed with funding from the National Human Genome Research Institute’s ENCODE (ENCyclopedia Of DNA Elements) project, UW researchers created the first detailed maps of where regulatory DNA is located within hundreds of different kinds of living cells. They also compiled a dictionary of the instructions written within regulatory DNA — the genome’s programming language. Darryl Leja, NHGRI This illustration depicts DNA packed tightly into chromosomes, as well as a DNA molecule unwound to reveal its 3-D structure. The findings are reported in two papers appearing in the Sept. 5 online issue ofNature. “These breakthrough studies provide the first extensive maps of the DNA switches that control human genes,” said Dr. John A. Stamatoyannopoulos, associate professor of genome sciences and medicine at the University of Washington, and senior author on both papers. “This information is vital to understanding how the body makes different kinds of cells, and how normal gene circuitry gets rewired in disease. We are now able to read the living human genome at an unprecedented level of detail, and to begin to make sense of the complex instruction set that ultimately influences a wide range of human biology.” Here are the key results: 1) The first detailed maps of regulatory DNA switches that make up the genome’s ‘operating system’. See related stories: Encyclopedia of DNA elements compiled; UW a key force in Project ENCODE Researchers unlock disease information hidden in genome’s control circuitry The instructions within regulatory DNA are inscribed in small DNA ‘words’ that function as the docking sites for special proteins involved in gene control. In many cases, these switches are located far away from the genes that they control. To map the regulatory DNA regions, the researchers harnessed a special molecular probe — an enzyme called DNaseI — that snips the genome’s DNA backbone. Under the right conditions, these snips occur precisely where proteins are docked at regulatory DNA. By treating cells with DNase I and analyzing the patterns of snipped DNA sequences using massively parallel sequencing technology and powerful computers, the researchers were able to create comprehensive maps of all the regulatory DNA in hundreds of different cell and tissue types. They found that of the 2.89 million regulatory DNA regions they mapped, only a small fraction — around 200,000 — were active in any given cell type. This fraction is almost totally unique to each type of cell and becomes a sort of molecular bar code of the cell’s identity. The researchers also developed a method for linking regulatory DNA to the genes it controls. The results of these analyses show that the regulatory ‘program’ of most genes is made up of more than a dozen switches. Together, these findings greatly expand the understanding of how genes are controlled and how that control may differ between normal and diseased cells. 2) The first extensive map of regulatory protein docking sites on the human genome reveals the dictionary of DNA words comprise the genome’s programming language. The instructions for turning genes on and off are written in DNA switches called regulatory DNA. These switches are scattered throughout the non-gene regions of the human genome. Having mapped the locations of the regulatory DNA switches, UW researchers wanted to know what made them tick. These regions contain small chains of DNA ‘words’ that make up docking sites for special regulatory proteins involved in gene control. The human genome contains hundreds of genes that make such proteins. However, current technologies only allow such proteins to be studied one at a time. They also lack the accuracy to resolve the DNA letters to which the proteins dock. As a result, most of the actual DNA words recognized by regulatory proteins in living cells were unknown. To find them, the researchers employed a simple, powerful trick that enabled them to study all the proteins at once. Instead of trying to see proteins directly, they looked for their shadows or ‘footprints’ on the DNA. To accomplish this, they again turned to the DNaseI enzyme that snips the DNA backbone within regulatory DNA. Prior work had shown that DNaseI likes to snip DNA next to regulatory protein docking sites, but not within the docking site itself. By using next-generation DNA sequencing technology, the researchers analyzed hundreds of millions of DNA backbone breaks made when cells were treated with DNaseI. They then used a powerful computer to resolve millions of protein footprints. In total, they identified 8.4 million such footprints along the genome, some of which were detected in many cell types. Next, they compiled all of the short DNA sequences to which the proteins were docked. They analyzed them using a software algorithm that required hundreds of microprocessors working simultaneously. This revealed that more than 90 percent of the protein docking sites were actually slight variants of 683 different DNA words — essentially a dictionary of the genome’s programming language. “These findings significantly advance the understanding of how the instructions for controlling genes are written and organized throughout the genome, and how combinations of different instruction sets function together to control genes, often at great distance along the genome,” Stamatoyannopoulos said. “The broad spectrum of cell and tissue types included in these analyses provide an incredibly rich resource that can be mined immediately by researchers around the world to illuminate how the genes they are studying are controlled.” The scientists determined that genes are connected in a complex web. In this web, regulatory DNA regions typically control one or at most a few genes, but genes receive inputs from large numbers of regulatory regions. The researchers also found evidence for a combinatorial code that helps match regulatory DNA with the right genes. Another key finding was that the regulatory DNA controlling genes involved in cancer and other types of ‘immortal’ cells that can keep on growing indefinitely appears to acquire mutations at a different rate than other kinds of regulatory DNA. This result points to a previously unknown link between genome function and patterns of DNA variation in individual human genomes. The finding may have implications for understanding susceptibility to cancer. The findings reported in these papers are expanded upon in two related papers to be published simultaneously in the journals Science and Cell. In the Science paper, UW researchers further expanded the regulatory DNA maps, and compared them with genetic maps of human disease. Their studies revealed that most DNA variants associated with specific human diseases or clinical traits are located in regulatory DNA rather than in gene sequences. In the Cell paper, the researchers describe using the detailed information on regulatory protein docking sites to create a comprehensive map of how those proteins are wired. http://www.washington.edu/news/2012/09/05/millions-of-dna-switches-that-power-human-genomes-operating-system-are-discovered/
个人分类: ENCODE|2855 次阅读|0 个评论
[转载]《Nature Genetics》2012外显子测序8篇文章中文摘要
genesquared 2012-12-5 13:56
《Nature Genetics》2012.09-NMNAT1突变引发先天性黑蒙症并为视网膜退化确定了一个新的疾病途径 2012/10/17 | 归类于: 《自然·遗传学》- Nature Genetics | 作者: 生物分子 来自美国休斯敦贝勒医学院的陈瑞及其团队发现先天性黑蒙症的一个新的致病因素—— NMNAT1 基因突变。研究者进一步证明被检查的所有 NMNAT1 突变患者有斑点虹膜缺损,这标志着中央视网膜的严重退化。相关的研究论文于7月29日在线发表在《Nature Genetics》期刊上。 -2012年9月《自然-遗传》 阅读全文 》 标签: nature-genetics , Nature-Genetics-2012-09 , NMNAT1 基因突变 , 先天性黑蒙症 , 外显子组测序 , 视网膜疾病 《Nature Genetics》2012.09- ATP1A3基因突变引发儿童交替性偏瘫 2012/10/17 | 归类于: 《自然·遗传学》- Nature Genetics | 作者: 生物分子 来自美国杜克大学医学院的David Goldstein,Mohamad Mikati及其同事报道了儿童交替性偏瘫中ATP1A3基因突变的鉴定。这种病是一种罕见的神经综合征,表现为经常性偏瘫发作和独特的神经临床表现。相关的研究论文于7月29日在线发表在《Nature Genetics》期刊上。 -2012年9月《自然-遗传》 阅读全文 》 标签: ATP1A3非同义突变 , nature-genetics , Nature-Genetics-2012-09 , 儿童交替性偏瘫 , 外显子组测序 , 疾病的病理生理机制 《Nature Genetics》2012.08-FAN1突变通过有缺陷的DNA损伤修复导致慢性肾衰竭进而引发巨核间质肾病 2012/09/06 | 归类于: 《自然·遗传学》- Nature Genetics | 作者: 生物分子 来自密西根大学的Friedhelm Hildebrandt, 洛克菲勒大学的Agata Smogorzewska及其团队证明DNA修复基因 FAN1 的突变可以引发巨核间质肾病。这些发现表明,在肾纤维化的病理生理学中有缺陷的DNA损伤应答会产生信号。相关的研究论文于7月8日在线发表在《Nature Genetics》期刊上。 -2012年8月《自然-遗传》 阅读全文 》 标签: DNA损伤应答 , FAN1基因 , nature-genetics , Nature-Genetics-2012-08 , 丝裂霉素C , 外显子组测序 , 巨核间质肾病 , 慢性肾脏病 , 肾纤维化 《Nature Genetics》2012.08-极端表型的外显子组测序鉴定DCTN4是囊性纤维化中慢性绿脓杆菌感染症的调节基因 2012/09/06 | 归类于: 《自然·遗传学》- Nature Genetics | 作者: 生物分子 来自美国华盛顿大学的Michael Bamshad及其同事报道了一种极端表型外显子组测序研究,该研究可以鉴定调节囊包性纤维症患者中慢性绿脓杆菌在空气感染风险的遗传变异。相关的研究论文于7月8日在线发表在《Nature Genetics》期刊上。 -2012年8月《自然-遗传》 阅读全文 》 标签: DCTN4基因 , nature-genetics , Nature-Genetics-2012-08 , 外显子组测序 , 慢性绿脓杆菌 , 极端表型 《Nature Genetics》2012.06-与肝吸虫有关的胆管瘤外显子组测序结果 2012/06/15 | 归类于: 《自然·遗传学》- Nature Genetics | 作者: 生物分子 来自新加坡国立癌症中心的Bin Tean Teh及其同事报道了与泰国肝吸虫( Opisthorchis viverrini )有关的胆管瘤(CCA)——一种与肝吸虫感染有关的致命胆管瘤的外显子组测序结果。 -2012年6月《Nature Genetics》 中文翻译 【题目】 与肝吸虫有关的胆管瘤外显子组测序结果 【译文】 与泰国肝吸虫( Opisthorchis viverrini )有关的胆管瘤(CCA)——一种致命的胆管癌,是这种寄生虫寄生地区公共卫生的主要关注点。 阅读全文 》 标签: nature-genetics , Nature-Genetics-2012-05-06 , 外显子组测序 , 泰国肝吸虫 , 胆管瘤 《Nature Genetics》2012.06-外显子组鉴定前列腺癌中周期性发生的SPOP、FOXA1和MED12突变 2012/06/15 | 归类于: 《自然·遗传学》- Nature Genetics | 作者: 生物分子 近日,来自隶属美国哈佛大学和麻省理工学院的博德研究院的Levi Garraway及其同事报道了112例前列腺腺癌和相对应正常组织的外显子组测序结果。他们在一些基因中新鉴定到周期性突变的基因—— MED12 , FOXA1 和 SPOP 。他们还发现 SPOP 基因突变的肿瘤缺乏 TMPRSS2 - ERG 融合或其他ETS基因重排现象,他们认为这些发现证实这一假设: SPOP 突变体是前列腺肿瘤发生的早期诱导因素。 -2012年6月《Nature Genetics》 中文翻译 【题目】 外显子组鉴定前列腺癌中周期性发生的 SPOP 、 FOXA1 和 MED12 突变 【译文】 前列腺癌是全世界第二种男性中最常见的癌症,它造成的死亡数每年超过25万人。 阅读全文 》 标签: nature-genetics , Nature-Genetics-2012-05-20 , 前些腺癌 , 周期性突变 , 外显子组测序 , 常见变异 《Nature Genetics》2012.05-UVSSA突变造成UV敏感综合征并且损害转录藕联核苷酸切除修复中的RNA聚合酶IIo的加工作用 2012/05/30 | 归类于: 《自然·遗传学》- Nature Genetics | 作者: 生物分子 近日,来自长崎大学基因组不稳定和致癌机理研究中心的Tomoo Ogi及其同事报道了 UVSSA 的突变造成了1/3互补群患紫外线敏感综合征(UV S S)。 UVSSA 的缺陷导致了转录藕联的核苷酸切除修复缺陷及难以在DNA损伤位置处解决RNA聚合酶IIo的失速问题。 -2012年5月《自然遗传》 中文翻译 【题目】 UVSSA 突变造成UV敏感综合征并且损害转录藕联核苷酸切除修复中的RNA聚合酶IIo的加工作用 【译文】 紫外线敏感综合征(UV S S)是一类慢性皮肤病,特点表现为不致皮肤癌的皮肤光敏感性。 阅读全文 》 标签: nature-genetics , Nature-Genetics-2012-05 , RNA聚合酶IIo , 外显子组测序 , 慢性皮肤病 , 紫外线敏感综合征 , 转录藕联的核苷酸切除修复 《Nature Genetics》2012.05-胃腺癌的外显子组测序鉴定了细胞粘着和染色质重塑基因周期性的体细胞突变 2012/05/30 | 归类于: 《自然·遗传学》- Nature Genetics , 其他 | 作者: 生物分子 近日,来自新加坡研究生医学院杜克-国立大学的Patrick Tan, Bin Tean Teh, Steve Rozen及其同事报道了胃腺癌中细胞粘着基因 FAT4 和染色质重塑基因 ARID1A 的体细胞突变。研究人员的发现表明了 FAT4 可能作为一种肿瘤抑制子来维持合适的细胞粘着和防止恶性肿瘤细胞迁移。 -2012年5月《自然遗传》 中文翻译 【题目】 胃腺癌的外显子组测序鉴定了细胞粘着和染色质重塑基因周期性的体细胞突变 【译文】 胃癌是全球性癌症死亡率的罪魁祸首。通过对15个胃腺癌样本以及对照DNA的外显子组测序,我们获取了胃癌的体细胞突变谱。 阅读全文 》 标签: nature-genetics , Nature-Genetics-2012-05 , 体细胞突变 , 外显子组测序 , 染色质重塑基因 , 细胞粘着 , 胃腺癌
个人分类: Exome|1953 次阅读|0 个评论
[转载]多基因测序技术发现自闭症外显子的频发突变
genesquared 2012-11-19 15:28
多基因测序技术发现自闭症外显子的频发突变 发布:2012/11/16 来自:生物通 阅读数: 960 来自华盛顿大学医学院,霍德华休斯医学院等处的研究人员利用一种新型技术,完成了多达2446个样品 外显子测序 分析,找到了 自闭症 谱系障碍(ASD,Autism Spectrum Disorder)的多个频发突变,不仅为治疗ASD疾病提供了新思路,而且也提出了一种低成本,多基因测序新方法。相关成果公布在Science杂志上。 多基因测序技术发现 自闭症 外显子的频发突变 领导这一研究的是华盛顿大学医学院Jay Shendure副教授,以及Evan E. Eichler教授,第一作者为Brian O'Roak,这一研究组致力于 自闭症 的分子机理研究。 自闭症 谱系障碍(ASD,Autism Spectrum Disorder)是根据典型 自闭症 的核心症状进行扩展定义的广泛意义上的 自闭症 ,既包括了典型 自闭症 ,也包括了不典型 自闭症 ,又包括了阿斯伯格综合症、 自闭症 边缘、 自闭症 疑似等症状。 让人担心的是,目前此类疾病的患病概率很高——据相关报告显示:平均每88个儿童中就有一个儿童患病。几十年来,科学家们一直在讨论遗传与环境因素对 自闭症 的影响,而关于基因成分与 自闭症 关系的讨论却是近几年才开始的。 之前的三个研究组,包括Eichler教授研究组在内发现了引起儿童大脑变异从而导致其社交问题的上百种,甚至上千种基因突变,但是要在大规模样品基础上,进行精确的重测序,寻找致病基因依然不容易,而且成本高。 在最新这篇文章中,研究人员改进了 分子倒置探针 (Molecular Inversion Probe,MIP)技术,从而研发出了一种新型多重靶向测序方法,这种方法成本低,精确度高,是基因测序技术的又一新发展。 分子倒置探针 技术与线性探针序列相比,能够指数级减少由于线性引物序列所引起的交叉反应及二聚体现象,具备了分子挂锁探针的优点。这种探针由7部分序列组成:2个内切酶识别位点,可利用限制性内切酶处理探针序列,2段目的基因互补序列,以及2段通用引物序列以及1段特异性标签序列。 利用这种技术,研究人员对两千多位受到不同类型ASD影响的患者进行了多基因分析,完成了四十四种基因的测序,在其中十六种基因中发现了27种随机突变。并且研究人员发现了6种频发突变:CHD8,DYRK1A,GRIN2B,TBR1,PTEN和TBL1XR,这些基因高频发生突变,可能是造成1%偶发性的 自闭症 谱系障碍的病因。 这项研究结果揭示了 自闭症 谱系障碍的分子病理机制,并提出了一种低成本,多基因测序新方法,这种方法可以用于可能是由随机破坏性的突变风险造成疾病的遗传分析。 外显子组测序的机遇与挑战 2009年, 基因组定向捕获 工具的出现,让外显子组的捕获成为可能。科学家们普遍认为外显子组测序比全基因组测序更有优势,特别是对罕见的单基因疾病。不仅仅是费用更低,数据的阐释也更为简单。因此,外显子组测序去年也被Science杂志评为年度十大突破。 Jay Shendure副教授曾对此发表过一篇综述性文章,评述了这一领域发展的机遇和挑战:他认为,外显子组测序未能解决相当大比例的孟德尔表型,即使是在遗传结构已清楚的模式生物中。如果我们希望解决所有的孟德尔遗传病,那么了解这些失败的基础将是至关重要的。同时,人们很想了解稀有变异对常见病的作用。许多研究都从外显子组测序开始,但是仍在进行中,因为需要大量的样本,才具有说服力。 外显子组测序鉴定出大约2万个变异,而全基因组测序鉴定出400万个变异。尽管蛋白改变的变异与其他变异的分离优先被证明是有用的,但无疑也是粗略的。从外显子组转移到基因组,为了未知的信号增加,我们要承担100倍的噪音增加。因此,我们需要更精密的方法,为编码和非编码变异分配更加适当的“先验值”。 不过尽管如此,Shendure也依然认为外显子组测序代表了“高产的遗传学”,通过较少样本的外显子组测序和适中的投资,就可以明确鉴定新的疾病基因。随着分析成本的进一步降低和分析精密度的提高,这种模式的生产力也会提高。 基因组水平的DNA甲基化研究新方法 Jay Shendure与其研究组今年还发表了另外一篇方法技术的原创性成果,报道了一种新的亚硫酸氢盐测序方法。 全基因组亚硫酸氢盐测序带来了高分辨率且全面的甲基化模式检测,但它需要大量的起始材料。在构建文库时,通常需要5μg以上的基因组DNA。因此,对于起始材料有限的样本,这种甲基化分析方法不适用。 相比之下,低代表性的亚硫酸氢盐测序需要的起始DNA要少一些,但同时牺牲了全面性。与分析整个基因组不同,这种方法聚焦于基因组的特定区域。而对于癌症和发育等领域的研究人员来说,起始材料往往有限,这也就限制了分析方法的选择。 而Shendure的方法方法仅需1ng起始DNA,但仍然能提供全基因组DNA甲基化模式的全面分析。其秘诀在于文库构建方法,这种称为“tagmentation”的方法比连接法更高效。基于tagmentation的全基因组亚硫酸氢盐测序方法利用Tn5转座子将DNA片段化,并同时掺入接头。与连接方法相比,转座子方法更加高效,也减少了所需的DNA起始量。 这种方法为样品量有限的表观遗传学研究人员提供了一个新选择,比如癌症的甲基化研究。此外,研究人员也在进一步优化方法,尝试使用更少的样品量。 Multiplex Targeted Sequencing Identifies Recurrently Mutated Genes in Autism Spectrum Disorders Brian J. O’Roak,Laura Vives,Wenqing Fu,Jarrett D. Egertson,Ian B. Stanaway,Ian G. Phelps,Gemma Carvill,Akash Kumar,Choli Lee,Katy Ankenman,Jeff Munson,Joseph B. Hiatt,Emily H. Turner,Roie Levy,Diana R. O’Day,Niklas Krumm,Bradley P. Coe,Beth K. Martin,Elhanan Borenstein, Deborah A. Nickerson,Heather C. Mefford,Dan Doherty,Joshua M. Akey,Raphael Bernier,Evan E. Eichler,Jay Shendure Exome sequencing studies of autism spectrum disorders (ASDs) have identified many de novo mutations, but few recurrently disrupted genes. We therefore developed a modified molecular inversion probe method enabling ultra-low-cost candidate gene resequencing in very large cohorts. To demonstrate the power of this approach, we captured and sequenced 44 candidate genes in 2446 ASD probands. We discovered 27 de novo events in 16 genes, 59% of which are predicted to truncate proteins or disrupt splicing. We estimate that recurrent disruptive mutations in six genes—CHD8, DYRK1A, GRIN2B, TBR1, PTEN, and TBL1XR1—may contribute to 1% of sporadic ASDs. Our data support associations between specific genes and reciprocal subphenotypes (CHD8-macrocephaly, DYRK1A-microcephaly) and replicate the importance of a β-catenin/chromatin remodeling network to ASD etiology. 文献链接 : Multiplex Targeted Sequencing Identifies Recurrently Mutated Genes in Autism Spectrum Disorders 相关热点 多基因测序技术发现自闭症外显子的频发突变 DNA微阵列技术和外显子测序技术检测出自闭症致病突变 自闭症早期干预可令18个月大儿童大脑活动正常化 美遗传学家成立孕前基因筛查公司引Science热议 美国生物技术公司SynapDx公司通过血检鉴别自闭症 推荐热点 哈佛科学家在DNA芯片中成功存储电子书 盘点伦敦奥运会可能出现的兴奋剂种类 疟原虫基因组测序揭示抗疟的挑战与机遇 Nature和Science同期刊登肿瘤干细胞的发现 Nature:奥运会背后的科学家们
个人分类: Exome|2223 次阅读|0 个评论
[转载]外显子测序技术研究乙肝相关肝癌
bioseq 2012-9-29 17:24
看到一个视屏讲解,觉得挺好的。拿来和大家分享。 视频: http://www.seq.cn/forum.php?mod=viewthreadtid=3231extra=page%3D1 可能注册成会员才能看吧,不太清楚啊。 20120828期 Journal club. 近期发表在《自然遗传学》(Nature Genetics)杂志上一篇由国内研究人员完成的文章,利用外显子测序技术分析了中国人群HBV相关的肝细胞癌。文章综合两个不同平台的测序结果,鉴定了数百个体细胞突变,利用大样本集合筛选转移相关及引发癌症的Driver基因。文章严谨的筛选平台及大量后续的实验验证为今后肝细胞癌的诊断及治疗提供了可靠宝贵的资源... ... u 合作完成单位名称: 1. 上海交通大学医学院、 2. 国家人类基因组南方研究中心 3. 生物芯片上海国家工程研究中心 4. 广东医科大学深圳人民医院 5. 南京医科大学无锡人民医院 6.复旦大学中山医院 u 文章 通讯作者: 韩泽广教授 现任瑞金医院和国家人类基因组南方研究中心研究员。 在国内外SCI杂志发表相关论文60余篇, 包括以通讯作者在国际一流学术杂志《自然(Nature)》、 《自然遗传学(Nature Genetics)》、《临床调查杂志(JCI)》、 《美国科学院院报(PNAS)》、PLoS Pathogens、Hepatology、 Cancer Research等,被国际同行引用1600余次。
1692 次阅读|0 个评论
[转载]罗氏NimbleGen将推出多样本混合捕获实验方案以及全基因组外显子
bioseq 2012-9-3 10:32
二代测序技术正在不断突破高通量以及低测序成本的极限。 定向测序更是当前最有效控制测序成本同时获得关键序列信息的首选。 NimbleGen即将推出序列捕获前的多样本混合实验方案, 希望以此更好地优化序列捕获技术以配合二代测序平台的高通量,进而减少实验时间并降低测序费用。 这一新技术 利用不同条形码序列来结合不同样本,然后混合一次实验中进外显子或定制目标区域的液相捕获。 罗氏NimbleGen的首席执行官Frank Pitzer说:“我们很高兴向所有研究人员突出这个高效而且低成本的实验方案。相信通过这一方法,研究人员可以提高研究项目的样本通量,以此增强研究项目在统计学上的重要性。” 多样本混合实验方案的同时,新一代的外显子液相捕获产品也会同时推出。这一新产品将可捕获64M的基因组序列,包括所有外显子以及miRNA,它含与其他NimbleGen液相捕获产品相同的2.1M高密度探针,以确保高效、均一、特异、全面的定向捕获,将成为市场覆盖面最广的序列捕获产品之一。 Pitzer先生介绍说:“这个新的产品, NimbleGen SeqCap EX Exome Library v3.0延续了NimbleGen一贯以来产品的高效和均一的特点,这一点得到了行业内的认可,许多文献中的实验结果也可以证明。 例如在最近Nature Biotechonlogy杂志中刊登的一篇文章1,对于三种外显子组捕获产品的捕获序列进行测序后比较,在同样获得80M测序数据的情况下,NimbleGen有97%的目标序列达到10x以上 的测序深度,而其他产品只有90%。此外,NimbleGen SeqCap EX Exome Library v3.0产品将覆盖更广泛的区域,包括RefSeq, CCDS Vega以及Ensemble Database中的外显子相关区域。” 与此同时,研究人员仍然可以选择NimbleGen SeqCap EX Exome Library v2.0产品,它仍将是针对RefSeq数据库的外显子序列最为经济有效的测序捕获工具。而两项新产品的相关数据信息,将在最近在加拿大蒙特利尔举办的美国人类基因学年会中发布,敬请留意后续报道。 更多有关罗氏NimbleGen产品,请访问 www.nimblegen.com . 文中所涉及的文献 (1) Clark et al., Performance comparison of exome DNA sequencing technologies (2011) Nature Biotechnology Published online 25 September 2011 doi:1038/nbt.1975 英文原文如下: Roche NimbleGen Announces New Pre-capture Multiplexing for Target Enrichment Technology in Sequencing With the decreasing cost and increasing throughput of sequencing, researchers require a high-performance, cost-effective sample preparation pipeline for targeted sequencing. To enable researchers to more readily match targeted sequencing sample preparation throughput to the ever increasing throughput of next-generation sequencing, Roche NimbleGen (SIX: RO, ROG; OTCQX: RHHBY) announces the imminent launch of a pre-capture multiplex target enrichment protocol. This new pre-capture multiplex protocol enables multiple DNA samples to be barcoded and captured in a single SeqCap EZ Library reaction for exome or custom capture experiments. “We are extremely excited to provide researchers with a high performance, cost-effective pre-capture multiplex protocol that should allow researchers to increase the size of their studies, and thus, the statistical relevance,” stated Frank Pitzer, CEO of Roche NimbleGen. The pre-capture multiplex protocolwill be launched for an additional, more comprehensive Exome capture product. This new product will employ the same high-density probe technology that ensures high capture efficiency in all of its existing SeqCap EZ products. However, the new Exome product will target 64Mb of coding exons and miRNAs, providing researchers with an efficient target enrichment product with the most comprehensive coverage of coding regions. “The new extension of our target enrichment portfolio, NimbleGen SeqCap EZ Exome Library v3.0, will provide researchers with the same industry-renown performance and uniformity that researchers worldwide have proven in numerous recent publications. In one recent study in Nature Biotechnology1, with 80M reads, ~97% of the target bases are covered by more than 10-fold using NimbleGen SeqCap EZ where only ~90% of the target bases are covered by competitive technologies. Additionally, SeqCap EZ Exome Library v3.0 will target the most comprehensive collection of exons in the market as defined by the RefSeq, CCDS, Vega, and Ensembl databases,” Pitzer noted. Roche NimbleGen will continue to offer the high-performance SeqCap EZ Exome v2.0 product, as an efficient tool for researchers who want to generate extremely cost-effective sequencing data for RefSeq exons. Roche plans to release further information of both the pre-capture multiplexing protocol and the NimbleGen SeqCap EZ Exome v3.0 at the American Society of Human Genetics (ASHG) annual meeting (for more information visit Roche at ASHG booth number 502) next week in Montreal, Canada. For more information about Roche NimbleGen, please visit (1) Clark et al., Performance comparison of exome DNA sequencing technologies (2011) Nature Biotechnology Published online 25 September 2011 doi:1038/nbt.1975
2368 次阅读|0 个评论
5月18日《科学》热词
crossludo 2012-5-28 10:30
深海微生物: 单细胞生物 沉积物柱 针状氧传感器 细胞修复周期 跨膜电位 环境微生物 陨石碎片: 均匀混合 壤角砾岩 球粒陨石 健康根源: 外显子组 人群特异性 突变地理性分布 偶联 遗传变异株 生理特征
个人分类: 科研考古|1346 次阅读|0 个评论
真核基因(断裂基因)结构以及转录
liujd 2011-11-20 22:20
红色的部分,表示疑问。高手请帮我解答,非诚勿扰!!! 1,在基因组上,基因以外显子和内含子的结构存在 2,外显子未必都是编码子,可能外显子不是编码子,比如前导区和尾部区( 3'utr,5'utr是不是同一回事? )。 3,外显子和内含子不是绝对的,选择性剪切发生时,对于A基因是外显子,可能对于B基因是内含子。 4,在转录的时候,RNA聚合酶从转录起始位点TSS出发,到转录终止位点结束,不分外显子和内含子把整个基因组都拷贝下来,构成pre-RNA.然后经过剪接把内含子去掉,并且把最后的尾部切割掉加上PolA。 1)真核生物转录和加帽子结构,以及切割尾巴加PolA是同时进行的,转录没有完成,可能剪接就开始了。 2)目前不知道准确的转录终止位点,但是能够识别切割位点,加PolA的位点。转录终止位点肯定在PolA位点之后。 5,起始密码子和终止密码子不是在mRNA的最开始不分和最后不分。 1)起始密码子在TSS之后,那么距离大概多少呢?有范围吗? 2)终止密码子在PolA之前,那么距离大概多少呢?有范围吗? 6, 前导区会不会跨越第一个外显子到第二个外显子上呢?尾部区是不是一定在最后一个外显子上呢? 红色的部分,表示疑问。高手请帮我解答,非诚勿扰!!!
个人分类: 生物学|1664 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-17 12:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部