科学网

 找回密码
  注册

tag 标签: 基因家族

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

JmjC基因家族工作在Plant Physiology上发表
热度 4 zls111 2015-6-12 00:12
Expansionand functional divergence of JmjC-containing histone demethylases : significance of duplications in ancestral angiosperms and vertebrates One-sentencesummaries: Duplicationand sequence divergence of a gene family for histone demethylases likely contributedto the enhancement of chromatin-based regulation in angiospermsand vertebrates http://www.ncbi.nlm.nih.gov/pubmed/26059336 JmjC是去甲基化酶,组蛋白去甲基化,重要的表观遗传因子。现在在哈佛的yi zhang ( http://zhanglab.tch.harvard.edu/) 做了很多工作。 去甲基化还有一类基因,有名的是LSD,这个是第一个发现的去甲基化酶,是施杨首先发现的。 我们做了一些分析工作。主要发现其在被子植物早期保留较多,反而在近期的核心真双子叶和十字花科里保留较少。按先前的分析,大部分重复基因主要是近期基因组重复保留下来的。 动物中主要是脊椎动物早期,有意思Y染色体上有两个JMJC基因,相当于Y染色体形成增加了两个jmjC基因。在脊椎动物中,好几个分支上有3~4个成员,在SET(组蛋白赖氨酸甲基化酶)这样例子很少。有几个成员是哺乳动物特有的。 我们与甲基化酶SET蛋白(我们在2012年发表了两篇SET基因家族分析工作),以及精氨酸甲基化酶PRMT做了比较分析。 题目后来改了下,但是在线的没改过来。 ppRPPP201500520.pdf http://www.plantphysiol.org/content/early/2015/06/09/pp.15.00520.abstract
5937 次阅读|5 个评论
两篇文章在线New Phytologist和Frontiers in Plant Science
热度 5 zls111 2015-3-16 12:58
张亮生博士与合作者在《New Phytologist》杂志发表题为“Differential evolution of members of the rhomboid gene family with conservative and divergent patterns”的论文。 rhomboid基因一般编码具有7个跨膜的膜内蛋白水解酶,其有三大类,分别是丝氨酸蛋白酶Rhomboid, 金属蛋白酶S2P以及天冬氨酸蛋白酶Presenilin和SPP。膜内蛋白酶在细胞膜内对信号蛋白进行切割,参与多种生理过程,如老年痴呆症中的γ-secretase复合物中之一的亚基是天冬氨酸蛋白酶,Rhomboid蛋白家族成员Rhbdd3能调节自身免疫病发生发展。 本研究利用生物信息手段,从进化角度阐述了rhomboid基因家族的分子特征和进化历史。发现动植物的rhomboid 基因家族可以分成两大类,其中一类在动植物都保守,具有一个拷贝。另外一类不保守,在动植物中随着基因组重复而扩张,在动物中最多有3个拷贝,植物中更多,显示基因家族一种独特的进化模式。一般认为Rhomboid蛋白关键活性位点突变掉就会失去活性功能,其非常保守。我们在植物中发现一类Rhomboid蛋白的活性位点发生突变,其在拟南芥减数分裂细胞中高表达,而在影响花粉发育的突变体中低表达,可能在减数分类种具有功能,显示这类基因进化出新功能。本工作展示了编码内膜蛋白的基因家族的一种进化模式,同时展示一个基因家族内不同亚家族具有不同进化方式,一部分保守一部分分化。 张亮生博士和复旦大学马红教授共同作为通讯作者。复旦大学的李颀为第一作者。 张亮生博士同时在《Frontiers in Plant Science》杂志在线发表了另外一篇研究工作:“Analysis of Arabidopsis floral transcriptome: detection of new florally expressed genes and expansion of Brassicaceae-specific gene families”。这项工作利用RNA-seq数据全面分析了拟南芥花的不同发育阶段表达基因以及相关基因家族。张亮生博士是第一作者,同济大学为第一单位,复旦大学的王应祥副教授和马红教授为共同通讯作者。 fpls-05-00802.pdf nph13174.pdf PS,在学院网站上写的稿子。 这两篇是14工作,加上13年两篇9分年多的,两年发表近29分。
17235 次阅读|10 个评论
构建基因家族进化树答疑
zls111 2014-12-9 22:12
刚才有个同学咨询构建进化树问题。 觉得有代表性,贴出来供大家参考。 感谢您及时回复我的邮件。由于我之前在构建进化树方面曾经遇到一些困难,所以我在看到您的文章之后,想从网上把您构建进化的序列下载下来详细学习,所以遇到以下几个问题: 1) Fig.1 中所用到的构建进化树的序列,并不是所有您在 Table 1 中所展示的物种中的序列,所以我想请问您 Fig.1 中所用到的物种的序列,是基于分类关系所选择还是基于进化树所选择 ? 选择代表性物种,是基于分类关系。 Ps:这里fig1等是指我最近发表的文章。见前面一篇博客。 2) 您在构建这个进化树的时候用到的是氨基酸全长序列,但是也有些文章中的用的 Domain 序列,应该如何选择 ? 如果序列不是很多,比如几百条,建议用全长。 还有就是序列不是太保守,要是序列之间相似度不高,只有 domain 相似度比较高,可能用 domain 比较好。 大多用全长挺好的。 3)我之前也曾基于已经公布的植物基因组数据,使用 HMMER 软件通过 domain 的编号来寻找蛋白质氨基酸序列,并构建进化树,但是所得到的进化树, 无论是用全长序列还是 domain 序列,在主要分支上的支持率都比较低( Mrbayes 、 ML 、 NJ ),也曾结合 protest 软件选择最佳模型来构建发育树,但是结果也是不理想,您能给我一些好的建议吗? 序列比对完之后,你稍微看下你比对的结果,一些序列有明显差异的,就给去掉。 另外一个办法,你做个 NJ 树,看看是不是有些序列跟谁也聚集不在一起,把这个序列删掉。 在这个之后,你再画树看看。 另外,就是你选择代表性物种,不要弄很多。 树不一定要支持度高就是好,,有的基因树本来就是那个样子,,哪就是那个样子。 做树一般是进行分类,大多的树都是能把类分的清楚。 树是重构进化历史而已,能说明你想的问题就行。
个人分类: 读文章笔记|18182 次阅读|0 个评论
基因家族网站汇总
liujd 2012-6-11 23:54
1,p450基因家族网址 总的p450基因网址: http://drnelson.uthsc.edu/CytochromeP450.html 昆虫的p450基因 http://p450.sophia.inra.fr/index.html 2,
个人分类: 生物学|1187 次阅读|0 个评论
[转载]基因家族
liujd 2012-5-29 22:15
http://jpkc.scau.edu.cn/ycx/read.asp?id=134 定义   基因组进化中,一个基因通过基因重复产生了两个或更多的拷贝,这些基因即构成一个基因家族。   是具有显著相似性的一组基因,编码相似的蛋白质产物。   在真核细胞中许多相关的基因常按功能成套组合,被称为基因家族(genefamily)。同一家族中的成员有时紧密的排列在一起,成为一个基因簇;   更多的时候,它们却分散在同一染色体的不同部位,甚至位于不同染色体上,具有各自不同的表达调控模式。   一组功能相似且核苷酸序列具有同源性的基因,可能由某一共同祖先基因经重复和突变产生。 多基因家族   真核基因组的特点之一就是存在多基因家族(multigenefamily)。多基因家族是指由某一祖先基因经过重复和变异所产生的一组 基因。多基因家族大致可分为两类:一类是基因家族成簇地分布在某一条染色体上,它们可同时发挥作用,合成某些蛋白质,如组蛋白基因家族就成簇地集中在第7 号染色体长臂3区2带到3区6带区域内;另一类是一个基因家族的不同成员成簇地分布不同染色体上,这些不同成员编码一组功能上紧密相关的蛋白质,如珠蛋白 基因家族。在多基因家族中,某些成员并不产生有功能的基因产物,这些基因称为假基因(pseudogene)。假基因与有功能的基因同源,原来可能也是 有功能的基因,但由于缺失,倒位或点突变等,使这一基因失去活性,成为无功能基因。与相应的正常基因相比,假基因往往缺少正常基因的内含子,两侧有顺向重 复序列。人们推测,假基因的来源之一,可能是基因经过转录后生成的RNA前体通过剪接失去内含子形成mRNA,如果mRNA经反复转录产生cDNA,再整 合到染色体DNA中去,便有可能成为假基因,因此该假基因是没有内含子的,在这个过程中,可能同时会发生缺失,倒位或点突变等变化,从而使假基因不能表 达。 多基因家族的进化 在进化过程中,基因家族如编码rRNA的基因或编码组蛋白的基因都是从共同的祖先基因通过重复(duplication)和歧化 (divergence)进化而来的,它们具有相同或相关的功能。虽然如此,但它们在发育过程中并不总是同时表达的,不同的成员可能在不同的发育阶段和 (或)不同的组织中表达,如有些血红蛋白基因家族成员在成体中表达,而另一些则只在胎儿期表达,这一事实说明在基因调控水平发生了进化歧化 (evolutionarydivergence)。   在足够时间的进化过程中,基因家族中某些成员的DNA序列可能歧化为可编码一种具有新功能的蛋白,例如,乳清蛋白(lactalbumin) 基因与溶菌酶基因就属于同一个家族,前者编码催化乳糖合成的酶的一个亚基,后者编码的溶菌酶能降解某些细菌细胞壁的多糖化合物,但它们具有一个共同的特点 就是都作用于碳水化合物。   我们也已经知道,基因家族中的某些成员并不转录或转录本不翻译成有功能的蛋白,即成为基因家族中的假基因。研究发现,这些无功能的假基因缺乏必要的启动序列和缺乏一个或多个具活性的成员中特有的内含子序列。   DNA重复通常是指DNA片段数的增加,它可以是一个完整基因的重复(基因重复)、基因的一部分重复、一个完整染色体的重复(非整倍体)、或整个基因组的重复(多倍体)。基因家族是由于连续的基因重复所造成的。   非整倍体常导致生物体的不育,而基因组重复只是使基因增加拷贝数,并不产生新的基因,对基因组的复杂性并没有改变。从基因组进化的角度来看,更多的是考虑单个基因或一些基因的重复,而不是整个基因组的重复。   珠蛋白是一个多基因家族,在人类的第16号染色体上发现了7个类a珠蛋白基因,在第11号染色体上发现了6个类b珠蛋白基因,在动物甚至植物 中也发现了珠蛋白基因,表明这是一个非常古老的基因家族。在多种动物中几乎所有有功能的珠蛋白基因结构都相同,由3个外显子组成,中间间隔着两个内含于。 但珠蛋白基因的数量和次序在各种动物中是不同的。由于所有的珠蛋白基因的结构和顺序都是相似的,因此它们存在着一个祖先珠蛋白基因(多半和现在存在的肌红 蛋白基因相关)。在约5亿年前,祖先珠蛋白基因经重复和歧化产生了原始的a珠蛋白基因和b珠蛋白基因,再追溯至8亿年前,这个祖先珠蛋白基因本身也是通过 基因重复而产生的,它的另一份拷贝进化为现今的肌红蛋白(myoglobin)基因,肌红蛋白基因的组成和珠蛋白基因相似,其主要功能也同珠蛋白一样是贮 存氧,因此我们可以将三个外显子结构看成是它们共同的祖先。植物的豆血红蛋白(leghemoglobin)基因是和珠蛋白基因相关的,植物豆血红蛋白基 因存在着很多原始的类型,它比肌红蛋白基因多一个内含子,但它与肌红蛋白很相似。   某些原始的鱼类只有单个类型的珠蛋白链,因此它们必然是在珠蛋白基因尚未发生重复前就歧化了出来。在某些两栖动物中含有a和b连锁的珠蛋白基 因,这是由祖先珠蛋白基因重复后经突变形成的。后来进一步重复,在哺乳动物中形成了a珠蛋白家族和b珠蛋白家族。重复在进化中是经常发生的,事实上,珠蛋 白基因的拷贝数在某些人类群体中是有变化的,例如大部分人在16号染色体上有2个a基因(a1、a2,图12-9),但有些个体在此染色体上只有1个,而 另一些个体有3个甚至有4个a珠蛋白基因。此表明在多基因家族中基因的重复和缺失是恒定的进行过程。重复也可以通过转座而产生。 基因组中的基因家族(来源于首席医学网) 在人及高等有机体基因组中,有许多基因家族。有的基因家族成员多,有的基因家族成员少;有的基因家族成员功能相似,有的基因家族成员功能各异 。所谓多基因家族是指一类具有序列同源性及相似功能的基因;而基因超家族是指一类具有序列同源性而不具相似功能的基因。如果一类蛋白或基因具有共同 起源的一个结构域,就属于一个基因超家族,同一个基因可归属于两个或多个基因超家族。有关基因家族的研究起始于二十世纪七十年代,目的是为阐明个体或群体 遗传差异与基因冗余(generedundancy)的关系。文献表明:免疫球蛋白基因超家族与其它多基因家族进化的分子机制相似,染色体不等交换和基 因转换(geneconversion)导致了免疫球蛋白基因的进化。为阐明基因家族进化和变异的分子机制,应同时考虑染色体不等交换、基因突变、自然 选择及随机漂变等因素。同一基因家族中不同成员的序列同源性取决于基因突变与染色体不等交换的频率,也与自然选择及随机漂变有关 。   基因超家族的一个重要特点是不同成员具有不同的表达模式(expressionpatterns),而同一多基因家族的不同成员往往具有相 同的表达调控机制。因此,有必要阐明基因超家族成员其表达模式改变的诱因。一些大的基因超家族通常包括数个单基因和几个多基因家族,这些基因家族的形成是 有机体进化的分子基础。基因组中几乎所有的基因可归属于一个或更多的基因超家族。同源性比较可用于分析不同基因间的进化关系;系统发生分析可剖析基因家族 不同成员的相关性;基因进化树可澄清基因拷贝数增加或基因重复(geneduplication)的历史,同时,为识别不同种属同源基因提供有益信息。   1.基因家族在基因组中的分布   1.1成簇存在的基因家族许多重要的基因家族在基因组中成簇存在,也即同一基因家族的不同成员在基因组中重复串联排列。这些成簇存在的基 因是种系生殖细胞在减数分裂过程中,通过染色体不等交换和基因转换形成的。一些多基因家族成员的拷贝数巨大,如核糖体RNA或组蛋白基因家族,这是由于有 机体需要其大量的基因表达产物。在真核生物中,rRNA基因通常形成一个多基因家族。rRNA基因的一个重复单位包含一个转录区和一个非转录间隔区,转录 区包括18S、5.8S和28SrRNA基因,该重复单位在基因组中重复数百次。rRNA多基因家族不同成员进化的分子机制一致,尽管不同种属rRNA 基因重复单位的序列有所差异,但同种属rRNA基因重复单位之间的同源性很高。在高等有机体基因组中,核小体的四种核心组蛋白基因通常成簇存在,该基因簇 在基因组中重复数十次,这些基因在细胞周期的S期同步表达。也有几个组蛋白基因的表达与细胞周期无关,此类组蛋白基因的表达与一般的组织特异性基因相似。   一些成簇存在的基因超家族成员功能各异,最典型是珠蛋白基因超家族(globingenesuperfamily)。哺乳类珠蛋白基因超 家族由α样珠蛋白基因家族、β样珠蛋白基因家族和肌红蛋白家族三个基因家族组成。前两个基因家族由成簇存在的基因编码,而肌红蛋白由单个基因编码。每个基 因簇包括胚胎期、成人期α或β珠蛋白基因及假基因。一种珠蛋白的编码基因不止一个,例如:有两个基因α1、α2编码成人期α-珠蛋白,这两个基因组成一个 较小的多基因家族,具有共同的进化途径 。   1.2含有成簇及散在存在成员的基因超家族一些基因超家族通常含有成簇和散在存在的成员,成簇存在的基因(通常组成多基因家族)具有相似功能的,而散在存在的基因往往具有不同的功能。但也有例外,如成簇存在的Hox基因家族成员其功能可能完全不同 。   在人体基因组中,免疫球蛋白基因超家族包含有成簇及散在存在的成员,是具有多个功能各异的基因,该基因超家族的许多成员含有非免疫球蛋白的结 构域,具有多种不同功能。免疫球蛋白基因家族是最大的基因超家族之一,该家族基因所编码的多肽是血液中的不同抗体。免疫球蛋白由可变区 (varible,V)、恒定区(constant,C)、多样区(diversity,D)、结合区(joining,J)基因片段编码。V、D、J区 基因片段存在多个拷贝,免疫球蛋白由V、D、J区及轻、重链的不同组合构成,体细胞的突变也与免疫球蛋白的多样性有关。通过不同组合产生足够的多样化抗 体,进化过程中突变的积累尤为重要。分析可变区基因序列得知,抗原识别区多样性的提高与自然选择有关。 MHC(majorhistocompatibilitycomplex)多基因家族属于免疫球蛋白基因超家族,该多基因家族与临床医学密切相关,且 有高度的多态性,引起了研究人员的关注。研究结果显示:MHC等位基因中具有差异极小的短片段序列,很明显是由其同源基因突变所致,基因重组促使MHC基 因经历着动态的演变。序列相似性研究表明,使抗原识别位点氨基酸多样性升高的自然选择,促使MHC基因保持高度多态性 。同时,包括抗原识别位点在内 的基因转换也可产生有用的变异,为自然选择提供物质基础。   另一典型的既含基因簇又含散在存在基因成员的基因家族是嗅觉受体(olfactoryreceptor)基因。该受体是一种含有七个跨膜域 的膜蛋白,属于G蛋白耦联受体(G-protein-coupledreceptor,GPCR)基因超家族。其功能的多样性由基因本身编码,而并非由 体细胞突变或不同基因片段组合使用所致。哺乳动物大约共有几百个GPCR基因。这类基因在基因组中形成许多个基因簇,每个基因簇中含有多个成员及假基因。 鲇鱼基因组中的GPCR基因比哺乳类少得多,该基因家族在哺乳类动物祖先基因组内完成了扩展 。   1.3散在存在的基因家族许多散在存在的基因家族,一般认为是通过RNA逆转录、随后整合到基因组中形成的。整合序列 (integratedsequence)或逆转录序列(retrosequence)来源于基因的RNA转录本,因此无内含子。大多数逆转录序列已变 为不具功能的逆转录假基因(retropseudogene),只有极少数逆转录序列保留了其功能。有功能的逆转录序列被称为逆转录基因 (retrogene)或剪接过的基因(processedgene)。位于人常染色体上的磷酸甘油酸激酶基因没有内含子,是一种逆转录基因,与其在X 染色体上的原始基因相比,该基因的表达模式(expressionpatterns)发生了改变。与预期的情况一致,大多数逆转录序列已变为逆转录假基 因 。例如:细胞色素C、甘油三磷酸脱氢酶、核糖体蛋白L32、β微管蛋白、精氨酰琥珀酸合成酶等基因。   2.基因家族形成的分子机制   2.1基因重复和点突变基因发生重复的主要分子机制包括多倍体化、串联重复及逆转录转座三种。在多倍体化过程中,基因组中所有基因皆被重 复。基因较小区域的重复由上述后两种机制完成。多倍体化导致了许多基因家族的形成。串联重复参与了成簇存在的基因家族的进化,重复的DNA区域可以小于或 大于一个基因的长度,但在基因家族的进化过程中,整个基因的重复尤为重要。   在种系生殖细胞的减数分裂过程中,染色体不等交换引起基因串联重复。一旦一个基因簇形成,不等交换率就会升高。在具有相似功能成员的多基因家 族中,频繁的染色体不等交换导致了家族成员的协同进化。一般而言,点突变与染色体不等交换可引起同一基因家族内的遗传性改变,自然选择和遗传漂变对于同一 基因家族成员的变异也有重要影响。   在人体基因组中,具有功能的逆转录序列或整合序列很少,但有大量来源于逆转录的重复序列。丰度最高的重复序列有短的散在重复序列 (shortinterspersedrepeats,SINES)和长的散在重复序列 (longinterspersedrepeats,LINES),在这些重复序列中,Alu重复序列最多,基因组中超过了50万个。人体Alu基因 家族与7SLRNA具有序列相似性,7SLRNA在胞质中含量最多。在其他生物中,tRNA与SINES具有同源性,故7SLRNA、tRNA被认为是 SINES的模板。人基因组LINES中含有一个逆转录酶基因,可以完成其序列自身的逆转录转座。人体基因组中LINES的拷贝数大约有10万个。大多数 LINES发生缺失,不具有功能。总之,当一个种系生殖细胞中含有合适的RNA转录本及逆转录酶活性时,即可完成逆转录转座,大多数逆转录序列在其形成的 过程中变成了无功能的逆转录假基因。   2.2自然选择和随机漂变任何重复基因或多拷贝基因,如果被表达且具有功能,则正经历着纯化性自然选择 (purifyingselection),多拷贝基因的进化率比单个基因的突变率低很多。多拷贝基因与单个基因受到的自然选择限制程度有差异。自然选 择限制程度随基因冗余而减弱,只要有一个基因保留其功能,有害的突变就有可能富集。对于大的多基因家族:如rRNA基因和组蛋白基因,有害突变的积累可被 纯化性自然选择阻止,纯化性自然选择可以检测到具有功能的完整基因的数目。使突变基因拷贝数增加或减少的协同进化有利于自然选择。   正向自然选择(positiveselection)是在重复基因获得新功能时发生的 。事实上,许多重复基因产生后,即加快了氨基酸 替代,氨基酸替代可以通过计算同义及非同义突变的频率进行估计。这类基因包括灵长类胚胎血红球蛋白,反刍动物肠溶菌酶、哺乳类视觉色素等等。一些情况下, 难以确定氨基酸替代率的增加是由正向自然选择引起,或许是由基因冗余造成自然选择限制程度减弱所致。   基因重复的另一种后果是基因表达模式(expressionpatterns)发生变化,也即多拷贝基因的功能特化或亚功能化 (subfunctionalization)。这种变化对于参与发育过程的转录因子及其他蛋白尤为重要,这类基因功能的变化与生物的形态学进化直接相 关。分析果蝇转录因子的调控元件得知,其调控元件的序列正在发生颠换(turningover),在稳定选择条件下,该转录因子的功能仍能维持。当稳定 选择条件发生变化时,该转录因子可被另一种转录因子替代,从而导致靶基因表达模式或表达调控机制发生改变,自然选择和随机漂变也与靶基因表达调控机制的变 化有关。 【参考文献】   1OhtaT.Evolutionofgenefamilies .Gene2000,259(1-2):45-52.    2BurmesterT,HaberkampM,MitzS,etal.Neuroglobinandcytoglobin:genes,proteinsandevolution .IUBMBLife.2004,56(11-12):703-707.    3ChioriR,JagerM,DenkerE,etalAreHoxgenesancestrallyinvolvedinaxialpatterning?Evidencefromzx_thehydrozoanClytiahemisphaerica(Cnidaria) .PLoSONE.2009;4(1):e4231.    4MalkkiM,SingleR,CarringtonM,etal.MHCmicrosatellitediversityandlinkagedisequilibriumamongcommonHLA- A,HLA- B,DRB1haplotypes:implicationsforunrelateddonorhematopoietictransplantationanddiseaseassociationstudies .TissueAntigens.2005,66(2):114-124.   5LiuZ.Areviewofcatfishgenomics:progressandperspectives .CompFunctGenomics.2003,4(2):259-265.   6DevorEJ,Moffat-WilsonKA.Molecularandtemporalcharacteristicsofhumanretropseudogenes .HumBiol.2003,75(5):661-672.   7EllegrenH.Comparativegenomicsandthestudyofevolutionbynaturalselection .MolEcol.2008,17(21):4586-4596. (ShaoqiaoYan)
个人分类: 生物学|1860 次阅读|0 个评论
基因家族的定义
热度 1 zls111 2012-3-28 11:10
今天有个同学发信息问我:如何检测一个基因是否存在家族基因? 正好最近在写博士论文有相关内容,就贴出来。 什么是一个基因家族呢?由一个共同的祖先基因经过重复 (duplication) 和突变 (mutation) 产生的、外显子中具有相似的序列的一组相关基因被称为基因家族 (gene family) 。基因重复主要有三种方式:片段复制、串联重复和逆转录转座或其他转座事件等,基因重复后可以彼此形成基因簇 (gene clusters) , 同一家族中的成员有时紧密的排列在一起,成为一个 基因簇 ;更多的时候,它们却分散在同一染色体的不同部位,甚至位于不同染色体上,具有各自不同的表达调控模式 。基因突变是基因分子进化的第一原因,由核苷酸替代、插入 / 缺失、重组和基因转换等引发的突变基因或 DNA 序列,通过群体水平的遗传漂变和 / 或自然选择进行扩散,并最终在物种基因组中得以固定,这种方式产生的新基因一般拷贝数目不会增加,相对基因重复是非常少的,主要是影响基因的序列以及其编码的蛋白。基因家族主要是指一组功能相似且核苷酸序列具有同源性的基因, 是具有显著相似性的一组基因,编码相似的蛋白质产物 。 有时定义基因家族,从结构域角度来刻画。如:一类基因,其编码蛋白都含有同一个结构域,这一类基因是一个基因家族。比如 MADS-box 基因家族,这类基因都含有 MADS-box 结构域,还有 SET 结构域基因家族。这个定义信息更偏向功能信息,一般来说结构域决定某种功能,因为结构域序列保守,易形成稳定的三维结构。这与共同祖先的定义有些差别,很多结构域难找得到其共同祖先。另外一个基因的共同祖先定义比较复杂的,越是历史久远的祖先,因为物种的在进化过程中发生了很多丢失和增加事件。共同祖先是个相对的概念,比如植物的共同祖先,一般包括藻类及其它绿色植物,而被子植物共同祖先,根据已经测序的基因组,一般指单双子叶之前就可以。如果从共同祖先定义基因家族,很多已知的基因家族就要被分成很多个基因家族。有很多网站(数据库)专门收集结构域,比如Pfam和InterPro,这两个数据库内容差不多。这些数据库以Hmmer算法为基础,根据Uniprot中包含的蛋白,进行序列连配找到保守的片段(结构域),再以这些序列使用Hmmer构建种子,保存这些种子。一个蛋白拿过来后,与这些种子比对,根据打分能判断出这个蛋白是不是含有这个结构域,这也是判断一个基因编码蛋白是不是属于这个家族。
31972 次阅读|2 个评论
抗癌三兄弟
热度 18 GumpForrest 2011-4-7 10:34
抗癌家族三兄弟(一) 李福洋 俗话说,“打虎亲兄弟,上阵父子兵”,意思是指那种同心同德、全力以赴的合作最有战斗力。例如,大家熟知的桃园结义的“刘关张”三兄弟,在群雄逐鹿的动荡时代纵横驰骋,问鼎天下;还有南宋民族英雄“岳家军”,父子三人驰骋在抗金的疆场上,所向披靡。人体和肿瘤的斗争虽然悄无声息,却也同样是艰苦卓绝。近四十年来的生物医学研究在不断揪出一个又一个罪魁祸首(癌基因)的同时,也发现了很多兢兢业业的“抗癌英雄”(抑癌基因)。这里给大家介绍抗癌基因家族的三兄弟: p53, p63和p73 。 大家可能会觉得好奇:这三兄弟怎么都没有像样的名字?莫不是以各自的“体重”(分子量)来称呼 ? 就像鲁迅小说中的“九斤老太”?你猜对了。 p 是泛指蛋白(protein),后面的数字就是蛋白分子量,例如 p53 ,就是说它的分子量是 53 千道尔顿(分子量单位)。 这三个兄弟究竟是怎么回事,它们是“刘关张”式的结义兄弟,还是遗传家族式的兄弟?既然是兄弟,就有可能存在长幼之分,那么这三个兄弟中,谁是老大呢? 按照“进化年龄”的大小排,那 p63 当属老大, p73 为老二, p53 就是老三了。不过, 要是论起名气,这排行和体型最小的 p53却 是肿瘤研究领域当之无愧的大明星,无人不知,谁人不晓?你可能又会问了:这进化年龄是怎么回事?这里先按下不表,后面再作交代。 1.最早出道的“明星小弟” 故事要先从 p53 开始说起。这个 p53, 别看它小(进化年龄和体重),但是出道最早,如果按照重要性和广泛性排名,无论是在这三个兄弟内,还是在众多抑癌基因的“英雄榜”中, p53都 当之无愧地要坐头把交椅。 p53 基因于 1979 年被几家国际知名的癌症研究研究机构独立发现,他们分别是:英国的帝国癌症研究基金会,美国的普林斯顿大学癌症研究所,和美国斯隆凯特癌症研究所的纪念医院。 1982 年苏联科学院 Peter Chumakov 率先克隆了小鼠 p53 编码序列片段,次年以色列魏茨曼科学研究所的科学家 Moshe Oren 与 David Givol 合作也独立克隆出完整的小鼠 p53 基因编码序列。这在 PCR 技术没有出现的年代 (PCR 技术到了 1987 年才出现 ) ,克隆一个基因是多么了不起的工作呀,就像没有起重机人们始搭建了金字塔,另外,我们也可以洞见前苏联生物学研究水平还是蛮高的(后来似乎衰落了)。 (这个基因的表现有点特殊,他的大小从理论上推算,只有 43 千道尔顿,可是在分离蛋白的胶( SDS-PAGE )上却表现为 53 千道尔顿,后来才清楚,原来它含有太多的脯氨酸,而脯氨酸是结构比较大,柔韧度较差的氨基酸(俗话说叫“拧”),有它的地方会让蛋白多肽链出现 180 度“打弯”,所以这种氨基酸出现得多了会让蛋白的结构更有“棱角”) 尽管克隆出了 p53 基因,但这时候的 p53 还只是被为是肿瘤的抗原,至于是什么功能,人们一无所知,还曾经一度被冤枉为“作奸犯科”的癌基因,后来才知道,那是从肿瘤中克隆出来的突变 p53 ,而不是正常的 p53 。突破性的工作来自一个临床儿科医生出身的 Bert Vogelstein ,( 这可是个学术上的超级大牛。癌基因已经发过诺奖了,如果抑癌基因能拿诺奖,那当属他和 MIT 的 Robert Weinberg 。关于 Vogelstein ,确实有些有趣的故事,我还跟他打过一点小“交道”,以后有机会再吹嘘 J )。他首次以无可辩驳的证据证实 p53 就是抑癌基因。 p53 从此步入肿瘤研究的舞台中央,成为主角,一直到现在。 p53 确实太重要了,怎么理解这个重要性呢?这么说吧,几乎绝大部分肿瘤的发生都有 p53 的影子:各类肿瘤平均下来约 50% 存在 p53 突变,剩下的 50% 肿瘤中还有一半存在 p53 功能的异常,如 p53 基因被 DNA 甲基化沉默了;随着研究的深入,还会有其他形式的异常,例如在肿瘤中 p53 被异常泛素化导致蛋白被快速降解,等等。可以这么认为: p53 是正常细胞发生恶性转化成为肿瘤所必须要跨过的一道障碍。 p53 为什么会这么重要呢?这要和它的功能角色有关。 大家对 p53 主要印象认识是:它是决定细胞生死的“判官”。被 p53 批准的死亡被称为“程序化死亡”(在发育过程中)或“凋亡”;前者一般是由于细胞完成了历史使命而不再需要了,通过主动“自绝”让道,似有“激流勇退”的荣耀;后者则属于衰老或出现无法纠正的错误,需要像秋天的树叶一样“凋落”,显得颇有些凄凉。 其实, p53 并非如此“铁面无情”的死亡判官,它的真实角色应该是“基因组的卫士”。大家可能不知道,我们的基因组时时刻刻都要经受各种各样的损伤,有外来的,如自然的射线、阳光中的紫外线,化学毒性(药物,化学污染,吸烟等),有来自自身的代谢产物,如氧化呼吸产生的自由基;另外还有基因组复制过程中不可避免产生的错误。对于这些不同类型的损伤,有些可以直接修复,有些则需要细胞整体的配合, p53 的作用就是迅速作出判断,并负责全面协调,比如, p53 传达命令设置多道岗哨(被称为细胞周期检查点, cell cycle check point ) , 细胞如果即将进入 DNA 复制也必须停顿下来,并动员相关的成员参与基因组“抢修 ” ,只有损伤修好了才能再去复制,否则模子是坏的,怎么能加工出什么合格产品?如果损伤太多,甚至有些损伤无法修复,也要 p53 作出“判断 ” ,是继续抢救,还是放弃治疗、启动死亡程序。 09 年一项研究发现, p53 的一个酪氨酸磷酸化修饰状态反映 p53 对修复状态和细胞命运走向的“判断 ” 。 对于一个单细胞生物,存活是第一位重要的原则,为了存活,或更有优势地存活,它可以不惜任何形式的变化;然而,对于多细胞生物个体,它的基因组信息的完整性和准确性却是第一重要的。虽然从进化角度(和时间尺度)看,突变是进化的动力,但是对于一个个体,突变却往往是有害的,这就需要一个有效地维护和监督机制。细胞一旦失去了有效的维护和监督机制,突变就会呈泛滥趋势,结果就是灾难性的。这个机制也同样适用于人类社会,相信大家都有更深的体会。 (未完,待续)
个人分类: 憨人的科学|10580 次阅读|25 个评论
应聘xx所PI-自我介绍
热度 1 zls111 2011-4-1 11:08
本人:男,1983,11,; 2009~2012(预计)于985高校遗传学博士毕业,师从名师。 研究方向: 基因家族分子进化及生物信息学等。 具体的研究兴趣: 研究基因家族进化历史,揭示基因家族功能演化轨迹及其与物种进化的关系。动植物多倍化比较普遍,是物种进化的主要动力,这种动力主要体现在于大量的基因家族扩张,为物种进化提供了新材料。由于大量基因组被测序,通过比较基因组学研究大量基因组中的某些基因家族成为可能,了解某些基因家族的演化历史将为理解物种的进化提供更为细致的角度。 研究成果: 1.动植物在表型上具有极大的差别,某些基因家族分别在动植物丢失或者保留,比如与信号基因家族在动物中扩张,而在植物中较少。但是动植物在表观遗传调控上却具有极大的相似性,比如SET(组蛋白甲基化酶)基因家族在动植物有类似的拷贝数目。通过比较分析已经测序的动植物基因组发现,SET基因家族在动植物的早期就已经扩张。动植物分化后,SET基因家族扩张受基因组重复事件的影响,而很少受其他基因复制机制的影响。根据系统发生关系把动植物分别划分成7与6个亚家族,动植物有四个亚家族具有共同的祖先,发现动植物SET基因家族扩张全部集中在这四个亚家族中。这些表明动植物在表观遗传调控的上具有一定的相似性。 2.植物中多倍化比较普遍,认为在被子植物中发生了多次基因组重复事件,这些事件对被子植物进化有着重要的影响。通过分析植物中的SET基因家族发现SET基因家族扩张受这些基因组重复影响。通过计算SET基因所处的线性区域Ks追踪到SET基因扩张时间,估计出SET基因扩张受那些基因组重复事件影响。通过RNA-seq数据考察这些复制基因的表达情况,可能影响到那些表型的变化。 3.RNA-seq转录组分析。 未来5~10年研究计划: 1.进一步分析植物中SET基因,结合已有的功能研究,利用成熟的基因表达技术,考察SET基因扩张与物种分化之间的一些关系,及基因复制后功能演化机制。 2.挑选一些与发育相关的基因,利用研究SET基因研究思路对这些基因家族进行分析,观察进化与发育(Evo-Devo)之间的关系。 发表文章: 5篇,影响因子》20. 酒量: 4瓶啤酒,白酒的量还不知道;喝吐过没喝倒过。 这年头据说”饿死胆小,撑死胆大“,仅供娱乐,请勿参考。
个人分类: 生活点滴|5560 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-24 02:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部