范欢
homologs, orthologs 和 paralogs,傻傻分不清楚?
2021-6-24 21:14
阅读:11276

小时候中央六放过一个国产动画,讲古博士和杜博士发现但不认识苍蝇,认为是一个新物种,命名为“古普斯·杜勃斯·希里渥图斯”。小朋友一听:古博士,杜博士,稀里糊涂死。名词术语,自然有其存在的道理,所谓名不正则言不顺。但有些术语确实是大同行看了沉默,小同行看了流泪。比如Homologs, orthologs, paralogs这三个,我每每认为自己已经搞懂了,遇到具体情况又抓瞎,干脆写下来,日后好找。


一个概念,一般要了解以下三个方面才能算知晓大概:

1. 定义

2. 生物学意义

3. 检测手段


接着最好再了解一下概念的来历和相关/易混概念。这对于真正理解和掌握这个概念非常重要。只有了解它的来龙去脉,把自己的脚放到当时那些科学家的鞋子里,才能理解前人做出的决定。


开始之前先做一个友情提示:这三个概念是指两个基因或是两条序列之间的关系,没有单独哪个基因能说自己是个同源基因哈。类似好朋友是一种关系,你会说我跟谁谁谁是好朋友,你不会说,我是一个好朋友,朋友,友...


1. 定义:

- Homologs(同源基因): 强调shared ancestry,即来自共同祖先的基因或蛋白,甚至性状。


- Orthologs(直系同源基因): homolog的一种。在两个物种形成之前,是它们共同祖先里面的一个基因,跟着新主子去了新形成的物种,之后可能各自有一些不同的变化。是不同物种里的相同基因。


- Paralogs(旁系同源基因): 也是homolog的一种。是gene duplication的产物。可以存在同一个基因组里,也可以存在不同的物种里。根据gene duplication跟speciation的先后顺序,可以是in-paralogs(speciation在前,gene duplication在后),这种只能是在同一个基因组里。如果是gene duplication在前,speciation在后,叫做out-paralogs,这种可能在同一个基因组,也有可能不在。


是不是看到这里头已晕...


好,关门,上图!



从前有一个物种S,species的S,它有一个基因叫g,gene的g。


有一天,g在复制的时候发生了duplication,变成了g1和g2。


随着时间的推移,g1跟g2越来越不一样了。


慢慢的,S变成了两个物种,A和B。A里面还是有从S那里继承下来的g1和g2,现在我们叫它们g1a和g2a。


B呢,也从S那里继承下来了g1和g2,叫做g1b和g2b。


有一天,g2b也发生了duplication, 变成了g2b1和g2b2。


沧海桑田,时过境迁,g, g1, g2, g2b都已不在人世,谁也不知道它们是否真的存在过。我们现在只能看到g1a, g2a, g1b, g2b1和g2b2。


那么问题来了,这一群基因究竟是啥关系呢?


IMG_1752.jpg


它们五个都来自共同的祖先g, 所以它们彼此之间都是homolog关系。


g1a跟g1b都是来自g1,所以它们是ortholog。g2a跟g2b1,g2a跟g2b2都来自g2,所以这两对也是ortholog。注意,虽然g2b1跟g2b2都来自g2b​,但是它俩现在还在一个物种内,所以它们不是ortholog。​


paralog通常存在一个物种内。如刚才提到的g2b1和g2b2。由于它俩属于speciation在前,duplication在后,叫做in-paralogs(复制是B这个物种的内部事件,是为in)。


再看g1a和g2a这对paralogs,是duplication在前(g变成了g1和g2),speciation在后,所以属于out-paralogs。同理,g1b和g2b1,以及g1b和g2b2也属于out-paralogs,因为虽然g2b的duplication在speciation之后,但g1b并没有duplicate,所以g1b和g2b1,以及g1b和g2b2之间的联系,还是要追溯到g复制成g1和g2的时刻,所以仍属于duplication在前,speciation在后。


物种间也存在paralogs,比如g1a跟g2b1或b2,g2a跟g1b,且都是duplication在前,仍属于out-paralogs(都不在一个物种内了,肯定不是in了)。这种情况较难判定,故下图并未标示。


总结起来如下图:


homologs-paralogs-orthologs-Notes-This-figure-illustrates-speciation-and-duplication.png


好了,定义大概搞清楚了,那么搞这么些罗格斯,到底有什么意义呢?


2. 生物学意义

- Homologs: 同源基因通常来讲比较保守。你想啊,在很多物种里面,又可能还是亲缘关系不那么近的物种里面都有,那肯定是有什么了不得的本事,没法取代。

- Orthologs: 直系同源基因是由speciation造成的。可能样子已经不完全一样,但功能一致或及其相似。可以想见,两个ortholog之间的差异,其实就是两个物种在进化树上分道扬镳之后的差异。于是经常用来重构系统发育关系。

- paralogs: 旁同源基因功能大多相同或相似,不一样的也不少。因为在基因加倍之后,可能有一个能干活就行了,另外那个就可以摸鱼放羊,自由生长,慢慢的喜欢上了其他职业,改行了。所以基因加倍是一种主要的进化创新材料来源,而旁系同源基因则是我们窥探基因组进化的重要窗口。然而在构建系统树的时候就很碍眼了,时常伪装成直系同源基因,需要火眼金睛将它们拎出来。  


3. 检测手段

- Homologs: 一定长得像(必要),但是长得像的不一定是(但不充分)。比如长一点的可能是趋同进化(convergent evolution),短一点的就纯属巧合。这个判定起来简单,就是靠序列的相似性(sequence similarity)。


但如何在一群homologs里面判定谁跟谁是orthologs,谁又跟谁是paralogs呢?你可能意识到,今天的重头戏才刚刚开始。


嗯。。。


那要不明天再讲吧!今天先休息,休息一下(已躺平)。


转载本文请联系原作者获取授权,同时请注明本文来自范欢科学网博客。

链接地址:https://m.sciencenet.cn/blog-257922-1292598.html?mobile=1

收藏

分享到:

当前推荐数:2
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?