科学网

 找回密码
  注册

tag 标签: 进化树

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

进化树猜想
热度 19 小水獭 2017-1-28 12:09
现在地球上所有的生物,都可以追溯到同一个祖先。因此,许多人类的功能、疾病可以在小鼠甚至线虫、果蝇上进行研究。而我一直有一个猜想,是不是在最初的时候,有很多个“种子”,而只有一个的子孙后代演化成为了现在地球上的所有的生物。也就是说,进化树不是只有一棵,而是一个树林,而其中只有一棵树长成了参天大树,其他都夭亡了。 而这棵树新长出来的分支,就占据了其他小树的生态位。而在以后的岁月里,这棵优势树上出现了同样的情况,即有些分支先繁荣了,又灭绝了,而它们所占据的生态位,被别的分支新长出来枝丫所占据…… 2017 年年初,我买了一个 wacom 影拓数位板,这幅图就是用数位板画出来了,非常好用,我喜欢!
个人分类: 活色生香de生物科学|9482 次阅读|34 个评论
构建基因家族进化树答疑
zls111 2014-12-9 22:12
刚才有个同学咨询构建进化树问题。 觉得有代表性,贴出来供大家参考。 感谢您及时回复我的邮件。由于我之前在构建进化树方面曾经遇到一些困难,所以我在看到您的文章之后,想从网上把您构建进化的序列下载下来详细学习,所以遇到以下几个问题: 1) Fig.1 中所用到的构建进化树的序列,并不是所有您在 Table 1 中所展示的物种中的序列,所以我想请问您 Fig.1 中所用到的物种的序列,是基于分类关系所选择还是基于进化树所选择 ? 选择代表性物种,是基于分类关系。 Ps:这里fig1等是指我最近发表的文章。见前面一篇博客。 2) 您在构建这个进化树的时候用到的是氨基酸全长序列,但是也有些文章中的用的 Domain 序列,应该如何选择 ? 如果序列不是很多,比如几百条,建议用全长。 还有就是序列不是太保守,要是序列之间相似度不高,只有 domain 相似度比较高,可能用 domain 比较好。 大多用全长挺好的。 3)我之前也曾基于已经公布的植物基因组数据,使用 HMMER 软件通过 domain 的编号来寻找蛋白质氨基酸序列,并构建进化树,但是所得到的进化树, 无论是用全长序列还是 domain 序列,在主要分支上的支持率都比较低( Mrbayes 、 ML 、 NJ ),也曾结合 protest 软件选择最佳模型来构建发育树,但是结果也是不理想,您能给我一些好的建议吗? 序列比对完之后,你稍微看下你比对的结果,一些序列有明显差异的,就给去掉。 另外一个办法,你做个 NJ 树,看看是不是有些序列跟谁也聚集不在一起,把这个序列删掉。 在这个之后,你再画树看看。 另外,就是你选择代表性物种,不要弄很多。 树不一定要支持度高就是好,,有的基因树本来就是那个样子,,哪就是那个样子。 做树一般是进行分类,大多的树都是能把类分的清楚。 树是重构进化历史而已,能说明你想的问题就行。
个人分类: 读文章笔记|18254 次阅读|0 个评论
[转载]进化树构建方法(转载)
yudaoqian88 2014-11-27 22:43
特别提示:本博文由bio100撰写,内容转自: http://bbs.bbioo.com/thread-42602-1-1.html 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990 ;1997 )。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“”符号开始,后面是序列的名称、说明等,其中“”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。 这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义): gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 |||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58 Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 || ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118 Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似; Expect:比对的期望值。比对越好,expect越小,一般在核酸层次的比对,expect小于1e-10,就比对很好了,多数情况下为0; Identities:提交的序列和参比序列的相似性,如上所指为1497个核苷酸中二者有1382个相同; Gaps:一般翻译成空位,指的是对不上的碱基数目; Strand:链的方向,Plus / Minus意味着提交的序列和参比序列是反向互补的,如果是Plus / Plus则二者皆为正向。 1.2 序列格式:FASTA格式 由于EMBL和GenBank数据格式较为复杂,所以为了分析方便也出现了十分简单的FASTA数据格式。FASTA格式又称为Pearson格式,该种序列格式要求序列的标题行以大于号“”开头,下一行起为具体的序列。一般建议每行的字符数不超过60或80个,以方便程序处理。多条核酸和蛋白质序列格式即将该格式连续列出即可,如下所示: E.coli 1 aaattgaaga gtttgatcat ggctcagatt gaacgctggc ggcaggccta acacatgcaa 61 gtcgaacggt aacaggaaga agcttgcttc tttgctgacg agtggcggac …… AY631071 Jiangella gansuensis YIM 002 1 gacgaacgct ggcggcgtgc ttaacacatg caagtcgagc ggaaaggccc tttcgggggt 61 actcgagcgg cgaacgggtg agtaacacgt gggtaacctg ccttcagctc tgggataagc …… 其中的‘’为Clustal X默认的序列输入格式,必不可少。其后可以是种属名称,也可以是序列在Genbank中的登录号(Accession No.),自编号也可以,不过需要注意名字不能太长,一般由英文字母和数字组成,开首几个字母最好不要相同,因为有时Clustal X程序只默认前几位为该序列名称。回车换行后是序列。将检测序列和搜索到的同源序列以FASTA格式编辑成为一个文本文件(例:C:\temp\jc.txt),即可导入Clustal X等程序进行比对建树。 2. 构建系统树的相关软件和操作步骤 构建进化树的主要步骤是比对,建立取代模型,建立进化树以及进化树评估。鉴于以上对于构建系统树的评价,结合本实验室实际情况,以下主要介绍N-J Tree构建的相关软件和操作步骤。 2.1 用Clustal X构建N-J系统树的过程 (1) 打开Clustal X程序,载入源文件. File-Load sequences- C:\temp\jc.txt. (2) 序列比对 Alignment - Output format options - √ Clustal format; CLUSTALW sequence numbers: ON Alignment - Do complete alignment (Output Guide Tree file, C:\temp\jc.dnd;Output Alignment file, C:\temp\jc.aln;) Align → waiting…… 等待时间与序列长度、数量以及计算机配置有关。 (3) 掐头去尾 File-Save Sequence as… Format: ⊙ CLUSTAL GDE output case: Lower CLUSTALW sequence numbers: ON Save from residue: 39 to 1504 (以前后最短序列为准) Save sequence as: C:\temp\jc-a.aln OK 将开始和末尾处长短不同的序列剪切整齐。这里,因为测序引物不尽相同,所以比对后序列参差不齐。一般来说,要“掐头去尾”,以避免因序列前后参差不齐而增加序列间的差异。剪切后的文件存为ALN格式。 (4) File-Load sequences-Replace existing sequences?-Yes- C:\temp\jc-a.aln 重新载入剪切后的序列。 (5) Trees-Output Format Options Output Files : √ CLUSTAL format tree √ Phylip format tree √ Phylip distance matrix Bootstrap labels on: NODE CLOSE Trees-Exclude positions with gaps Trees-Bootstrap N-J Tree : Random number generator seed(1-1000) : 111 Number of bootstrap trails(1-1000): 1000 SAVE CLUSTAL TREE AS: C:\temp\jc-a.njb SAVE PHYLIP TREE AS: C:\temp\jc-a.njbphb OK → waiting…… 等待时间与序列长度、数量以及计算机配置有关。在此过程中,生成进化树文件*.njbphb,可以用TreeView打开查看。 (6) Trees-Draw N-J Trees SAVE CLUSTAL TREE AS: C:\temp\jc-a.nj SAVE PHYLIP TREE AS: C:\temp\jc-a.njph SAVE DISTANCE MATRIX AS: C:\temp\jc-a.njphdst OK 此过程中生成的报告文件*.nj比较有用,里面列出了比对序列两两之间的相似度,以及转换和颠换分别各占多少。 (7) TreeView File-Open-C:\temp\jc-a.njbphb Tree- phylogram(unrooted, slanted cladogram,Rectangular cladogram多种树型) Tree- Show internal edge labels (Bootstrap value)(显示数值) Tree- Define outgroup… → ingroup outgroup → OK(定义外群) Tree- Root with outgroup 通常需要对进化树进行编辑,这时首先要Edit-Copy至PowerPoint上,然后Copy至Word上,再进行图片编辑。如果直接Copy至Word则显示乱码,而进化树不能正确显示。 2.2 Mega建树 虽然Clustal X可以构建系统树,但是结果比较粗放,现在一般很少用它构树,Mega因为操作简单,结果美观,很多研究者选择用它来建树。 (1) 首先用Clustal X进行序列比对,剪切后生成C:\temp\jc-a.aln文件;(同上) (2) 打开BioEdit程序,将目标文件格式转化为FASTA格式, File-Open- C:\temp\jc-a.aln, File-Save As- C:\temp\ jc-b.fas; (3) 打开Mega程序,转化为mega格式并激活目标文件, File-Convert To MEGA Format- C:\temp\ jc-b.fas → C:\temp\ jc-b.meg, 关闭Text Editor窗口-(Do you want to save your changes before closing?-Yes); Click me to activate a data file- C:\temp\jc-b.meg-OK- (Protein-coding nucleotide sequence data?-No); Phylogeny-Neighbor-Joining(NJ) Distance Options-Models-Nucleotide: Kimura 2-parameter; √d: Transitions+Transversions; Include Sites-⊙Pairwise Deletion Test of Phylogeny-⊙Bootstrap; Replications 1000; Random Seed 64238 OK;开始计算-得到结果; (4) Image-Copy to Clipboard-粘贴至Word文档进行编辑。 此外,Subtree中提供了多个命令可以对生成的进化树进行编辑,Mega窗口左侧提供了很多快捷键方便使用;View中则给出了多个树型的模式。下面只介绍几种最常用的: Subtree-Swap:任意相邻两个分支互换位置; -Flip:所选分支翻转180度; -Compress/Expand:合并/展开多个分支; -Root:定义外群; View-Topology:只显示树的拓扑结构; -Tree/Branch Style:多种树型转换; -Options:关于树的诸多方面的改动。 2.3 TREECON 打开Clustal X,File-Load sequences-jc-a.aln,File-Save Sequence as…(Format-PHYLIP;Save from residue-1 to 末尾;Save sequence as : C:\temp\jc.phy); 打开TREECON程序, (1) Distance estimation 点击Distance estimation-Start distance estimation,打开上面保存的jc.phy文件,Sequence Type-Nuleic Acid Sequence,Sequence format-PHYLIP interleaved,Select ALL,OK; Distance Estimation-JukesCantor(or Kimura),Alignment positions-All,Bootstrap analysis-Yes,InsertionsDeletions-Not taken into account,OK; Bootstrap samples-1000,OK;运算,等待…… Finished-OK。 (2) Infer tree topology 点击Infer tree topology-Start inferring tree topology,Method-Neighbor-joining, Bootstrap analysis-Yes,OK.;运算,等待…… Finished-OK。 (3) Root unrooted trees 点击Root unrooted trees-Start rooting unrooted trees,Outgroup opition-single sequence(forced),Bootstrap analysis-Yes,OK; Select Root-X89947,OK;运算,等待…… Finished-OK。 (4) Draw phylogenetic tree 点击Draw phylogenetic tree,File-Open-(new) tree,Show-Bootstrap values/ Distance scale。 File-Copy,粘贴至Word文档,编辑。 TREECON的操作过程看起来似乎较MEGA烦琐,且运算速度明显不及MEGA,如果参数选择一样,用它构建出来的系统树几乎和MEGA构建的完全一样,只在细节上,比如Bootstrap值二者在某些分支稍有不同。在参数选择方面,TREECON和MEGA也有些不同,但总体上相差不大。 2.4 PHYLIP PHYLIP是多个软件的压缩包,下载后双击则自动解压。当你解压后就会发现PHYLIP的功能极其强大,主要包括五个方面的功能软件:i,DNA和蛋白质序列数据的分析软件。ii,序列数据转变成距离数据后,对距离数据分析的软件。 iii,对基因频率和连续的元素分析的软件。iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。v,按照DOLLO简约性算法对序列进行分析的软件。vi,绘制和修改进化树的软件。在此,主要对DNA序列分析和构建系统树的功能软件进行说明。 (1) 生成PHY格式文件 首先用Clustal X等软件打开剪切后的序列文件C:\temp\jc-a.aln另存为C:\temp\jc.phy(使用File-Save Sequences As命令,Format项选“PHY”)。用BioEdit或记事本打开(2) 打开Phylip软件包里的SEQBOOT seqboot.exe: can't find input file infile Please enter a new file name C:\temp\jc.phy 按路径输入刚才生成的 *.PHY文件,显示如下: Bootstrapping algorithm, version 3.6a3 Settings for this run: D Sequence, Morph, Rest., Gene Freqs? Molecular sequences J Bootstrap, Jackknife, Permute, Rewrite? Bootstrap B Block size for block-bootstrapping? 1 regular bootstrap R How many replicates? 100 W Read weights of characters? No C Read categories of sites? No F Write out data sets or just weights? Data sets I Input sequences interleaved? Yes 0 Terminal type IBM PC, ANSI, none none 1 Print out the data at start of run No 2 Print indications of progress of run Yes Y to accept these of type the letter for one to change R Number of replicates? 1000 0 Settings for this run: D Sequence, Morph, Rest., Gene Freqs? Molecular sequences J Bootstrap, Jackknife, Permute, Rewrite? Bootstrap B Block size for block-bootstrapping? 1 regular bootstrap R How many replicates? 1000 W Read weights of characters? No C Read categories of sites? No F Write out data sets or just weights? Data sets I Input sequences interleaved? Yes 0 Terminal type IBM PC, ANSI, none IBM PC 1 Print out the data at start of run No 2 Print indications of progress of run Yes Y to accept these of type the letter for one to change Y Random number seed (must be odd)? 5(any odd number) completed replicate number 100 completed replicate number 200 completed replicate number 300 completed replicate number 400 completed replicate number 500 completed replicate number 600 completed replicate number 700 completed replicate number 800 completed replicate number 900 completed replicate number 1000 上面的D、J、R、I、O、1、2代表可选择的选项,键入这些字母后敲回车键,程序的条件就会发生改变。D选项无须改变。J选项有三种条件可以选择,分别是Bootstrap、Jackknife和Permute。R选项让使用者输入republicate的数目。所谓republicate就是用Bootstrap法生成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的republicate。当我们设置好条件后,键入Y按回车。得到一个文件outfile:C:\Program Files\Phylip\exe\ outfile. 重命名outfile→infile。 (3) 打开dnadist.exe Nucleic acid sequence Distance Matrix program, version 3.6a3 Settings for this run: D Distance F84, Kimura, Jukes-Cantor, LogDet? F84 G Gamma distributed rates across sites? No T Transition/transversion ratio? 2.0 C One category of substitution rates? Yes W Use weights for sites? No F Use emperical base frequencies? Yes L Form of distance matrix? Square M Analyze multiple data sets? No I Input sequences interleaved? Yes 0 Terminal type IBM PC, ANSI, none? none 1 Print out the data at start of run No 2 Print indications of progress of run Yes Y to accept these of type the letter for one to change d D Distance F84, Kimura, Jukes-Cantor, LogDet? Kimura 2-parameter m Multiple data sets or multiple weighs? (type D or W) d How many data sets? 1000 0 Settings for this run: D Distance F84, Kimura, Jukes-Cantor, LogDet? Kimura 2-parameter G Gamma distributed rates across sites? No T Transition/transversion ratio? 2.0 C One category of substitution rates? Yes W Use weights for sites? No F Use emperical base frequencies? Yes L Form of distance matrix? Square M Analyze multiple data sets? Yes, 1000 data sets I Input sequences interleaved? Yes 0 Terminal type IBM PC, ANSI, none? IBM PC 1 Print out the data at start of run No 2 Print indications of progress of run Yes Y to accept these of type the letter for one to change Y 选项D有四种距离模式可以选择,分别是Kimura 2-parameter、Jin/Nei、Maximum-likelihood和Jukes-Cantor。选项T一般键入一个1.5-3.0之间的数字。选项M键入1000。运行后生成文件C:\Program Files\Phylip\exe\ outfile。 重命名outfile→infile。 (4) 打开 neighbor.exe Neighbor-Joining/UPGMA method version 3.6a3 Settings for this run: N Neighbor-Joining or UPGMA tree? Neighbor-Joining O Outgroup root? No, Use as outgroup species 1 L Lower-triangular data metrix? No R Upper-triangular data metrix? No S Subreplication? No J Randomize input order of species? No, Use input order M Analyze multiple data sets? No 0 Terminal type IBM PC, ANSI, none? none 1 Print out the data at start of run No 2 Print indications of progress of run Yes 3 Print out tree Yes 4 Write out trees onto tree file? Yes Y to accept these of type the letter for one to change m How many data sets? 1000 Random number seed (must be odd)? 5 Settings for this run: N Neighbor-Joining or UPGMA tree? Neighbor-Joining O Outgroup root? No, Use as outgroup species 1 L Lower-triangular data metrix? No R Upper-triangular data metrix? No S Subreplication? No J Randomize input order of species? Yes random number seed = 1 M Analyze multiple data sets? Yes, 1000 sets 0 Terminal type IBM PC, ANSI, none? IBM PC 1 Print out the data at start of run No 2 Print indications of progress of run Yes 3 Print out tree Yes 4 Write out trees onto tree file? Yes Y to accept these of type the letter for one to change Y 生成文件C:\Program Files\Phylip\exe\ outtreeoutfile。 重命名outtree→intree;outfile→infile。 2.4.5 打开consense.exe Consensus tree program, version 3.6a3 Settings for this run: C Consensus type MRe, strict, MR, MI? Majority rule (extended) O Outgroop root? No, use as outgroup species 1 R Trees to be treated as Rooted? No T Terminal type IBM PC, ANSI, none? none 1 Print out the sets of the species Yes 2 Print indications of progress of run Yes 3 Print out tree Yes 4 Write out trees onto tree file? Yes Are these settings correct? type Y or the letter for one to change R T Settings for this run: C Consensus type MRe, strict, MR, MI? Majority rule (extended) R Trees to be treated as Rooted? Yes T Terminal type IBM PC, ANSI, none? IBM PC 1 Print out the sets of the species Yes 2 Print indications of progress of run Yes 3 Print out tree Yes 4 Write out trees onto tree file? Yes Y 生成文件C:\Program Files\Phylip\exe\ outtree。 重命名outtree→ jc.tre。 2.4.6 打开TreeView 打开C:\Program Files\Phylip\exe\ jc.tre。以下操作参照前述详细说明即可。
2654 次阅读|0 个评论
划时代的生命三域说:真理 or 谎言?
热度 22 Wildbull 2014-7-9 15:32
逻辑上来说,如果能找到一种生物体内普遍存在的分子,而且这种分子的变化十分缓慢且遵循一种时序性的变化规则(类似时钟),就有可能用于分析所有生物类群的进化关系,即描绘出系统进化之树。在过去的半个世纪,不计其数的生命科学家开始追寻这一神圣的幻影,而正是一个称之为三域说的“划时代”理论拉开了这曲大戏的序幕。人们视其为救命稻草,因为对微小而结构简单的原核生物来说,厘清进化关系无比困难,由于难以找到在形态上可以辨识的化石记录。 一、“三域”说横空出世 1. “神奇”的时钟分子 Zuckerkandland Pauling (1962)通过比较不同生物世系的同一血红蛋白(hemoglobin)分子的氨基酸排列顺序发现,氨基酸随着时间的推移大致以一定的比例相互置换着,即氨基酸在单位时间以同样的速度进行置换。他们将这样的观察一般化之后,提出了所谓的分子钟(Molecular clock)假说,即基因或蛋白质的序列随时间的推移以相对恒定的速率变化,而且同一基因或蛋白的变化速率在不同世系的有机体中大约一致。 1968 年,日本学者木村资生提出了所谓的分子演化中性学说(neutral theory of molecular evolution),该学说有两个要点,其一,大部分突变都是中性的(即对生物的演化适应性并无实际作用,它们既不会被自然选择促进,也不会被抑制),它们要么逐步扩散到整个种群,要么通过“基因漂移”的随机过程而消失,但大部分中性突变被固定下来了;其二,每一种大分子在不同生物中的变化速度都是一样的(Kimura 1968)。可以认为,中性学说是分子钟假说的一种延伸。 依笔者之见,分子钟或中性理论的倡导者与达尔文一样都关注随机变异(当然前者在分子水平,后者在表型水平),只不过前者对不受自然选择作用的那些变异感兴趣,而后者则关注受到“自然”选择作用的那些变异;可是,任何水平的变异既具有随机性,又不可能完全随机,而分子钟或中性理论的信奉者就是要找出既普遍存在又逃脱了达尔文选择的神奇分子,或者说一个普适性存在且完全不受达尔文选择影响的分子就是他们梦幻中的时钟分子。当然,这样的分子还必须具有足够的复杂性,以便容纳相当大的时序性变异,而过于简单的分子是不可能作为这种时钟分子的。人们能找到满足如此苛刻条件的时钟分子吗? 2. “美丽”的进化之树 20 世纪七十年代,美国著名的微生物学家Woese(1928年-2012年)声称找到了一个可以作为时钟的神奇分子—16S rRNA(在真核生物中为18S rRNA)。Woese和Fox(1977)通过距离矩阵法,计算出不同序列之间的进化距离(还揭示出一些特征序列),最后构建出一般的系统发育树,勾画出了现代生物类群的相对进化路线与位置( 图1 )。在树的基部,古细菌与真核生物分化自一个共同的祖先(未知),而古细菌—真核生物与细菌拥有一个共同祖先,它是系统树最基部的一个节点,但谁是共同祖先却是个未解之谜。 图1 通过核糖体小亚基的rRNA序列构建的系统发育树,包括三个域—细菌、古细菌和真核生物,超嗜热菌中硫代谢的类型予以了标识(引自Noll Childers 2000) 在原核生物的分类中,由于结构过于简单,无法像动植物那样建立基于形态学的分类体系,因此,传统上也主要以生化特征作为鉴别的重要依据。由于核糖体RNA的结构具有较好的保守性,因此在原核生物的大类群的区分方面备受重视。这就是为何Woese的方法得到极大的青睐(不光在微生物领域,而且也在真核生物领域)并一直沿用至今的缘由。但遗憾的是,在解决关于生命起源的问题上,它好像派不上什么用场,因为在基部类群的问题上,没有任何其它可信的时序性证据能够予以辅佐。 3. “惊人”的三域理论 Woese 和Fox(1977)比较了大肠杆菌、万氏甲烷菌和酿酒酵母的核糖体小亚基中的rRNA的结构(如图11-2所示),认为可以将古菌看作从细菌到真核的酵母菌的一种过渡类型。因此,他们提出了将古菌从细菌中分离出来以作为一个与细菌和真核生物并列的一个独立的域,这是一个惊人之举!之后,很多人也就习惯这样去想,古细菌在进化上是连接细菌与真核生物的桥梁。 像域这样的大的分类概念似乎也没有一个客观的判断标准,而更像是一种主观的界定、规定或划分。不停地推出一些新的生命类型或体系也是分类家的一种普遍嗜好!譬如,从 图2 的结构比较,如何才能有一种不同域的感受呢?域到底意味着什么呢? 图2 区分生命为三个域的核糖体小亚基中的rRNA的关键结构差异(引自Woese 1987) 二、为古菌域“站台” 除了核糖体小亚基中的rRNA在结构上呈现出一定的过渡性(细菌→古菌→真核生物),是否还有其它证据呢?或者说,古菌是怎样特殊的一个生物类群而值得将它们作为一个不同的域呢? 古菌最早发现于一些极端环境,如火山温泉( 图3A 为黄石国家公园的大棱镜温泉),它也存在于深海热液喷口( 图3B )。现已知道,古菌多是一些嗜极种类,常常生存于一些极端环境,如100 ℃ 的温泉、盐湖、强酸或强碱性水体或动物的消化道之中。 譬如,一种古生菌—硫化叶菌 ( Sulfolobus )是化能营养菌,它既嗜酸(最适pH值为2~3),也嗜热(最适生长温度为70~75℃)。但是,古菌也广泛栖息于土壤、海洋和沼泽等十分多样的生境之中。需要指出的是,能够在类似极端环境中生存的也不仅仅只有古菌。 古菌不仅仅限于极端环境,甚至同一类古菌在生存环境上也有很大的可塑性。譬如隶属于宽广古生菌门的产甲烷菌(Methanogenus)包括4目12科31属,它们为专性厌氧菌,但具有宽广的温度适应范围:低温菌为20 ~ 25 ℃,中温菌为30 ~ 45 ℃,高温菌为45 ~ 75 ℃。 图3地面热泉(A)和深海热液喷口或“黑烟囱”(B)(来源:A-维基百科,B- The Daily Galaxy ) 表1 就是对细菌、古菌和真核生物在形态、遗传与生理特征的比较。总的来看,古菌在能量产生与新陈代谢方面与细菌有许多相同之处,而其复制、转录和翻译则更接近真核生物。 古菌的能量来源从有机物糖类到氨直到氢气,但是没有一种古菌能像蓝细菌和高等植物那样能进行固定CO 2 的光合作用,虽然少数古菌 (极端嗜盐古菌 Halobacterium salinarum )能利用光能合成 ATP (因此,也能称得上是一种光合作用),但它依靠一种特殊的色素蛋白复合体分子—细菌视紫质来创造膜内外的 H + 梯度,使 ATP 合成酶得以运转 。但是这也不是古菌的专利,也被真细菌所用。因此,要说有什么不同,就是古菌不能靠叶绿素或细菌叶绿素来进行光合作用。但问题是在细菌中也存在类似的现象。 之前,在古菌中从未报道过存在细菌叶绿素a的生物合成,因为它们并不进行依赖与细菌叶绿素的光合作用。但是,最近Meng等(2009)在古菌中发现了一种细菌叶绿素a合成基因(bacteriochlorophyll a synthase gene)。可问题是,这样的基因到底是本来就有的呢还是从其它光合细菌通过水平转移(horizontal transfer)而来的呢?如果相信前者,就只好假定古菌本来是能够进行利用叶绿素或细菌叶绿素的光合作用的,到后来逐渐退化,最终就只在少数种类中还残留了个别不发挥作用的细菌叶绿素a基因。但实际上到底是何种途径也无法确定。 表1 三域(细菌、古菌和真核生物)特征的比较 特征 细菌 Bacteria 古菌 Archaea 真核生物 Eukarya 形态和遗传 原核 细胞结构 是 是 否 共价闭合环状 DNA 是 是 否 组蛋白 无 有 有 被 膜 包围的 核 无 无 有 细胞壁 含 胞壁酸 不含胞壁酸 不含胞壁酸 膜脂质 酯 键连接 醚 键连接 酯键连接 核糖体 大小 70 S 70S 80S 起始 tRNA 甲酰蛋氨酸 蛋氨酸 蛋氨酸 多数 基因 中有 内含子 否 否 是 操纵子 有 有 无 mRNA 加 5' 端帽 和 3' 聚 A 尾 无(部份有 聚 A 尾 ,但作用与真核不同) 无 有 质粒 有 有 稀少 核糖体对 白喉毒素 敏感 否 是 是 RNA 聚合酶 1 个( 4 亚基 ) 几个(各 8~14 亚基) 3 个(各 12~14 亚基) 需要 转录因子 否 是 是 启动子 结构 -10 和 -35 序列( Pribnow 盒 ) TATA 盒 TATA 盒 对 氯霉素 、 链霉素 和 卡那霉素 敏感 是 否 否 生理 产甲烷作用 无 有 无 还原 S 或 SO 4 2- 到 H 2 S ,或 Fe 3+ 到 Fe 2+ 有 有 无 硝化 有 有 无 脱氮 有 有 无 固氮 有 有 无 基于 叶绿素 的 光合作用 有 无 有(在 叶绿体 中) 基于 视紫红质 的能量代谢 有 有 无 化能营养 ( Fe, S, H 2 ) 有 有 无 气泡 有 有 无 聚 -β- 羟基脂肪酸 作为碳储存颗粒 有 有 无 在 80 ℃ 以上生长 有 有 无 在 100 ℃ 以上生长 无 有 无 (引自Madigan and Martinko 2006) 从表1不难看出,与真核生物相比,原核的细菌和古菌在与能量代谢和碳代谢相关的生理功能上要丰富多样得多,或者换句话说,在基础代谢方面,细菌和古菌表现出了惊人的可塑性,而真核植物看似只选择了基于叶绿素的光合作用这一条进化之路,虽然它是如此的宽广与自由! 古菌在膜脂的结构上与细菌和真核生物也有一定差异。古菌膜脂由分枝碳氢链和D型磷酸甘油通过醚键相连而成,而在细菌和真核生物中,则是由不分枝脂肪酸和L型磷酸甘油通过脂键连接而成。细菌和真核生物的细胞膜由双层类脂构成,但一些嗜热古菌的双层类脂出现了共价交联,形成了结实的疏水层(变成了一种两端亲水的单脂层),这种结构增强了膜的机械强度和耐热性。 此外,嗜热古菌的双链DNA结构也呈现出较好的稳定性,譬如,大部分嗜热古菌的生长上限温度和DNA中G+C含量之间存在正相关关系。在DNA双链中,G和C是以三个氢键相连,而T和A只以两个氢键相连,而氢键的多少体现连接的能量,即氢键越多,解链能量需要越多。因此,古菌DNA中的G+C含量越高,解链温度也越高,对高温和碱的耐受性也越强。 但是,需要指出的是,一些嗜热古菌在细胞膜结构和核酸成分上的这种热适应性与系统发生真的有必然的关系吗?这能反映时序性的物种演化过程吗?还有其它证据来佐证吗? 三、醉人的幻想? 1. 吻合之梦—在反证中淬灭 基于核糖体小亚基中的rRNA序列构建的一般系统树果真如此完美吗?绝对不是!一些学者指出了可能存在的一些问题。首先,进化事件发生的准确时间是不可能从进化树来获知的,虽然很多人试图这样做,其次,序列的变化也很难与时间准确相关,因为不同世系的进化钟也不是恒定的;还有,仅仅依据一种分子的序列,也无法从进化树中找出现代世系的共同祖先(Pace 1997)。 不同类群序列的比对如何能够决定它们进化时间的先后呢?当然,如果有一些其它证据(如化石)的帮助还是有可能的。但是,对于生命起源早期出现的一些无法留下化石痕迹的微小的单细胞原核生物来说,基于这种序列的比对是根本无法推测出进化的时间先后的。谁有证据能确认产液菌是细菌中最古老的呢?谁能说化能营养就一定比光能营养起源早呢?从序列本身,再怎么比较,也不会产生时间先后的概念。对这个神化的rRNA分子来说,是什么引起了它的缓慢变化的呢?仅仅是缘于时间的随机变化吗?难道生存环境不可以引起它的变化吗?如果既有时间的影响又有环境的影响,那如何才能将它们分离开来呢? 谁能保证一种分子的变异能建立起所有的进化关系呢?以细胞色素C为例吧,这是一类对“分子钟”概念的提出起到过关键作用的分子,它既复杂、又广泛分布(作为电子载体存在于几乎所有的生物类群之中)且变异也十分缓慢,看上去十分符合理想时钟分子的条件。但是,雅荷雅(2003)指出,一些研究表明,这种分子在生物中表现出难以置信的变异:两种不同爬虫间的差异,要比鸟跟鱼或鱼跟哺乳动物的大,同一鸟类分子间的差异,比这类鸟与哺乳动物的还要大,此外,看上去相似的细菌,在分子中的差异,要比哺乳动物、两栖动物或昆虫的大。类似的例子应该举不胜数! 最近通过对一种能在接近沸点温度下生长的超嗜热菌( Aquifex aeolicus )的基因组序列测定发现:①如果用FtsY(参与细胞分裂调控的蛋白质)作为分子记时器,该菌与Woese进化树上位于细菌分枝的枯草芽孢杆菌(一种土壤细菌)相近;②如果以一种参与色氨酸合成的酶为准,该菌应属于古菌;③如果选择合成胞苷三磷酸的酶时,则古菌不再形成独立的一群。因此,不同的基因似乎在讲述不同的进化故事,而这不同的故事也似乎与进化的时序性并不那么紧密相关。 Denton (1985)指出,“在分子水平上的每一生物种类是独特、孤立的,并且与任何媒介没有关联。因此,像化石一样,分子没有给长期寻找难懂的中间形式的进化论生物学家以证据……。在分子水平上,任何生物体没有可以比作‘祖先’、‘原始’或‘高级’的亲缘关系……。无疑,如果这些分子证据在一个世纪以前存在的话……器官进化的观念也许根本不会存在”。 再回到16srRNA(或18srRNA),难道它们果真如此神奇吗?笔者认为,如果没有绝对时间的进化矫正,它们充其量只能在有限的范围中提供一种系统发育关系或进化的极为有限的参考,对共同祖先周围的基部类群尤其如此。 2. 基因搅局—转移与丢失 生命的系统树还面临一些其它的棘手问题。譬如,不同物种之间的基因水平转移(Horizontal gene transfer)可能使现在的系统树相互交叉(这在结构简单的原核生物中更是问题)。此外,像在一些真核生物(如寄生虫)中发生的基因丢失现象难道就不在原核生物中发生吗?再就是关于真核生物的起源问题,这依然是生命科学的最大谜团之一。但目前至少在一些真核生物细胞器的起源问题上基本达成了共识,即按照内共生学说,线粒体可能起源自好氧的变形菌门细菌,而叶绿体则起源自蓝细菌,这些细胞器有单独的基因组,但一些蛋白(如在叶绿体内)的合成仍然依赖于核基因,这表明了细胞器基因组与核基因组之间存在整合或交换,这其实与基因的水平转移并无本质差别。从根本上说,基因的水平转移、复制、丢失等就是一种谱系痕迹的改写、擦除或毁灭过程。 此外,系统树的准确性似乎还受到体制可塑性的影响。体制可塑性越大的生物类群(简单的原核生物),在系统树中就越有可能是盘根错节的,而体制可塑性越小的生物(复杂的真核生物)在系统树中就越有可能是泾渭分明的。因此对变异速度快的原核生物来说,现存的系统树可能根本反应不了什么真正的演化关系,说不定充其量只是现存原核生物的基于分子结构相似性的一种归类而已。 3. 自乱方寸—乏力的辩解 20 世纪70年代,Woese利用核糖体小亚基的rRNA序列构建了现代生命的系统发育树,但也没能解决共同祖先的起源问题,随着微生物基因组数据的日益增多,人们对基因水平转移对谱系痕迹的可能影响日益担忧,也开始怀疑用这样的分子序列构建的系统发育树是否真正可靠。 为此,Woese(2002)提出了一种新的假说,认为生命伊始之际,至少存在三种结构简单而松散的细胞组织形式,它们在同一个环境中生存与进化,通过基因交流,共享进化发明,从这三种独立的原始生命形式演化出了细菌、古菌和真核细胞(这是他亲自划定的三个域)。他认为,这三种生命形式是独立进化而来的,但进行了基因交流,现代细胞的组织形式代表了一种嵌合关系(某些情况下三种细胞类型的两者高度相似,而另一些情况下又差异很大),而这正是它们以截然不同的组织形式开始的证据,在随后的进化过程中,它们进行了频繁的遗传“交流”与“互换”,终于合而为一。 Woese 说,“随着细胞的结构越来越趋于错综复杂,终于到达一个完整细胞结构出现的关键点”,而他称这个关键点为“达尔文开端”,即自这一时间开始有了系谱的线索,也就是物种起源的开端,在此之后,所有特定细胞类型的组织结构在进化过程中只有微小的变化发生。 Woese 说,“如果我们禁锢于达尔文的思维模式,就不能指望对细胞进化作出真正正确的解释……生物学超越达尔文共同起源假说的时代已经到来……共同起源学说以及任何共同起源学说的‘变种’都没有抓住要旨,即细胞产生的进化过程的本质-动力学”。他甚至宣称,地球上细胞进化的驱动力来自基因的水平转移,即获得外来细胞的组成成分(包括基因和蛋白质等)来促进自身细胞实体的进化。 不难看出,为了维护他所创立的三域理论之完美性,Woese真可谓煞费苦心,他极其主观地将根本性的变异定格于三种类型正式确立之前,而将之后所发生的变异规定为对体制的影响微不足道(依据何在呢?)!进一步,他提出来应该否定达尔文的一个共同祖先的理论,而主张有三个祖先同时起源,这既维护了他自己的理论,同时还有伟大的“创新”! 4. 轨迹吻合—逻辑何在? 人们期待着能够通过一些广泛分布、足够复杂且相当保守的分子(如细胞色素c、16S rRNA)的变异规律去复原物种进化的轨迹,在这里人们期待一种没有导向性的随机变异,而且彼此间的差异随着时间的流逝会越来越大,就像星体大爆炸后碎片飞得越来越远一样。但是,没有哪一种分子只发生完全随机的变化,而一点都不受到指向性环境趋势的影响的,这是绝对不可能的。如果物质的变异具有累积性并能找到其它可靠的时间参照物(如化石),分子钟或许会派上用场(甚至大用场),这是在复杂的大型动植物那里可见的情形。但是,对简单、微小、多变、缺乏变异累积性且没有其它可靠辅助辨识手段的细菌和古菌来说,任何一种分子钟都只可能是对现存物种按一种特定物质结构进行的归类,就像林奈那时的分类学一样,在这样的情况下,从任何一种分子的动静,都不可能准确感知时间的轨迹本身,因此也就不可能复原准确的演化路线。 生命是一种能量驱动的物质性实体,它以自身的变化去应对生存环境不可预测的永恒变化。任何生命都是由不计其数的有机和无机的分子按一定的原则聚集而成,当然一些有机分子可能变化较快,而另一些则可能变化较慢,人们常常将这种缓慢的变化称之为“保守”。虽然古罗马诗人卢克莱修(1981)说过,“离开了事物的动静,人们就不能感觉到时间本身”,但是,能否用某种动静来准确地把握时间则又是另一回事了。 结语 不可能存在任何神奇分子能够厘清系统发育树基部类群之间的进化关系。因此,相信用16S rRNA构建的所谓“三域”说的人只能是掩耳盗铃,无论是过去、现在还是将来,即便是给予膏田沃野,这样的努力也扎不下任何希望的根须,更闻不到醉人的芳泽,而收获的只会是荒芜与悲戚! 被誉为“划时代”的三域说决不是什么真理,不过就是一种幻想。原核与真核才是根本的区分,这不仅仅依赖于一种遗传物质的宏观构象—核的存在与否,更是根植于遗传方式的区分—前者只能进行无性生殖,而后者普遍进行有性生殖。从功能上来说,16S rRNA关乎蛋白质的合成,而DNA则关乎种系的本质特征—繁衍,因此,从进化的历史视角来看,前者似乎更应是环境性响应特征,而后者则更是遗传性特质。因此,古菌和真菌也许就是环境塑造的产物,它们不可能是种系意义(域)上的区分,虽然充其量可以被视为原核家族中的两大类群。 主要来源: 谢平. 2014. 生命的起源—进化理论之扬弃与革新.北京: 科学出版社(英文: Xie P. 2014. The Aufhebung and Breakthrough of the Theories on the Origin and Evolution of Life. Beijing: S cience Press) 对该博文内容引述时,请引用此专著 。 关联博文: 一个新理论:生命在光系统的演化中扬帆启程! ( http://blog.sciencenet.cn/home.php?mod=spaceuid=1475614do=blogid=848053 ) 进化论——超越达尔文? ( http://blog.sciencenet.cn/home.php?mod=spaceuid=1475614do=blogid=838410)
21266 次阅读|65 个评论
[转载]系统进化树构建及数据分析的简介
dugucan 2014-1-23 20:05
一、引言 开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决什么样的问题?带着这样的疑惑,我随手在丁香园(DXY)上以关键字“进化 分析 求助”进行了搜索,居然有 289 篇相关的帖子(2006 年 9 月 12 日)。而以关键字“进化分析”和“进化”为关键字搜索,分别找到 2,733 和 7,724 篇相关的帖子。考虑到有些帖子的内容与分子进化无关,这里我保守的估计,大约有 3,000~4,000 篇帖子的内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的几类: 1.涉及基本概念 例如,“分子进化与生物进化是不是一个概念”,“关于微卫星进化模型有没有什么新的进展”以及“关于 Kruglyak 的模型有没有改进的出现”,等等。 2.关于构建进化树的方法的选择 例如,“用 boostrap NJ 得到 XX 图,请问该怎样理解?能否应用于文章?用 boostrap test 中的 ME 法得到的是 XXX 树,请问与上个树比,哪个更好”,等等。 3.关于软件的选择 例如,“想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做”,“拿到了 16sr RNA 数据,打算做一个 系统进化树 分析,可是原来没有做过这方面的工作啊,都要什么软件”,“请问各位高手用 ClustalX 做出来的进化树与 phylip 做的有什么区别”,“请问有做过进化树分析的朋友,能不能提供一下,做树的时候参数的设置,以及代表的意思。还有各个分支等数值的意思,说明的问题等”,等等。 4.蛋白家族的分类问题 例如,“搜集所有的关于一个特定 domain 的 序列 ,共 141 条,做的进化树不知具体怎么分析”,等等。 5.新基因功能的推断 例如,“根据一个新基因A氨基酸序列构建的系统发生树,这个进化树能否说明这个新基因 A 和 B 同源,属于同一基因家族”,等等。 6.计算基因分化的年代 例如,“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近,具体推算出他们之间的分歧时间”,“如何估计病毒进化中变异所需时间”,等等。 7.进化树的编辑 例如生成的进化树图片,如何进行后续的编辑,比如希望在图片上标注某些特定的内容,等等。 由于相关的帖子太多,作者在这里对无法阅读全部的相关内容而致以歉意。同时,作者归纳的这七个问题也并不完全代表所有的提问。对于问题 1 所涉及到的基本的概念,作者推荐读者可参考由 Masatoshi Nei 与Sudhir Kumar 所撰写的《分子进化与系统发育》(Molecular Evolution and Phylogenetics)一书,以及相关的分子进化方面的最新文献。对于问题 7,作者之一 lylover 一般使用 Powerpoint 进行编辑,而 Photoshop、Illustrator 及 Windows 自带的画图工具等都可以使用。 这里,作者在这里对问题 2-6 进行简要地解释和讨论,并希望能够初步地解答初学者的一些疑问。 二、方法的选择 首先是方法的选择。基于距离的方法有 UPGMA、ME(Minimum Evolution,最小进化法)和NJ(Neighbor-Joining,邻接法)等。其他的几种方法包括 MP(Maximum parsimony,最大简约法)、ML(Maximum likelihood,最大似然法)以及贝叶斯(Bayesian)推断等方法。其中 UPGMA 法已经较少使用。 一般来讲,如果模型合适,ML 的效果较好。对近缘序列,有人喜欢 MP,因为用的假设最少。MP 一般不用在远缘序列上,这时一般用 NJ 或 ML。对相似度很低的序列,NJ 往往出现 Long-branch attraction(LBA,长枝吸引现象),有时严重干扰进化树的构建。贝叶斯的方法则太慢。对于各种方法构建 分子进化树 的准确性,一篇综述(Hall BG. Mol Biol Evol 2005, 22(3):792-802)认为贝叶斯的方法最好,其次是 ML,然后是 MP。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。 对于 NJ 和 ML,是需要选择模型的。对于各种模型之间的理论上的区别,这里不作深入的探讨,可以参看Nei 的书。对于蛋白质序列以及 DNA 序列,两者模型的选择是不同的。以作者的经验来说,对于蛋白质的序列,一般选择 Poisson Correction(泊松修正)这一模型。而对于核酸序列,一般选择 Kimura 2-parameter(Kimura-2参数)模型。如果对各种模型的理解并不深入,作者并不推荐初学者使用其他复杂的模型。 Bootstrap 几乎是一个必须的选项。一般 Bootstrap 的值 70,则认为构建的进化树较为可靠。如果Bootstrap 的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。 对于进化树的构建,如果对理论的了解并不深入,作者推荐使用缺省的参数。需要选择模型的时候(例如用 NJ 或者 ML 建树),对于蛋白序列使用 Poisson Correction 模型,对于核酸序列使用 Kimura-2 参数模型。另外需要做 Bootstrap 检验,当 Bootstrap 值过低时,所构建的进化树其拓扑结构可能存在问题。并且,一般推荐用两种不同的方法构建进化树,如果所得到的进化树类似,则结果较为可靠。 三、软件的选择 表 1中列出了一些与构建 分子进化树 相关的软件。 构建 NJ 树,可以用 PHYLIP(写得有点问题,例如比较慢,并且 Bootstrap 检验不方便)或者 MEGA。MEGA 是Nei 开发的方法并设计的图形化的软件,使用非常方便。作者推荐 MEGA 软件为初学者的首选。虽然多序列比对工具 ClustalW /X 自带了一个 NJ 的建树程序,但是该程序只有 p- distance 模型,而且构建的树不够准确,一般不用来构建进化树。 构建MP树,最好的工具是 PAUP,但该程序属于商业软件,并不对学术免费。因此,作者并不建议使用 PAUP。而 MEGA 和 PHYLIP 也可以用来构建进化树。这里,作者推荐使用 MEGA 来构建 MP 树。理由是,MEGA 是图形化的软件,使用方便,而 PHYLIP 则是命令行格式的软件,使用较为繁琐。对于近缘序列的进化树构建,MP 方法几乎是最好的。 构建 ML 树可以使用 PHYML,速度最快。或者使用 Tree-puzzle,速度也较快,并且该程序做蛋白质序列的进化树效果比较好。而 PAML 则并不适合构建进化树。ML 的模型选择是看构出的树的 likelihood 值,从参数少,简单的模型试起,到 likelihood 值最大为止。ML 也可以使用 PAUP 或者 PHYLIP 来构建。这里作者推荐的工具是 BioEdit。BioEdit 集成了一些 PHYLIP 的程序,用来构建进化树。Tree- puzzle 是另外一个不错的选择,不过该程序是命令行格式的,需要学习 DOS 命令。PHYML 的不足之处是没有 win32 的版本,只有适用于 64 位的版本,因此不推荐使用。值得注意的是,构建 ML 树,不需要事先的多序列比对,而直接使用 FASTA 格式的序列即可。 贝叶斯的算法以 MrBayes 为代表,不过速度较慢。一般的进化树分析中较少应用。由于该方法需要很多背景的知识,这里不作介绍。 表1 构建分子进化树相关的软件 软件 网址 说明 ClustalX http://bips.u-strasbg.fr/fr/Documentation/ClustalX/ 图形化的多序列比对工具 ClustalW http://www.cf.ac.uk/biosi/resear ... loads/clustalw.html 命令行格式的多序列比对工具 GeneDoc http://www.psc.edu/biomed/genedoc/ 多序列比对结果的美化工具(可以导入fasta 格式的文件,出来的图可用于发表,我用过) BioEdit http://www.mbio.ncsu.edu/BioEdit/bioedit.html 序列分析的综合工具 MEGA http://www.megasoftware.net/ 图形化、集成的进化分析工具,不包括ML PAUP http://paup.csit.fsu.edu/ 商业软件,集成的进化分析工具 PHYLIP http://evolution.genetics.washington.edu/phylip.html 免费的、集成的进化分析工具 PHYML http://atgc.lirmm.fr/phyml/ 最快的ML建树工具 PAML http://abacus.gene.ucl.ac.uk/software/paml.html ML建树工具 Tree-puzzle http://www.tree-puzzle.de/ 较快的ML建树工具 MrBayes http://mrbayes.csit.fsu.edu/ 基于贝叶斯方法的建树工具 MAC5 http://www.agapow.net/software/mac5/ 基于贝叶斯方法的建树工具 TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html 进化树显示工具 (加红色标注的为最通用的分析软件) 需要注意的几个问题是,其一,如果对核酸序列进行分析,并且是 CDS 编码区的核酸序列,一般需要将核酸序列分别先翻译成氨基酸序列,进行比对,然后再对应到核酸序列上。这一流程可以通过 MEGA 3.0 以后的版本实现。MEGA3 现在允许两条核苷酸,先翻成蛋白序列比对之后再倒回去,做后续计算。 其二,无论是核酸序列还是蛋白序列,一般应当先做成 FASTA格式。FASTA 格式的序列,第一行由符号“”开头,后面跟着序列的名称,可以自定义,例如 user1,protein1 等等。将所有的 FASTA 格式的序列存放在同一个文件中。文件的编辑可用 Windows 自带的记事本工具,或者 EditPlus(google 搜索可得)来操作。 另外,构建 NJ 或者 MP 树需要先将序列做多序列比对的处理。作者推荐使用 ClustalX 进行多序列比对的分析。多序列比对的结果有时需要后续处理并应用于文章中,这里作者推荐使用 GeneDoc 工具。而构建 ML 树则不需要预先的多序列比对。 因此,作者推荐的软件组合为:MEGA + ClustalX + GeneDoc + BioEdit。 四、数据分析及结果推断 一般碰到的几类问题是,(1)推断基因/蛋白的功能;(2)基因/蛋白家族分类;(3)计算基因分化的年代。关于这方面的文献非常多,这里作者仅做简要的介绍。 推断基因/蛋白的功能,一般先用 BLAST 工具搜索同一物种中与不同物种的同源序列,这包括直向同源物(ortholog)和旁系同源物(paralog)。如何界定这两种同源物,网上有很多详细的介绍,这里不作讨论。然后得到这些同源物的序列,做成 FASTA 格式的文件。一般通过NJ构建进化树,并且进行 Bootstrap 分析所得到的结果已足够。如果序列近缘,可以再使用 MP 构建进化树,进行比较。如果序列较远源,则可以做 ML 树比较。使用两种方法得到的树,如果差别不大,并且 Bootstrap 总体较高,则得到的进化树较为可靠。 基因/蛋白家族分类。这方面可以细分为两个问题。一是对一个大的家族进行分类,另一个就是将特定的一个或多个基因/蛋白定位到已知的大的家族上,看看属于哪个亚家族。例如,对驱动蛋白(kinesin)超家族进行分类,属于第一个问题。而假如得到一个新的驱动蛋白的序列,想分析该序列究竟属于驱动蛋白超家族的14个亚家族中的哪一个,则属于后一个问题。这里,一般不推荐使用 MP 的方法。大多数的基因/蛋白家族起源较早,序列分化程度较大,相互之间较为远源。这里一般使用 NJ、ME 或者 ML 的方法。 计算基因分化的年代。这个一般需要知道物种的核苷酸替代率。常见物种的核苷酸替代率需要查找相关的文献。这里不作过多的介绍。一般对于这样的问题,序列多数是近缘的,选择 NJ 或者 MP 即可。 如果使用 MEGA 进行分析,选项中有一项是“Gaps/Missing Data”,一般选择“Pairwise Deletion”。其他多数的选项保持缺省的参数。 五、总结 在实用中,只要方法、模型合理,建出的树都有意义,可以任意选择自己认为好一个。最重要的问题是:你需要解决什么样的问题?如果分析的结果能够解决你现有的问题,那么,这样的分析足够了。因此,在做进化分析前,可能需要很好的考虑一下自己的问题所在,这样所作的分析才有针对性。 六、致谢 本文由 mediocrebeing 在 2005 年 9 月 8 日所发起的讨论《关于建树的经验》扩充、修改而来。文章的作者按原贴 ID 出现先后排名,由 lylover执笔。作者同时感谢所有参与讨论的战友。作者 lylover 感谢中国科大细胞动力学实验室的金长江博士所给的一些有益的建议。 【本文来源:http://liucheng.name/577/ 】
个人分类: 生物技术|9746 次阅读|0 个评论
GenGIS:地理信息与进化树的结合
Bearjazz 2014-1-9 10:39
GenGIS: 地理信息与进化树的结合 作者:一枝梅 中国科学院成都成都生物研究所 kinglyyang@yeah.net 编辑:熊荣川 六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 导言:目测从事分子进化领域的新手,对 GIS 不甚了解的大有人在。而将地理信息与分子进化信息结合在生物地理和分子分类等领域是一种很直观的方式。 GenGIS 作为一个免费开放的共享软件在这一方面表现出了功能丰富和上手简单的特点。 完成图: 准备工作: (1) GenGIS 软件 from http://kiwi.cs.dal.ca/GenGIS/Main_Page ; (2) 底图:最简单的获取方式是来自地理信息网站(如 Nature Earth );也可以通过其它制图软件获得(如 ArcGIS 或 MapMaker ) (3) 打点信息:依下图所示,其中经纬度信息是打点必需的,保存为 csv 格式 (4) 进化树文件:这个做分子进化的童鞋应该比较了解:)常规格式即可 NOTE :进化树上代表每一枝的名称必须是地点 ID ,与打点的 ID 一致 (5) 统计信息:用于制作完成图中的饼状图,其科学意义完全可以自定,可以是单倍型数 et al. 其中地点 ID 与前两项必须一致;饼状图中的任一项可在 Sequence 中给一个 symbol ,并且在 score 中赋相应的值;在 Count 中则是每一项的统计个数(用于统计饼状图);每一个地点的任一项为一列,保存为 csv 格式 (6) 打点:依图所示,点击 Load Raster Map 将图片导入,默认的是 3D 显示,为了更直观将其改为 2D 显示;对某些图片颜色不满意,可以通过右击左边控制栏的 Map 再单击 properties 编辑地图显示颜色 地图倒入编辑完毕后,再选择上方的 Load Location 按钮,然后将地点信息的 csv 文件导入,打点完成,地点的显示同样可以通过 properties 来修改,如图所示: (7) 导入进化树:直接选择 Load Tree 按钮即可,默认导入的进化树是 3D 显示的,立于地图上方,为了直观显示,需要进入 properties 中将其改为 2D ,并调整其颜色样式 (8) 导入统计信息:此例中为单倍型信息,直接点击 Load Sequences 按钮即可,编辑方式同进化树的编辑一致,可以直接在地图上拖动;这一步骤完成后图片制作也就大功告成了
个人分类: 我的研究|7445 次阅读|0 个评论
两棵进化树一致性的校对
zjlcas 2012-12-5 22:58
两棵进化树一致性的校对
两棵进化树一致性的校对 首先, 要保证获得的进化树是有根树, 设定好外类群,并且,分支出现的次序经过排序reorder,这可以在Figtree软件中, 对newick格式的进化树进行操作, export as currently displayed 即可。 其次, 用R软件ape程序包的 cophyloplot函数, 可以实现, 将两棵进化树面对面绘制, 并将名称相同的分类单元用线段联系起来, 此时, 如果两个进化树结构有差别, 就一目了然了。 举例: library(ape) labs1 - paste("t", 1:10, sep = "") labs2 - paste("t", 1:10, sep = "") cophyloplot(x = rtree(20), y = rtree(10), space = 100, length.line = 0.1, gap = 10,assoc = as.matrix(data.frame(labs1, labs2)))
个人分类: 科研笔记|10709 次阅读|0 个评论
[转载]最大似然法建立进化树的软件之一RAxML
Bearjazz 2011-7-22 08:43
RAxML是用极大似然法建立进化树的软件之一,可以处理超大规模的序列数据,包括上千至上万个物种,几百至上万个已经比对好的碱基序列。作者是德国慕尼黑大学的A. Stamatak博士。 性能在一定程度上超越了PHYML,GARLI等著名软件,由于算法的优势,具有更高的准确性。RAxML支持分隔模型,每个分隔模型又支持GTRGAMMA等进化模型。因此在多个基因建立进化树的时候,该软件能快速准确的获得极大似然进化树。 RAxML有若干版本(有的版本支持在多个CPU上运行),本文以最常用的单机版raxmlHPC为例。进行检验介绍。 调用RAxML中的功能时,需要设置相应的开关,一般是将命令拷贝到.bat文档中,通过运行bat文件,执行RAxML,以得到相应的结果。 下面推荐一个操作性很强的手册,作者为中国科学院植物研究所张金龙 用RAxML构建极大似然进化树.pdf
个人分类: 我的研究|6936 次阅读|0 个评论
Phylomatic生成进化树及物种功能性状聚类
热度 2 zjlcas 2010-11-27 21:17
Generating phylogenetic trees with Phylomatic and dendrograms of functional traits in R 基于现有的物种之间的进化关系,将其拟合成一个进化树,一直是进化生物学家和生态学家非常关心的问题。Phylomatic软件使得用户可以用物种名录生成基于APGIII的进化树框架,进而用Phylocom软件拟合出分化时间。这使得计算群落内部和群落之间的系统发育关系成为可能。 同系统发育关系类似,物种在的功能性状组成的多维空间中的距离,对于回答诸如群落物种组成的关系也是极为重要的。 这里的幻灯片是2010年8月在Community phylogenetics 培训班上的资料。内容第一部分涉及如何在Phylomatic上生成进化树,怎样在Phylocom中校对枝长。第二部分为如何根据物种的功能性状,推测物种之间的距离,并进一步用聚类分析的方法给出聚类结果。如何对结果进行筛选等。 供有兴趣的同仁参考。 下载 幻灯片 Generating phylogenetic trees with Phylomatic
个人分类: 科研笔记|15485 次阅读|1 个评论
phylotools:处理DNA条码(DNA-Barcoding)序列的程序包
zjlcas 2010-11-8 13:52
phylotools: 处理 DNA 条码( DNA-Barcoding )序列的程序包 DNA 条码,是利用聚合酶链式反应( PCR )及测序手段,将每个物种筛选出特定的一个或基因,共同组成的物种鉴定系统。 DNA 条形码在不同的类群中选取的基因不同,例如植物中常用的 DNA 条码相关的基因多为叶绿体中的基因,常包括 rbcLa, matK, ITS, 5.8S, trnH-psbA 等等,各基因的进化速率不同,互相参考,以便于对物种的准确鉴定。如果这一体系建立的比较精准,那么以后只需要对样品的相应基因进行 PCR 就可以实现对物种的准确鉴别。相比传统的依据物种形态的鉴别手段,应用的范围更加广泛。 然而 DNA 序列的 fasta 文件及比对之后的 phylip 文件处理是较为繁琐。特别是在处理测序后 fasta 文件中 DNA 序列的名称,以及后续的建立进化树的步骤中,往往需要名字的替换,并建立相应的矩阵,并以此作为基础推断物种之间的进化关系。在分子生物地理学和进化生态学中,这种需求更为迫切。为了更为方便得分析处理 DNA-Barcoding 所得的序列,方便得更改名称,处理比对后的各序列拼接成一致性的矩阵等,必须开发相应的软件。 有鉴于此,本人利用开源的 R 语言开发了 phylotools 软件包。其中的函数均为笔者在处理 DNA-Barcoding 数据时用到的函数。现在已经上传到 R 的 CRAN 网站。全部源代码及多种平台上的程序包都可以在 CRAN 上获得。网址为 http://cran.r-project.org/web/packages/phylotools/index.html 下面简要介绍一下各函数的主要功能,供业界的同行参考: complement() 给出给定 DNA 序列的反向互补序列,输入格式为字符串。 fasta.split() 给出各名称分组的对照表,将给定的 fasta 文件分割成几个独立的 fasta 文件 phy2dat() 将 phylip 文件转换成相应的数据框,以便进行相应的处理 read.phylip() 读取序列比对好之后的 phylip 文件 rename.fasta() 为 fasta 对象中的序列改名。 reverse() 给出该序列的反向序列 seq2fasta() 将 seq 文件(一般是 SeqMAN 生成)转换成 fasta 文件 sub.tip.label() 给出各名称的对照表,将进化树末端的名称替换。 supermat() 基于指定的 phy 文件构建多个基因的超级矩阵 uniquefasta() 将 fasta 文件中名称重复的序列删除。 write.mat() 将建立好的超级矩阵保存在本地硬盘上。 当然,还有很多功能需要进一步实现,如在 GenBank 上检索并下载 DNA 序列等等。如您在使用过程中发现程序中的任何错误,欢迎发邮件及时告知。 中国科学院植物研究所 张金龙 Jinlongzhang01@gmail.com
个人分类: 科研笔记|9084 次阅读|0 个评论
报告:《从序列到分化时间——进化树与分子钟》
热度 1 zjlcas 2010-3-26 15:34
这是2010年1月,本人在研究组所做的报告之一,内容为依据DNA序列构建进化树的原理与方法,并依据进化树进行分子钟估算。 包括: 1.在GenBank上下载DNA序列 2.在ClustalX中进行DNA序列比对,及其注意事项 3.DNA 碱基替换模型及其筛选,ModelTest软件的原理 4.进化树的构建的原理 介绍了距离法,极大似然法,最大简约法和贝叶斯法的原理,及其实现软件PAUP*, PHYLIP, MrBayes 5.进化树分枝节点的可信度评估,即Bootstrap方法的原理和实现 6.分子钟假设检验及NPRS平滑方法在r8s软件中的实现。 共有幻灯片101张。 现整理出来,供对进化分析有兴趣的老师和同学参考。 如果有任何问题或建议,欢迎随时与本人联系, 我的邮箱是 jinlongzhang01@gmail.com 下载 报告幻灯片 从DNA序列到分化时间进化树与分子钟 .pdf (1.0M)
个人分类: 科研笔记|16989 次阅读|3 个评论
PAUP*软件简明指南
热度 4 zjlcas 2010-3-26 00:14
PAUP* 软件简明指南 PAUP* 全称Phylogenetic Analysis Using Parsimony (*and Other Methods)是美国佛罗里达大学的David Swofford博士编写的,是用最大简约法建立进化树最重要的软件,同时与ModelTest软件一起,是进化模型筛选等的必备软件,也可以进行如极大似然法建树及其他分析。在同类软件中,几乎拥有最快的运行速度,性能卓越。PAIP*能在MacOS, Windows,Unix等平台上运行。目前最新版本为4beta10 其网址为 http://paup.csit.fsu.edu 为方便刚刚接触PAUP*及进化分析的同行入门,本人写了一个简要说明。 真正正确的使用该软件,弄清楚算法的原理是必须的,这里推荐Lemey,Salemi and Vandamme主编的 The Phylogenetic Handbook, Cambridge University Press. PAUP*使用指南.pdf 图1 PAUP* PC版界面
个人分类: 科研笔记|19075 次阅读|6 个评论
用RAxML构建极大似然进化树
热度 1 zjlcas 2010-3-24 21:28
用 RAxML 构建极大似然进化树 RAxML 是用极大似然法建立进化树的软件之一,可以处理超大规模的序列数据,包括上千至上万个物种,几百至上万个已经比对好的碱基序列。作者是德国慕尼黑大学的 A. Stamatak 博士。 性能在一定程度上超越了PHYML,GARLI等著名软件,由于算法的优势,具有更高的准确性。RAxML支持分隔模型,每个分隔模型又支持GTRGAMMA等进化模型。因此在多个基因建立进化树的时候,该软件能快速准确的获得极大似然进化树。 RAxML 有若干版本(有的版本支持在多个 CPU 上运行),本文以最常用的单机版 raxmlHPC 为例。进行检验介绍。 调用RAxML中的功能时,需要设置相应的开关,一般是将命令拷贝到.bat文档中,通过运行bat文件,执行RAxML,以得到相应的结果。 更具体的内容参见使用指南。 参见pdf文档 RAxML使用指南.pdf
个人分类: 科研笔记|20438 次阅读|2 个评论
进化时间的估算:r8s软件使用指南
热度 2 zjlcas 2010-3-24 20:15
本文所附PDF文件中在Windows编译r8s部分已经过时,请参考博文: 《 怎样在Windows10系统中编译和运行r8s 》 http://blog.sciencenet.cn/blog-255662-1144730.html r8s是美国加利福尼亚大学戴维斯分校的进化生物学家Mike Sanderson编写的用于估算进化树分化时间的软件,在进化生物学、分子生物地理学等学科有着广泛的应用,已经成为估算分化时间不可或缺的软件之一。该软件中的一些方法如NPRS和PL是软件作者最先提出的,目前在同类的其他软件中还难以实现。R8s的运行平台为MacOS和Linux,在国内应用的还不多,也难以找到中文的练习资料和说明。 本文基于当前版本r8s 1.7.1,参照其说明书,介绍该软件在Windows下的安装和操作,并对其模块的功能和选项进行简要的说明。 r8s使用指南 完整版
个人分类: 科研笔记|18447 次阅读|3 个评论
动物受教育的时间成本与其在进化树上的地位成正比,人类呢?
lvnaiji 2009-6-12 08:11
动物界存在这样一个规律:低等动物的后代在出生后即可不依赖父母独立生存,高等动物的后代则于一段时期要靠父母的抚养和教育。动物越是高等,这一时期就越长, 动物受教育的时间成本与其在进化树上的地位成正比 。人类位于进化树的顶端,后代受教育的时间最长。这一定理的 逆定理:动物在进化树上的地位与其受教育的时间成本成正比 。 大多数社会沿袭了动物界的这一规律。总体而言,个人付出的教育(主要指学校的学历和非学历教育)成本越高,在社会中的地位也越高。反之亦然。但人类社会又与动物界有所不同,也就是这一定律未必如此严格。就(正)定理而言,花费的教育成本大未必社会地位高,成本小也未必社会地位低;逆定理也是未必。 之所以存在这种区别可能是在于以下原因。其一,在动物世界,父母传授或教育子女的内容,就是父母及其子女所生存和面对的一切,就是生活本身,二者完全吻合。而在社会中,教育已经作为一项社会事业高度特异、分化,所教授的只能是抽象和一般的内容,是对社会生活的总结,至多辅之以有限的社会实践;社会较之教育则要丰富得多,每时每刻充满着涨落、非线性相互作用和不确定性。极其复杂的社会,现在还要加上网络世界,以及现实世界与网络世界的关系,这些内容无论是目前还是将来的教育都不可能充分达到。很多事情要在现实中纷繁的工作和生活中去悟。悟而得道者即有可能上升到高于相应于其受教育水平的社会的高层。反之,受教育程度高者其社会地位可能低于预期。这种情况在一定程度上有其合理性。这就是社会的丰富多样与教育的简单抽象之间的矛盾。 这样的矛盾在发达国家和发展中国家还有不同表现。在前者的情况下,固然教育也必须丰富自身,但由于社会基本上确立了人的底线,制度完善,依法治国,社会相对透明有序,社会的层际流动有规可循。学校的教育教授基本的做人准则,与社会之间保持基本的一致。 在发展中国家,往往社会中大量存在人治现象,然而,因知识与权力的关系,教育却在不同程度上承担意识形态灌输的重任;教育的刻板一律面对的是社会复杂多变和不确定,另一方面则是,由此必然对社会和教育产生不良影响。例如在一个人际关系复杂的中国,一方面,个人以疏通人己关系为捷径获取利益,其核心是跑,跑课题、跑项目、跑经费、跑点,还有跑官。在高校中,把学术做成权术者往往比一心从事研究者混得更好。长此以往,正常的教育就会受到冲击和干扰。另一方面,教育与社会严重脱节,学校的教育成了说教,于是社会稀缺的教育资源被浪费,而所培育的人力资源却不符合社会需要。学非所用,用非所学,比比皆是。在扩招的高潮中,一个甘肃的老农花钱让儿子上了三本,毕业找不到工作,回乡连放羊都不会。解决的途径,一是改造社会,使之变得相对透明有序,一般而言也就是依法治国。这样,在学校所教的内容,也就是在社会中生存的准则,而不是二者分离。二是改革教育,使之在内容上较为贴近实际。 此外, 360 行,行行出状元。教育没有、也不可能覆盖 360 行,更何况还有超女、北漂。社会越是发展,就越是多样化。无论如何,作为一种建制的教育,只能是在一般的普适的意义上。 其二,在动物世界,父母及其子女所生存和面对的一切的一样的,正如天不变,道亦不变。但在人类社会,代沟广泛存在。这种情况在一个迅速发展甚至转型的社会,或者说有较大代沟的社会,教育跟不上社会的发展,基于前辈以往经验的教育就不适应子女所面对的世界。有人说,在当代中国,改革将成为常态。如果确是这样,将可能使教育难以适从,使家长及其子女难以适从。在这种情况下,同样需要来自教育与社会双方的努力。一方面期待社会加快改革步伐,早日成为一个常态的社会;另一方面,以不变应万变,教给学生最基本的道理和做人的底线;进取、开放和宽容的心理;以及学习的能力。 其三,在动物世界,儿女一旦成年,父母即与之切断关系,儿女就得独立谋生。在社会中,父母一般会一直呵护子女到自己过世。这样,长辈的经验一直在传授之中。更重要的是,父母的财富和人际关系等将会在根本上影响子女日后的社会地位。于是,在一定程度上,社会地位就在代际遗传,使社会地位固化,由此得到的必然推论和事实就是,教育在社会和人们心目中的地位下降。这种情况目前在中国有所蔓延,如学会数理化,不如有个好爸爸,以及要嫁个好老公等。因而,发达国家征收遗产税不仅关系到代际公平,而且涉及教育在社会中的地位和作用,影响到个人是否选择接受更多的教育这样的人生道路。而一旦个人舍弃受教育的道路,社会发展的动力和未来也就被舍弃。对此,社会的制度设计是,通过征收遗产税等趋向起点公平。 在进化树上教育有其共性,然而,社会不同于动物世界。这种不同有其合理和不合理性,在不同国家和不同发展阶段又有各异的表现。通过与动物世界的比较可以细致辨析教育与社会的关系。
个人分类: 教育|5643 次阅读|1 个评论
[小红猪]拔掉达尔文的树
eloa 2009-3-28 23:44
小红猪小分队 发表于 2009-03-28 9:30 原文 ,译者:Alulu,她的更多译作见 此 。 生命之树,进化论中一个标志性概念,竟被发现仅仅是我们的臆想,Graham Lawton如是说 。 1837年的七月,Charles Darwin灵光乍现。在伦敦家中的书房里,翻开红色皮面笔记本新的一页,他写道:我认为。然后,用细弱的笔画勾勒出一棵树的形状。 正如我们所知,这是Darwin第一次通过摆弄生命之树的概念来解释不同物种之间的进化关系。事实证明这是个硕果累累的想法:待到22年后《物种起源》出版之时,Darwin笔下瘦弱的小苗已经成长为一棵蔚为壮观的大橡树。《物种起源》无数次提到了这棵生命之树,然而对它唯一的图解便是书中一个枝枝杈杈的结构,向人们展示一个物种如何能够演进出更多物种。 生命之树的概念绝对是Darwin思想的中心,其重要性可以和自然选择平起平坐,加拿大Nova Scotia省Halifax的Dalhousie大学的生物学家W. Ford Doolittle说。没有它,进化论永远不可能诞生。这棵树还帮助进化论赢得了胜利。Darwin成功地论证说生命之树是大自然既有的事实,对于任何人来说都显而易见,尽管需要一个解释。至于这个解释,他提出,就是自然选择导致的进化。 自Darwin以来,生命之树一直是人们了解地球生命历史时的统一原则。在树的根部,是LUCA,即所有现存物种的共同祖先(Last Universal Common Ancestor),从LUCA那儿再延伸出树干,树干分叉再分叉,就形成了一棵繁茂的二杈分支的大树。每一根树枝都代表了一个物种;分支点则代表物种一分为二的地方。大多数树枝终结于某个死角,表明物种灭绝,但仍有一些成功到达了树的顶端这些就是现存的物种。这棵树于是成为了一个记录,展现了每一个曾经存在过的物种和所有其他物种之间的千丝万缕,并一路追溯到了生命的起源。 在过去150年间,很多时候,生物学普遍都专注于给生命之树添补细节的工程当中。很长一段时间里,我们的圣杯(注:本是耶稣最后的晚餐上用的杯子,象征几乎不可能达到的目标。)就是构建生命之树。Eric Bapteste,一个法国巴黎Pierre and Marie Curie大学的进化生物学家,这样说道。几年前,圣杯看起来已经触手可及。但如今,这项工程却奄奄一息地躺在在破纸堆中,在反面证据的突袭之下分崩离析。现在,许多生物学家都争论说,生命之树的概念已经是明日黄花,应当被舍弃。我们完全没有证据可以证明生命之树是一个事实。Bapteste说。这个晴天大惊雷甚至让一些人相信,我们对于生物学的基础观念需要改变。 那么,到底发生了什么?简单地说,DNA。1953年DNA分子结构的发现为进化生物学开辟了一方新天地。终于,这个小玩意出现在眼前,作为遗传的唯一负责者,生命发展的历史毫无疑问已被写入其中,要是我们知道该如何将其解码该多好呀。于是乎,分子进化学破蛋而出,并随着解读DNA序列以及其他生物大分子如RNA和蛋白质结构的技术成为现实,领域的先驱们开始相信,这能为达尔文的生命之树提供确切证据。基本构想很简单:两个物种进化关系越密切(或者说,它们在树上的分叉点越晚近),它们的DNA、RNA和蛋白质序列也理应会越接近。 刚开始的时候,一切都很顺利。首个被测序的分子是在核糖体细胞的蛋白质制造机器中发现的RNA。上世纪70年代,通过比较多种植物、动物和微生物的RNA序列,分子生物学家们开始描绘出树的大体轮廓。诸多成果之外,这还意外地引导出一个过去不为人所知的、生命之树另一个主枝的发现,即单细胞古细菌,过去被认作是细菌的一份子。 图注:Darwin第一幅关于进化生命树的素描 直到上世纪80年代中期,大家已信心满满地认为分子技术终于能够展现整棵生命之树的光辉形象了。颇具讽刺意味的是,结果恰恰相反。 90年代早期,当人们能够真正对真细菌和古细菌的基因而不仅仅是RNA进行测序时,问题开始显现。所有人都期望这些DNA测序结果能够进一步证实RNA版的生命之树,有时他们也确实做到了,但更要命的是,有时他们没有。比如,RNA版生命树可能会指出物种A更接近物种B而不是物种C,但由DNA版得出结论却完全相反。 到底哪一个是正确的呢?答案看上去有点矛盾,两者皆有理但只有大前提为Darwin的树是错误的时,这一结论才成立。Darwin假定家系繁衍纯纯是垂直的,即生物把其品性下传给后代。但如果一个物种也会经常性地和其他物种交换基因物质,或进行杂交呢?生命之树整洁分叉的式样会被迅速打破,成为一丛不可理喻而又枝节勾连的灌木,物种之间的联系在某些方面极其紧密,在其他方面则并非如此。 现在我们知道事实就是这样。随着被测序的基因越来越多,有一点已经逐渐清晰,就是想要解释细菌和古细菌之间的联系方式,只能认为它们经常性地和其他物种交换遗传物质时常要跨越巨大的种系距离通过一个被称作是水平基因转移(HGT)的过程。 小故事们的上台- 合二为一 过去我们都认为不同物种间的杂种后代是不育的,因而不可能在塑造地球生命历史的进程中扮演什么角色,但是时候抛弃这个老观点了。已退休的英国利物浦大学海洋生物学家Donald Williamson说,杂交是动物进化中一股不可忽视的力量。他的结论来自于他对海洋生物毕生的研究,比如海星,海胆,还有软体动物,这些海洋生物中有许多都经营着一种奇怪的双重生活,起先是一个幼虫,然后变态进入成年阶段。 对变态的传统解释认为这是逐渐进化而来的,其间幼虫慢慢特化为专职进食,而成年则只负责交配,直到它二种形态长得不再彼此相像。Williamson有不同的看法。他指出,海洋中的幼虫有五种基本形式,基于其共有特征,可将它们组织成一棵谱系树。但是,这棵树和成体之间的谱系关系完全无关:近似相同的幼虫可以发展为不同种系的成体,而有些关系紧密的成体却有着完全没有关系的幼虫。 生物大融合 看上去像是每个物种被随机分配了一种幼虫这正是Williamson所提出的事实。他相信变态在进化过程中随着两个不同物种的随机融合而重复出现,参与融合的一方作为幼虫,另一方形成成体。 如果你觉得这听起来也不大可能,Williamson指出,很多海洋生物的繁殖方式是将卵子和精子排入大海,之后要做的就是期待一个好结果了,这给物种间杂交提供了大量机会。正常情况下杂交并不会发生,他说,但是每一百万年中总有一次成功:一个物种的精子让另一个物种的卵子受精,两个物种就合二为一了。这种生物融合最可能这样运作,即杂交而生的嵌合体能够连续地表达两套基因,构成一个包含两个阶段、中间经过变态的生命史。 这个假说解释了海洋生物学中的诸多异常现象,Williamson说。他的主要证据就是海星Luidia sarsi,它的生命开始于一个小小的幼虫,体内藏着个微型海星。随着幼虫的生长,海星迁移到体外,当幼虫在海底安顿下来,它们就彻底分离了。这对于海星来说再正常不过,但在Luidia身上,还会发生一件神奇的事情。幼虫不会退化,反而游离开去,并作为一个独立的动物生活好几个月。我不明白,一种动物如果只有一套基因的话,怎么可能能做到这一点。Williamson说,我认为,幼虫的基因和成体的基因不同。 小故事们的谢幕- 图注:海星Luidia sarsi看起来同时是两个物种,一个形成幼虫,另一个形成成体。 起初,HGT被认作是个不重要的影响因素,仅仅转移抗生素抵抗一类额外配件式的功能。核心的生物功能如DNA复制和蛋白质合成仍应当是垂直传递的。有那么一小会儿,这让进化生物学家顺利接受HGT理论,而无须让他们的宝贝生命树遭遇不测;HGT只不过是让树的边缘稍显模糊的噪点罢了。现在我们知道,这种观点是错误的。在大量种群之间存在泛滥的遗传信息交换。加利福尼亚大学欧文分校的进化生物学家Micheal Rose说。 同一纲的物种之间密切的关系有时可以表现为一棵巨大的树。我相信这个比喻在很大层面上说明了事实 引自《物种起源》,Charles Darwin 从树到网 随着HGT作为主要因素的地位逐渐明晰,生物学家们开始意识到这对生命树概念的影响。早在1993年,就有学者提出生命树上与真细菌和古细菌相关的那部分其实更像一张网。1999年,Doolittle发表了一篇颇具煽动性的宣言说生命之树被描绘为树是不妥当的(《科学》(Science),vol 284,p 2124)。生命之树在自然界中并不存在,这只是人类给自然分类的一个方法。他说。 于是乎生命树之上打响了最后的决战。许多研究者紧握钢枪,使用更高深的电脑软件砍掉噪点,还原至尊之树的本真。其他人态度之强硬程度旗鼓相当,争辩说这样的研究完全是痴人说梦,应当被抛弃。 这场大战于2006年升级至顶峰。在一项野心勃勃的研究中,德国Heidelberg欧洲分子生物学实验室的Peer Bork领导的小组检测了来自全部生物三界的191个物种的基因真细菌,古细菌和真核生物(一种复杂生物体,其遗传物质都包裹在细胞核里)并发现31个被所有这些物种共享的基因,而这些基因完全没有显露出曾进行过水平转移的痕迹。通过比较从大肠杆菌到大象的每一个样品的核心基因序列,他们生成了一棵树。Bork宣称,这是有史以来最接近完美生命树的研究结果。(《科学》,vol 311, p 1283)。其他研究者则不敢苟同。他们之中有位于德国Dsseeldorf的Heinrich Heine大学的Tal Dagan和William Martin,两人指出,从数量上看,31个基因完全可以忽略,因为这仅仅代表了一个典型的真细菌基因总量的1%,对于一个动物来说则可能只有0.1%。那几乎无法构建出一棵壮观的大橡树,就连一棵瘦弱的小树苗都不大可能倒是会更像一根小树枝,埋没在巨大的网下。Dagan将Bork的结果称为1%的信息所构成的树,并指出这项研究不经意间给出了到目前为止最好的证据,证明生命树的概念是多余的(《基因生物学》(Genome Biology), vol 7,p 118)。 这场辩论两极分化的状态延续至今。Bork的小组继续进行生命之树的研究工作,并一如既往地捍卫着这一概念。我们的观点是,没错,确实有不少HGT,但主要的基因仍然蕴含着树的信号。Bork说。他表明,真正的问题在于我们还没有足够好的技术把这个信号择选出来。 与此同时,那些立志要砍倒生命之树的人们也在不断取得进步。真细菌和古细菌(总称为原核生物)之间HGT的实际程度已经被确定。去年,Dagan和同事检测了来自181种原核生物的五十多万个基因,并发现其中80%都有水平转移的迹象(《国家科学院学报》(Proceedings of the National Academy of Sciences), vol 105, p 10039)。 令人感到惊讶的是,HGT在生物第三个主要分界的真核生物中最终竟被发现是一个主要支配因素而不是偶尔发生的例外。学术界开始越来越广泛地接受这样一个理论,即真核生物是由两个原核细胞融合而起源的,一个真细菌和一个古细菌,使得生命树的这一部分形成一个环而不是一个分支(《自然》(Nature), vol 41, p152)。 生命树整洁分支的图像被一个叫做胞内共生的过程进一步模糊。真核生物在它们进化的早期活吞了两个原核生物。一个后来演化形成了被叫做线粒体的细胞动力站,而另一个则成为光合作用场所叶绿体的前身。这些胞内寄生物后来将其大部分基因转移给它们的真核宿主,形成了杂种基因。好像这还不够复杂似的,一些早期的真核生物似乎会相互吞噬,合并彼此的基因,从而产生了另外一个层面的水平转移(《生态进化趋势》(Trends in Ecology and Evolution), vol ,23, p 268)。 这场基因自由大融合运动一直延续至今。很大一部分真核生物都是单细胞生物阿米巴变形虫,藻类和其他过去被称作原生生物的物种(《系统分类与进化学月刊》(Journal of Systematics and Evolution), vol 46, p263)。这些微型小生命的生活方式和原核生物相似,根据瑞典Uppsala大学的Jan Andersson所说,他们HGT的程度可以和细菌相媲美。我们对微生物的了解越多,越是能清楚地看到,生命的历史用树来表现是不恰当的。 等等,你也许在想。微生物可能四处交换基因,这又如何?可以肯定,那些我们关心的东西动物和植物用树来表现关系还是相当精确的,那么,到底有什么问题呢? 好吧,首先,生物是生命的科学,而生命近乎可以说就是单细胞的。微生物在地球上已近至少存在了38亿年;而多细胞生物直到6.3亿年前才出现。即使在今天,真细菌、古细菌和单细胞真核生物也至少占了全部已知物种的90%,纯由数量来看地球上几乎所有生物都是微生物。如果仅因为多细胞生物的进化路线和树形状相似就将之推广到地球上的全部生命形式,显然是荒谬的。如果确实有这么一棵生命之树,那也是生命之网上延伸出的一小块异常部分。John Dupr,英国Exeter大学的一名生物哲学家说。 更为根本的是,最近研究表明动物和植物的进化也不完全是树形的。就在那个小角落里也有问题。Dupr说。把单细胞生命之树连根拔掉以后,生物学家们现在开始拿起斧头瞄准余下的树枝。 举个例子,杂交显然在植物的进化史中扮演了一个重要角色。根据加拿大Vancouver British Columbia大学的植物学家Loren Rieseberg所说,现存植物中有14%都是两个不同的物种混合的产物。 唯一的真理之树? 这是生命之树的一个简化版,展现了基因已被测序的群组之间的关系。自Darwin提出物种起源学说(右)以来,构建生命树一直是生物学的一项主要目标,但在现代科学知识看来,这项浩大的工程似乎存在曲解。 让动物的谱系树变模糊 有许多例子表明,动物会水平地从细菌、病毒乃至其他动物身上获取基因。 牛的基因组中包含一片蛇的DNA,似乎是在5000万年前水平转移而来的。 人类基因syncytin在胎盘形成过程中起着至关重要的作用,而它就是来源于一个病毒。 去年,一个与水母和海葵中刺细胞密切相关的基因被发现是由细菌转移而来的。 最近,细菌Wolbachia的全部基因被发现已整合入果蝇的基因。实际上,果蝇应该是一个细菌-昆虫嵌合体。 这些绿油油的蓬勃生长的小枝可以代表现存的物种,而那些在过去的年岁里产生的枝条则可以代表一长串连续的灭绝物种。 Darwin曾亲口这样说。 -小故事上台- 天生的嵌合体 微生物经常性地交换基因编码看起来还不算是一个特别牵强的想法(见正文)。但同样的过程是否也影响着多细胞动物的进化?1985年,加州大学戴维斯分校的生物学家Michael Syvanen预测说,答案是肯定的(《理论生物学杂质》(Journal of Theoretical Biology, vol 112,p 333)。当时还没有办法可以检测这个预言,但现在已有可行方法了。 Syvanen最近比较了人类、青蛙、海鞘、海胆、果蝇和线虫共有的2000个基因。根据理论,他应该能够用这些基因序列构建一棵进化树,以展现这六种动物之间的关系。 他失败了。问题在于,不同的基因讲述着相互矛盾的进化故事。这在海鞘基因中尤为正确。 传统意义上,海鞘也被叫作被囊动物同青蛙、人类和其他脊椎动物一起挤在脊索动物门下,但是基因却发送着正反不一的信号。有些基因确实归属于脊索动物,另外一些则表明被囊动物应当和海胆并非脊索动物归为一类。它的基因中大约有一半有一个进化历史,另一半有另一个。Syvanen说。 最可能的解释,他指出,海鞘是个嵌合体,由一个早期脊索动和海胆的一个祖先于6亿年前融合而成。 我们刚刚消灭了生命树。世上再也没有生命树一说,生物学的布局也完全不一样了。Syvanen说。换作Darwin,他会怎么理解这个事实呢? 小故事谢幕 图注:从毛毛虫到彗尾蛾,这个变化会不会是两个不同物种融合的结果? 杂交人类 一些研究者确信杂交在动物的进化历程当中也是一个主要驱动力(参见自然产生的嵌合体),而且这样一个过程仍在进行当中。这是非常普遍的,London College大学的进化生物学家James Mallet说,10%的动物有规律地和其他物种进行杂交。这在进化速度快、有大量近期分化物种的种系中尤为正确包括我们自己。有证据表明早期现代人会和我们那些已经灭绝的亲戚通婚,比如直立人和尼安德特人(Philosophical Transactions of the Royal Society B, vol 363, p 2813)。 杂交并不是摧毁多细胞生物之树的惟一力量:HGT在动物中扮演角色的意外的重要性变得越来越明显。随着被测序的基因越来越多,DNA显现出来的不协调之处也越来越多。比如在去年,Arlington的Texas大学的一个小组在8种动物中发现了一团基因小鼠,大鼠,丛猴,小棕蝠,马岛猬,负鼠,避役和非洲有爪蛙但在其他25种动物中并未发现,包括人类、大象、鸡和鱼。这种零散的分布说明这个基因序列已通过水平转移独立地进入了相应动物的基因组中(Proceedings of the National Academy of Sciences, vol 105, p 17023)。 更多多细胞生物中的HGT现象正飞速奔涌而来。HGT已经在昆虫、鱼类和植物中被证明存在,几年前人们还在牛身上找到了一部分蛇的基因。这种基因洗牌现象的中介者最有可能是病毒,它不停地从一个基因组上剪切DNA然后在粘贴到另一个基因组,有时要跨越巨大的种系距离。实际上,进过计算,人类40%到50%的基因都是由通过病毒水平进口来的DNA组成,其中有一些还担负着重要的生物功能(《新科学家》New Scientist, 27 August 2008, p 38)。对于其他大型动物来说,情况很有可能是一样的。动物中的水平转移数量没有微生物多,但仍具有显著的进化意义。Bapteste说。 没有人争辩说目前没有生命树的概念在动植物中已无用武之地。尽管进化不再是垂直遗传的独角戏,但它依旧是解释多细胞生物之间联系的最好的方法51%还是一棵树,大概可以这么说。就这点看来,Darwin的观点胜利了:他对微生物一无所知,他的理论仅建立在那些能在周围看到的动物和植物之上。 既便如此,很明显的,要想描绘进化普遍的运作情况,Darwin之树是远远不够的。如果你没有生命之树了,这对于进化生物学意味着什么呢?Bapteste问道,刚开始的时候,是非常恐怖的但过去的几年里,人们已经开始解放他们的思想。他和Doolittle不辞劳苦地强调说,生命树的倒下并不意味着进化论是错误的只是表明进化不像我们过去相信的那样简单。有些进化关系是树形的;其他许多则不是。在这个问题上我们应该放松一点,Doolittle说,我们对进化的了解已经很不错了只不过它比Darwin想象的要更为复杂。树不是惟一的形式。 但是,其他研究者认为现在还不是休息的时候。相反,他们认为拔掉生命之树的壮举是某些更加宏伟的事情的开端。这是生物学大革命的一部分,Dupr说。我们的进化标准模型正承受着巨大的压力。显然,我们将看到进化不再只是孤立种系内部的变化,而更多的是融合与合作。 Rose看得甚至更远。生命之树正被人们礼貌地埋葬,这我们都知道,他说,还没被人们完全接受的是,我们对生物的整个基础观念也需要改变。生命科学比我们想象的要复杂得多,他说,直面这样的复杂性是如此令人感到恐惧,比起20世纪早期物理学家们不得不接受的概念大变革来说,这毫不逊色。 如果他是对的,那么生命树的概念就相当于生物学领域的牛顿力学:在它所在的那个时代,可谓是革命性的、极其成功的,但最终要想对付乱糟糟的现实世界,还是显得太过简单了。生命之树在过去功不可没,Bapteste说,它让我们明白进化是真实的。但是现在,我们对进化的了解更加深入,是时候忘掉过去,继续前进了。
个人分类: 小红猪翻译小分队|2447 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-16 20:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部