科学网

 找回密码
  注册

tag 标签: phylogenetic

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

影响系统发育重建和分歧时间推断的可能因素
热度 1 hypermarket 2016-3-25 16:46
在引入系统发育系统学的思想与概念体系之后,在引入分子序列信息之后,系统发育重建在量化分析和可重复性方面都有了很大进步,但是在很大程度上仍然常给人以黑箱子的感觉。这在研究实践中一般会表现为,对于基于不同基因得到的不同结果,甚至基于相同基因得到的不同结果,常常很难确切地对原因进行溯源。表1中列出了在进行分子系统发育推断和分歧时间推断过程中,在各个步骤和环节可能造成影响的一些因素。在以前,尤其是5-6年以前,研究者侧重于重视分析层面的因素,但实际上数据层面的影响因素是更多的。近年来越来越多期刊强制要求上传最终的矩阵文件,体现了研究者对于数据本身的重视程度的提高。 表1. 影响系统发育重建和分歧时间推断的可能因素 数据层面 标本阶段:内群选取、外群选取、样品污染、鉴定错误 实验阶段:序列总长、扩增错误、样品数量、样品质量 测序阶段:基因及位点的覆盖度、测序错误、拼接错误 比对阶段:碱基或氨基酸的位置同源性受长度变异影响 基因属性:碱基或氨基酸的组成、替换类型、替换速率 分析层面 算法选择、软件选择 进化模型检测软件与系统发育重建软件之间的衔接 参数设定 时间标定过程中的化石选择(分歧时间推断) 系统发育分析中常说的随机误差(stochastic error)和系统误差(systematic error),其实都主要在数据层面。随机误差主要是说分子标记的序列总长较短,到底能否代表物种间的遗传分异,这个问题有一些计算机模拟分析给出过答案,当序列总长在3-10kb时,随机误差已经不大,10kb以上时则很小 。系统误差主要是说各种方向的偏异(bias),常被提及的是内群选取的完整性和外群选取的合理性,以及碱基和氨基酸组成的偏异。以线粒体基因组为例,其实单其中的蛋白质编码基因总长已经不低,但是由于线粒体基因组碱基偏异的普遍较重,因而越来越少单独使用,而是和核基因联用,并且越来越多使用氨基酸序列。 对于内群选取、外群选取、序列比对等因素的影响,可以设计单因素对照分析。准确的物种鉴定要依靠分类学家 J 。数据层面的其它因素一般通过在实验或分析过程中进行质量控制来提高质量。 在分析层面,参数设定没有展开,其中大多是可以进行单因素对照分析的。化石类群的选取虽然已经有比较丰富的数据库信息可以利用,但在标定时的选用仍然有待进一步标准化。 更多系统发育相关内容可以阅读之前的日志 1996-2015的20年间主要序列分子标记在系统发育重建中的使用简况 http://blog.sciencenet.cn/blog-1292052-963321.html rRNA二级结构中的分子独征在系统发育重建中的应用--澳丝蝽科案例 http://blog.sciencenet.cn/blog-1292052-954459.html 系统发育重建中主流算法的未来走向 http://blog.sciencenet.cn/blog-1292052-943070.html 分歧时间研究中用作标定的化石所处的层位时间 http://blog.sciencenet.cn/blog-1292052-935151.html 目前分子系统发育研究中的两点局限性 http://blog.sciencenet.cn/blog-1292052-923288.html 互相独立多证据的一致指向在分歧时间推断中的应用--蝽类昆虫案例 http://blog.sciencenet.cn/blog-1292052-922084.html 高级阶元昆虫转录组研究中的标本问题 http://blog.sciencenet.cn/blog-1292052-905190.html 参考文献 Delsuc F, Brinkmann H, Philippe H. 2005. Phylogenomics and the reconstruction of the tree of life. Nat. Rev. Genet. 6:361-375.
5945 次阅读|1 个评论
[转载]【转载】真核多细胞动物基因家族进化树的构建
Pandar 2015-5-26 21:02
适用范围 ======== 真核多细胞动物基因家族进化树的构建 评价 ==== 方法:距离法(distance-based method),简约法(parsimony),极大似然法(max-likelihood, ML),Bayes方法。 从前人和我的评测上看,ML方法综合起来是最准确的,并且相对起来不易受数据质量和各种理论与模型偏差的干扰,但这种优势并不十分明显,有时距离法和简约法也会超过ML方法。基于蛋白质的简约法效果也较好,经常可与ML方法相比,但似乎它要求输入质量较好的数据,我在用基于DNA的dnapars (in PHYLIP package)时能感觉到这一点;另外,简约法一般被认为对近源序列有很好的效果(我没有这方面经验)。距离法一般比前两种差。Bayes方法本质上是ML但允许更灵活的模型,有时Bayes方法被认为是算support value的好方法,但多数学者认为Bayesian support value is 'excessively high'。 评测表明各种算法都有自己的强项,对某种特定进化历史的数据,某一种方法可能一致的超越另一种。前面说ML最好只是说平均起来较好,但对一个特定的家族并不其然。因此尝试多种方法总是准确建树的保证。对于不同算法建出树的差别只有融汇生物学的知识才能作出判断。 极大似然法(ML) +++++++++++++ 建ML树的推荐程序是PHYML。这是一种近似算法,但效果已经足够好。这个程序使建ML成为可能;以往的ML程序都是慢到难以忍受。 简约法(parsimony) +++++++++++++++ 以PAUP*为首选,也可选择PHYLIP。PAUP*是要钱的,尽管还不算很贵。我的经验是蛋白水平明显好于核苷(protpars vs. dnapars) 距离法(distance-based method) +++++++++++++++++++++++ 两种选择:若想快速建一棵带bootstrap的树,推荐quicktree与clustalw/x;若想建很sophisticated的树,建议用PHYLIP生成bootstrap的多序列比对,用tree-puzzle计算距离,再用phylip建一致树(之所以中间换用tree-puzzle是因为PHYLIP的protdist写的有问题,过于慢,另外tree-puzzle的ML模型比较完备)。 据最近的评测,fastme和bionj都超过了standard neighbour-joining,我的经验也认同这一点。如果可能要考虑这两个软件。但如果嫌软件换来换去很麻烦,不用也罢。 windows用户可以考虑MEGA,我没用过,不作过多评价。 在距离计算上,我的经验是在protein level, p-distance一致好于用复杂模型计算出来的距离(这一点很奇怪,我至今没想明白),clustalw中的Kimura校正是最差的,千万不要使用。一般的,使用核苷的HKY模型好于使用蛋白(因为HKY比p-distance好)。另,我前面的文章说“对远源序列p-distance好”是不对的,nei的书也不是这么说的,我记错了。 建议构树过程 ============ 1. 选序列。不要把过远的序列选出来,很长的branch对任何算法都是挑战,尽管据说ML受到的影响略小。 2. 比对。使用MUSCLE,如果序列量不大选择PROBCONS。这两个软件的准确性都明显高于clustalw。用clustalw也可以,由于已成习惯,别人不会有太大异议。CDS区nucleotide的比对要先用蛋白比对再转换到核苷,这也叫做codon比对。直接的核苷比对对较远的序列很不可靠。已有评测表明这种比对更有利于准确建树。 3. 比对的处理。要把明显比对乱套的地方除去,不好的片段也要mask掉,clustalx中的工具可以用来作到这些。更多的我也说不出来,这种事我没怎么做过。 4. 建树。如果建树量不大,我建议一定要用PHYML建一棵ML树at both protein and nucleotide level。蛋白水平的parsimony是有益的补充。距离法再次。当数据量很大时,可能只有用距离法,如果有大的机群,也要考虑用PHYML。无论怎样,bootstrap一定要做,PHYML内置此功能,尽管要等很长时间。对NJ树,quicktree/MEGA/clustalw都可以很方便的bootstrap,但其中似乎只有MEGA能使用复杂的ML模型来算距离(使用tree-puzzle + phylip比较麻烦而已)。 模型的选择 ========== 模型选择是很艰深的理论,我不去讨论理论上的东西。一般的,核苷模型用HKY,蛋白用WAG(WAG与JTT相当,但比之新)。核苷上不建议使用更复杂的模型,蛋白上建NJ树可以考虑直接用p-distance(见前)。 一般用Gamma分布来修正位点间进化速率的差异。我的经验是的确有作用,但效果并不明显。不同软件在这一部分的实现是不尽相同的,我下面说的仅针对tree-puzzle和phyml。 这两个软件很相似,都使用离散的Gamma分布,如果使用Gamma分布可以把它分成4类,较多的类数会增加运算时间。如果不是确知颠换/转换比,可以让软件从数据中估计。Gamma分布的形状因子alpha也是如此,但我习惯上把它固定为1.0(弱不同)。 原文地址: http://www.dxy.cn/bbs/thread/6068617#6068617
个人分类: Phylogenetic|1767 次阅读|0 个评论
文献讨论2: 生境片段化区域的系统发育多样性研究
mengchanghe 2012-2-17 10:04
Maintenance of tree phylogenetic diversity in a highly fragmented rain forest.pdf Maintenance of tree phylogenetic diversity in a highly fragmented rain forest 蚊子虽小也有二两肉。 斑块甭管多大,都有同样的phylogenetic diversity. 所以说,在保护上是同等意义的。
个人分类: 文献阅读及心得|3195 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 19:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部