raindyok的个人博客分享 http://blog.sciencenet.cn/u/raindyok

博文

【持续更新】系统发育分析 FAQ

已有 18419 次阅读 2013-5-24 11:49 |个人分类:软件教程|系统分类:科研笔记|关键词:学者| 模型, 比对, 替换, 系统发育

  【絮语】系统发育分析是研究物种进化和系统分类的一种常见方法,构建系统发育树也就是我们通常所说的建树,经常有人让帮忙建树,虽非系统发育专业人士, 但在科研工作者经常与之打交道,分享一些积累的建树经验,权当抛砖引玉,希望对新手有用,特此整理一些常见问题如下:
  1.什么序列适合建树?(建树的前提)
  
周围很多人都习惯性拿到序列,直接多重比对后,顺手拿个软件直接建树。其实,有些序列根据不适合建树,构建的系统发育树根本没有意义,不过徒增一个冗余数据而已,这种情形也常见于一些国内期刊中。孰不知,建树都有一定的前提,比如:对于核苷酸序列,其中最主要是序列饱和度检验(Test of substitution saturation)。如果建树所用的序列已趋于饱和状态,就没有完全必要建树。

  2. 建树常见的方法有哪些?(优缺点及适用条件)
  常见的建树方法有邻接法(Neighbor-Joining, NJ)、最大似然法(Maximum Likehood, ML)、最大简约法(Maximum Parsimony, MP)和贝叶斯法( Bayesian inference, BI)。
  NJ法是基于最小进化原理经常被使用的一种算法,它构建的树相对准确,假设少,计算速度快 ,只得一颗树。适用于进化距离不大,信息位点少的短序列。缺点是序列上的所有位点等同对待,且所分析的序列的进化距离不能太大;
  ML法考虑到每个位点出现的残基的似然值,将每个位置所有可能出现的残基替换概率进行累加,产生特定位点的似然值。ML法对所有可能的系统发育树都计算似然函数,似然函数值最大的那颗树即最可能的系统发育树。在进化模型确定的情况下,ML法是与进化事实吻合最好的建树算法,但缺点是计算强大非常大,极为耗时。
  MP法是基于进化过程中碱基替代数目最少这一假说。适用于序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。缺点是推测的树不是唯一的,变异大的序列会出现长枝吸引而导致建树错误。
  BI法基于进化模型的统计推论法,具有完整而坚实的数学和统计学基础,可以处理复杂而接近实际情况的进化模型,可以将现有的系统发育知识整合或体现在先验概率中,通过后验概率直观反映出各分支的可靠性而不需要通过自举法检验。适用于大或复杂的数据集,缺点是对进化模型比较敏感,BI法中指定的每个氨基酸的后验概率建立在许多假说条件下,在现实中可能不成立。

  3.如何建树?(规范流程)
  (1)多重序列比对;(2)序列保守区选择;(3)核苷酸替代模型选择(蛋白质类似,MP法不需要这个步骤);(4)选择建树方法(NJ、ML、BI、MP)...


  4.如何进行建树的多重比对? (比对的方法选择)
  速度:Muscle>MAFFT>ClustalW>T-Coffee;准确性:MAFFT>Muscle>T-Coffee>ClustalW,所以推荐使用MAFFT这款多重比对软件。延伸阅读,KarenM. Wong et al., Science (2008)
  5.如何处理冗余的序列?(保守区的选择)

  人为手式删除冗余序列,偏向主观化,数据不具重复性,推荐使用Gblock 0.91b软件来处理,在线服务器:http://www.phylogeny.fr/version2_cgi/one_task.cgi?task_type=gblocks,Gblock适用于长的多重比对序列,如果多重比对序列较短,不推荐使用Gblock处理。

  6.如何选择适合建树序列的核苷酸/氨基酸替代模型?(进化模型选择)
  7.如何联合多基因建树?
  8.如何构建贝叶斯树?
  9.如何使用PAUP建树?

  10.如何重建祖先序列? 

未完待续...




https://m.sciencenet.cn/blog-460481-693042.html

上一篇:多重比对着色软件包 TEXshade 图解教程(一)
下一篇:核苷酸替代模型的选择

4 叶威源 白昌明 孙瑜隆 张余杰

该博文允许注册用户评论 请点击登录 评论 (9 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-12 12:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部