博文

【持续更新】系统发育分析 FAQ

已有 18419 次阅读 2013-5-24 11:49 |个人分类:软件教程|系统分类:科研笔记|关键词:学者| 模型, 比对, 替换, 系统发育

　　【絮语】系统发育分析是研究物种进化和系统分类的一种常见方法，构建系统发育树也就是我们通常所说的建树，经常有人让帮忙建树，虽非系统发育专业人士，但在科研工作者经常与之打交道，分享一些积累的建树经验，权当抛砖引玉，希望对新手有用，特此整理一些常见问题如下：
　　1.什么序列适合建树？（建树的前提）
　　周围很多人都习惯性拿到序列，直接多重比对后，顺手拿个软件直接建树。其实，有些序列根据不适合建树，构建的系统发育树根本没有意义，不过徒增一个冗余数据而已，这种情形也常见于一些国内期刊中。孰不知，建树都有一定的前提，比如：对于核苷酸序列，其中最主要是序列饱和度检验（Test of substitution saturation）。如果建树所用的序列已趋于饱和状态，就没有完全必要建树。

　　2. 建树常见的方法有哪些？（优缺点及适用条件）
　　常见的建树方法有邻接法（Neighbor-Joining, NJ）、最大似然法（Maximum Likehood, ML）、最大简约法（Maximum Parsimony, MP）和贝叶斯法（ Bayesian inference, BI）。
　　NJ法是基于最小进化原理经常被使用的一种算法，它构建的树相对准确，假设少，计算速度快，只得一颗树。适用于进化距离不大，信息位点少的短序列。缺点是序列上的所有位点等同对待，且所分析的序列的进化距离不能太大；
　　ML法考虑到每个位点出现的残基的似然值，将每个位置所有可能出现的残基替换概率进行累加，产生特定位点的似然值。ML法对所有可能的系统发育树都计算似然函数，似然函数值最大的那颗树即最可能的系统发育树。在进化模型确定的情况下，ML法是与进化事实吻合最好的建树算法，但缺点是计算强大非常大，极为耗时。
　　MP法是基于进化过程中碱基替代数目最少这一假说。适用于序列残基差别小，具有近似变异率，包含信息位点比较多的长序列。缺点是推测的树不是唯一的，变异大的序列会出现长枝吸引而导致建树错误。
　　BI法基于进化模型的统计推论法，具有完整而坚实的数学和统计学基础，可以处理复杂而接近实际情况的进化模型，可以将现有的系统发育知识整合或体现在先验概率中，通过后验概率直观反映出各分支的可靠性而不需要通过自举法检验。适用于大或复杂的数据集，缺点是对进化模型比较敏感，BI法中指定的每个氨基酸的后验概率建立在许多假说条件下，在现实中可能不成立。
　　3.如何建树？（规范流程）
　　（1）多重序列比对；（2）序列保守区选择；（3）核苷酸替代模型选择（蛋白质类似，MP法不需要这个步骤）；（4）选择建树方法（NJ、ML、BI、MP）...

　　4.如何进行建树的多重比对？（比对的方法选择）
　　速度：Muscle>MAFFT>ClustalW>T-Coffee；准确性：MAFFT>Muscle>T-Coffee>ClustalW，所以推荐使用MAFFT这款多重比对软件。延伸阅读，KarenM. Wong et al., Science (2008)
　　5.如何处理冗余的序列？（保守区的选择）

　　人为手式删除冗余序列，偏向主观化，数据不具重复性，推荐使用Gblock 0.91b软件来处理，在线服务器：http://www.phylogeny.fr/version2_cgi/one_task.cgi?task_type=gblocks，Gblock适用于长的多重比对序列，如果多重比对序列较短，不推荐使用Gblock处理。

　　6.如何选择适合建树序列的核苷酸/氨基酸替代模型？（进化模型选择）
　　7.如何联合多基因建树？
　　8.如何构建贝叶斯树？
　　9.如何使用PAUP建树？

　　10.如何重建祖先序列？

未完待续...

转载本文请联系原作者获取授权，同时请注明本文来自高芳銮科学网博客。
链接地址：https://m.sciencenet.cn/blog-460481-693042.html

上一篇：多重比对着色软件包 TEXshade 图解教程（一）
下一篇：核苷酸替代模型的选择

收藏分享