科学网

 找回密码
  注册

tag 标签: beast

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

每日翻译20190719
Bearjazz 2019-7-19 07:38
# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz Examples Figure 2 presents a reconstruction of the gene tree relating 13 species of Darwin’s fnches from a 2,065-bp partial nucleotide alignment of the mitochondrial control region and cytochrome b genes (Sato et al. 1999) and fve continuously measured phenotypic traits of the corresponding species (Sulloway 1982). In performing this simultaneous inference, we exploit the RLC model (Drummond and Suchard 2010) and find evidence for one suggestive rate change (Bayes factor in favor of the RLC over a strict clock = 2.3) in the lineage leading to the Cocos Island Finch, Pinaroloxias inornata. Multivariate Brownian trait diffusion shows strong correlation between wing and tarsus length and between bill depth and gonys length. Posterior trait prediction at any point along the history is possible and, currently unique to BEAST, comparative method inference is performed jointly with phylogenetic inference. 举例说明 图 2 展示了 13 个达尔文雀的基因树情况,该树是基于 2065 bp 线粒体控制区和细胞色素 b 基因( Sato et al. 1999 )比对序列以及相关物种 5 个表型量化特征构建的( Sulloway 1982 )。在进行这一同步推断的过程中,我们采用了 RLC 模型( Drummond and Suchard 2010 )且在科科斯岛雀( Pinaroloxias Inornata )的谱系中找到一个提示性速率变化的证据( strict clock = 2.3 时, Bayes 因子对 RLC 最优)。多变异的布朗性状扩散显示翼长与跗骨长度之间以及 嘴高 与下喙长度之间的存在强相关性。对于 BEAST 来说,进化树上任何一点的后验特性预测都是可能且唯一,(特征)比较推理与系统发育推理相可以结合起来。 Drummond A J , Suchard M A , Xie D , et al. Bayesian Phylogenetics with BEAUti and the BEAST 1.7 . Molecular Biology and Evolution, 2012, 29(8):1969-1973.
个人分类: 翻译作品|1362 次阅读|0 个评论
每日翻译20190718
Bearjazz 2019-7-18 07:30
# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz Performance Finally, to exploit high-performance computing, BEAST 1.7 integrates with and provides a GUI interface to confgure the BEAGLE library (Ayres et al. 2011) that utilizes multicore processors, vectorization, and massively parallel graphics processors to substantially decrease BEAST runtimes (Suchard and Rambaut 2009) 性能 最后,为了利用高性能计算, BEAST 1.7 集成并提供了一个 GUI 接口来配置 BEAGLE 库( Ayres et al. 2011 ),它利用多核处理器、矢量化和大规模并行图形处理器大幅减少 BEAST 运行时间( Suchard and Rambaut 2009 ) Drummond A J , Suchard M A , Xie D , et al. Bayesian Phylogenetics with BEAUti and the BEAST 1.7 . Molecular Biology and Evolution, 2012, 29(8):1969-1973.
个人分类: 翻译作品|1394 次阅读|0 个评论
每日翻译20190717
Bearjazz 2019-7-17 07:58
# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz Molecular Clocks We have refned the relaxed clock models to allow more than one branch to have the same rate value to remove anticorrelation. In practice, this will only have any appreciable impact on trees that have a small number of branches (15 taxa). An effcient implementation of the relaxed clock models that facilitates calculation of Bayes Factors for model selection and model averaging of several clock models has also be developed (Li and Drummond, 2012). Further, we provide a new random local clock (RLC) model (Drummond and Suchard 2010), in which all possible local clock confgurations and a strict clock are nested, providing a convenient model to test for a strict clock. Heled and Drummond (2011) begins to investigate alternative approaches to the calibration of tree priors with fossil and geological evidence, and this area of research is still in its infancy. Often, uncertainty exists in the age of viral RNA/DNA or ancient DNA samples and these can now be incorporated (Shapiro et al. 2011), along with models for sequence damage and error (Rambaut et al. 2009). 分子钟 我们重新定义了松散的时钟模型,以允许多个分支具有相同的速率值来消除反相关。在实践中,这只会对枝条数量很少( 15 个分类群)的树产生明显的影响。此外,还开发了实施有效的简化时钟模型,该模型有助于计算模型选择的贝叶斯因子和几个时钟模型的模型平均( Li and Drummond, 2012 )。此外,我们还提供了一个新的随机局部时钟( RLC )模型( Drummond and Suchard 2010 ),其中嵌套了所有可能的局部时钟配置和严格的时钟,为测试严格的时钟提供了一个方便的模型。 Heled 和 Drummond ( 2011 )开始研究用化石和地质证据来校准树先验值,这一研究领域仍处于起步阶段。通常,病毒 RNA/DNA 或古代 DNA 样本的年龄存在不确定性,现在可以整合( Shapiro et al. 2011 )到序列损伤和误差模型( Rambaut et al. 2009 )。 Drummond A J , Suchard M A , Xie D , et al. Bayesian Phylogenetics with BEAUti and the BEAST 1.7 . Molecular Biology and Evolution, 2012, 29(8):1969-1973.
个人分类: 翻译作品|1416 次阅读|0 个评论
每日翻译20190716
Bearjazz 2019-7-16 21:10
# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz Phenotypic Trait Analysis For trait inference including phylogeography, we now provide several tools for mapping posterior distributions of trees onto higher dimensional or geographics maps for both interactive exploration and better visualization (Bielejec et al. 2011). These tools interface with GoogleEarth via keyhole markup language and enable users to generate animations of evolutionary processes through time and real space; see http://www.phylogeography.org for several examples. 表型性状分析 对于包括系统地理学在内的特征推断,我们现在提供了几种工具,用于将系统树的后验分布映射到更高维度或地理地图上,以便进行交互式探索和更佳可视化( Bielejec et al. 2011 )。这些工具通过 keyhole 标记语言与 GoogleEarth 交互,使用户能够通过时间和真实空间生成进化过程的动画;有关几个示例,请参见 http://www.phylography.org 。 Drummond A J , Suchard M A , Xie D , et al. Bayesian Phylogenetics with BEAUti and the BEAST 1.7 . Molecular Biology and Evolution, 2012, 29(8):1969-1973.
个人分类: 翻译作品|1390 次阅读|0 个评论
每日翻译20190715
Bearjazz 2019-7-15 07:02
# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz Multispecies Coalescent Discordance between individual gene trees that share a phylogenetic history results from incomplete lineage sorting and becomes increasingly likely when times between speciation events are short compared with species’ population sizes. We provide a fully Bayesian implementation of the multispecies coalescent that improves the accuracy and precision of species tree reconstruction (Heled and Drummond 2010) and divergence time estimation (McCormack et al. 2011). 多物种溯祖 共享一个系统发育史的多个单基因树之间的不一致性是由于不完全的谱系分类造成的,并且与物种的种群规模相比,当物种形成事件之间的时间较短时,这种不一致性变得越来越可能。我们提供了多物种联合溯祖的全贝叶斯实现,提高了物种树重建( Heled and Drummond 2010 )和分化时间估计( McCormack et al. 2011 )的精准度。 Drummond A J , Suchard M A , Xie D , et al. Bayesian Phylogenetics with BEAUti and the BEAST 1.7 . Molecular Biology and Evolution, 2012, 29(8):1969-1973.
个人分类: 翻译作品|1507 次阅读|0 个评论
每日翻译20190714
Bearjazz 2019-7-14 07:11
# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz Heterogeneous Data Multiple data partitions may reflect separate loci for simultaneous inference of genealogies and species trees (Heled and Drummond 2010) and stochastic ancestral recombination graph reconstruction (Bloomquist and Suchard 2010) or the growing wealth of nonsequence data and their respective substitution models. These latter data and models include microsatellite markers (Wu and Drummond 2011), phenotypic traits under a multistate stochastic Dollo process (Alekseyenko et al. 2008), discretized geographic diffusion (Lemey et al. 2009), and multivariate continuous relaxed random walks (Lemey et al. 2010). We also ease the use of a growing number of tree prior specifcations. These include the extended Bayesian skyline model (Heled and Drummond 2008) for multilocus data, the flexible Gaussian Markov random field skyride model (Minin et al. 2008), and birth–death models of speciation (Stadler 2010) . 异质数据 多重数据分区可能反映了使用不同的基因座同时推断系谱和物种树( Heled and Drummond 2010 )和随机祖先重组图重建( Bloomquist and Suchard 2010 )或日益丰富的非序列数据及其自身的替代模型。后一种数据和模型包括微卫星标记( Wu and Drummond 2011 ),多状态随机 Dollo 过程下的表型特征( Alekseyenko et al. 2008 ),离散地理扩散( Lemey et al. 2009 ),以及多变量连续松弛随机行走( Lemey et al. 2010 )。我们还可以轻松使用越来越多的系统发育树的先验设置。包括针对多基因片段数据的扩展贝叶斯天际线模型( Heled and Drummond 2008 ),弹性高斯马尔可夫随机场天桥模型( Minin et al. 2008 ),以及物种形成的出生 - 死亡模型( Stadler 2010 )。 Drummond A J , Suchard M A , Xie D , et al. Bayesian Phylogenetics with BEAUti and the BEAST 1.7 . Molecular Biology and Evolution, 2012, 29(8):1969-1973.
个人分类: 翻译作品|1723 次阅读|0 个评论
每日翻译20190712
Bearjazz 2019-7-12 07:06
# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz Here, we present a major new version of the molecular evolutionary software package Bayesian Evolutionary Analysis by Sampling Trees (BEAST), updated to version 1.7, and representing a signifcant software advance over that previously described (Drummond and Rambaut 2007). Alongside the primary analysis engine in BEAST, this package also includes a suite of utilities for specifying the analysis design, processing output files, and summarizing and visualizing the results. Taken together, these programs enable Bayesian inference of molecular sequences with an emphasis on time-structured evolutionary models including phylodynamic models, divergence time estimates, multiloci demographic models, gene–/species–tree inference, a range of spatial phylogeographic analyses, and discrete and continuous trait evolution. Implementing Markov chain Monte Carlo (MCMC) algorithms to perform these inferences, the package is intended and used for rigorous statistical inference and hypothesis testing of evolutionary models with joint inference of phylogeny. It is also possible to constrain portions of the phylogenetic model space to known values, including the tree topology, and perform conditional inference if required. 在这里,我们提出了 BEAST 一个重要更新版本( 1.7 版),相较先前介绍的版本( Drummond and Rambaut 2007 )它代表了一个显著的软件进步。除了 BEAST 中的主要分析核心要件外,此软件包还包括一套用于指定分析设置、处理输出文件以及汇总和可视化结果的实用程序。综合起来,这些程序使分子序列的贝叶斯推断成为可能,重点是时间结构进化模型,包括系统动力学模型、分化时间估计、多基因座种群模型、基因 / 物种树推断、空间分布范围系统地理分析,以及离散和连续的特征进化。利用马尔可夫蒙特卡罗( MCMC )算法实现这些推断,并将其应用于系统发育联合推论的进化模型的严格统计推断和假设检验。还可以将系统发育模型空间的一部分限制为已知值,包括树拓扑结构,并在需要时执行条件推断。 Drummond A J , Suchard M A , Xie D , et al. Bayesian Phylogenetics with BEAUti and the BEAST 1.7 . Molecular Biology and Evolution, 2012, 29(8):1969-1973.
个人分类: 翻译作品|1391 次阅读|0 个评论
BEAST 分析 FAQ (20180302更新)
热度 5 raindyok 2018-2-6 14:37
Raindy 注: 本文首发于本人QQ空间日志(https://user.qzone.qq.com/58001704/blog/1502418934),将不 定期更新,希望对初学者有帮助,欢迎关注。如需转载请保留原作者信息。 Q1: BEAST 有1.x 和 2.x 两个系列,如何选择? A1 : 可以根据分析不同目的进行选择,两个版本的特点简述如下: I、BEAST 1的特点: (1)适用于分析群体或物种级别的数据; (2)可以同时评估树和节点的时间; (3)分子钟模型的范围更广; (4)树先验(Tree Prior) 和 demographic 模型范围更广; II、BEAST 2的特点: (1)重写的程序,更多模块化; (2)可以通过添加包(Packages)来扩展BEAST; (3)BEAST 1中的树先验(Tree Prior) 在该版本中不可用; (4)支持数据模拟; 更多的功能比较,可以访问BEAST官网查看( http://beast2.org/beast-features/ ) Q2: 如何比较BEAST中哪个模型最佳? A2 : 一般通过贝叶斯因子法(Bayes Factor, BF)来比较两个模型的边际似然值(Marginal Likelihood),简单办法: 通过BF法分析后 ,哪个模型对应的LnL值越大,相对更优。具体也可以通过以下操作来确定:在Tracer 中同时导入两个模型的xx.log 文件,选中所有要比较的模型后,依次点击菜单Analysis---Model Comparation,Analysis type改为Harmonic mean,Reps=100,最后根据获得的BF值(BF=Pr(D|M1)/Pr(D|M2)至少大于3,则说明M1M2)范围判断模型间的优劣程度。下图所示,第三个数据最佳(P_UCL_Constant_80M.log) Q3: 模型中位点间的速率变异呈gamma分布,如何确定较为准确的Gamma类型数(Number of Gamma Categoies, nCat)? A3: Gamma分布的形状通过alpha参数来确定,如下所示。当alpha值很小时,大部分位点慢速进化,只有一小部分位点快速进化;但当alpha值非常大时,大部分的位点以接近相同的速度进化。因此,当alpha值比较小时(如:shape=0.32,该值可以通过模型软件计算获得),可以将nCat设置为6(默认值为4)进行分析 。 Q4:BEAST 分析过程中,断电了怎么办? A4: BEAST 1.x 没有断点续行功能,可以更名后重新运行,最后合并前后运行的数据;BEAST 2.x 有断点续行功能,可以追加运行,有点类似于Mrbayes的Checkpoint功能,如下图所示。 Q5:Baysian skyline analysis 时,popsize和groupsize一直不收敛,怎么办? A5: 这两个参数不收敛,说明BEAUti配置时这两个所使用的默认参数不合适,可以在Operator标签修改(下图)或直接用记事本类工具修改,一般修改为原来值的10倍,如下图所示,将15.0改为150,6.0修改为60即可...此方式也适用于 Exponential growth 模型。 Q6:如何给BEAST及相关的工具增加虚拟内存? A6: BEAST运算生成的结果文件,特别是tree文件,通常都比较大,使用TreeAnnotator 生成MCMC树,经常因为内存不足报错,其主要原因是虚拟内存设置过低。解决的办法有两种,一种是直接修改Java程序包中的Info.plist文件;另一种是用命令行运行,类似“java -Xms64m -Xmx256m -jar lib/beast.jar”。前者修改后一劳永逸,推荐使用,选择程序对象,如BEAST后,右键选择“显示包内容”,在打开的“Contents”目录内用文本编辑器工具打开Info.plist(mac系统推荐使用免费Pref setter)将JVMOptions下的Item 1的虚拟内存调大,如 -Xmx256m改为-Xmx6g,如下图所示: Q7:如何判断自己的数据适合严格(strict)分子钟还是宽松(relaxed)分子钟模型? A7: 可以先用宽松分子钟结合简单的Tree piror配置个xml文件,MCMC链长不需要很大,运行结束后,将xx.log文件通过Tracer导入,查看xxx.coefficientOfVariation 这个参数,该值介于0和1之间。如果值越接近于0,说明数据更接近严格分子钟模型;反之,更偏向于宽松分子钟模型,如下图,该值为0.511,说明该数据适合宽松分子钟模型。 PS :如果分析的数据有时间信号,可以通过Phylogenetic dating的treedater包来分析,详见日志: http://user.qzone.qq.com/58001704/blog/1506493780 Q8:如何判断数据中的采样时间是否可用于分子钟 校准 ? A8: 一般启用BEAUTi中的Tip dates 功能前,需要做个日期随机化检验(Date-randomizationtests, DRTs);如果没有通过DRTs,则说明数据中没有时间结构,不可用于分子钟校准。常见的DRTs 分析软件有TipDatingBeast(R包)、least-squares dating (LSD) ,如下图所示,该数据的采样时间具有时间信号,可以用于分子钟校准,相关方法描述详见本人2017年发在EVA上的文章( http://onlinelibrary.wiley.com/doi/10.1111/eva.12459/abstract )。 \0 \0 Q9:如何绘制 Extended Bayesian Skyline Plot 图? A9: 常规的Bayesian Skyline 可以直接通过Tracer 的Analysis菜单中“Bayesian Skyline Reconstruction”来生成,然而Extended Bayesian Skyline Plot (EBSP) 却不能直接应用Tracer操作,早期绘制EBSP图也比较麻烦,通常需要一些脚本来实现。其实一些高版的BEAST已经内置EBSP analyser,只是需要通过命令行来操作,可以通过cd 命令切换到beast.jar 所在的目录后,输入 java -cp beast.jar beast.app.tools.EBSPAnalyser即可调用出EBSP analyser,如下图所示。如果喜欢用R脚本,当然可以下载 RplotEBS.R ( https://sites.google.com/site/santiagosnchezrmirez/home/software/r )来操作 \0 \0 Q10:如何获得MCC树中的根状态后验概率( root state posterior probabilities)? A10: 可以打开 TreeAnnotator 对定义Trait的Sample tree进行注释,最后得到MCC树,用Notepad++之类的工具打开,并将光标定位到文件末尾,找到一串类似于“ xxx .set.prob”的字符串,=后紧随的是各定义Trait的后验概率数值,对应的Trait 顺序可以向后找到“ xxx .set=”,比如: Country .set.prob={9.777E-4,0.989,...}, Country .set={China,Turkey,Spain,...} 即中国、土耳其、...对应的root state posterior probabilities分别为9.777E-4,0.989,...。这些数据提取到Excel中通过绘制簇形柱形图即可得到类似下图左上角的效果图。 \0 \0 Q11:如何通过LSD快速获得tMRCA和进化速率 ? A11: 估算tMRCA和进化速率常见的方法有:(1)Bayesian算法(软件:BEAST);(2)Least-squares dating(软件LSD);(3)Root-to-tip (软件TempEst);(4)Treedater (R包 Treedater );(5) TreeTime (Python 包)。其中BEAST最为常用,但其运算量相对较大。相比较之下,LSD以快速著称,可以支持不同算法构建的系统发育分析作为输入源。应用LSD简单 三步可以快速估算 tMRCA和进化速率: Step1:获得通过ML法或其他算法构建一个系统发育树; Step2:准备两个文件,一个采样日期(类似格式:taxa1 2001.xx)和序列的Outgroup文件; Step3:命令行运行 ./bin/lsd_mac -i ./sample.tre -d ./sample.date -c -r l -f 100 \0 \0 如上图:估算的某植物病毒CP基因进化速率为 5.972E-5 subs/site/year(95%CI: 2.587E-5-7.321E-5) Q12: 如何应用文献报道的化石记录 进行 分子钟校准? Q12: 通常两个步骤可以完成:第一,将序列导入BEAUti后,切换到“Taxon Sets” 标签,点击左下角的“+”添加一个新的sets(示例Taxa sets 名为Test),即有化石记录的Taxa归为一个Taxon Sets,并设置其他参数完毕,切换到“Prior”,双击点开参数“tmrca(Test)”的Prior窗口,选择合适的Piror Distribution(示例为Uniform),文献报道将化石校准点 Min=528.28 Ma 和 Max=636.1 Ma 分别填入 Upper 和 Lower 后的文本框内,“Generate BEAST File” 文件生成xml文件。第二,在生成的xml文件中,找到Starting Tree 位置,把冗余的代码删除,替换上自定义的Newick格式的树,如下图所示: Q13: 如何解决设置化石校准后xml 运行过程中Prior出现 zero probability 问题? A13: 主要原因:用户自定义的起始树无法正确约束校准点,例如Q12的校准点为 528.28-636.1 Ma的 uniform prior,也就是说任何 Root age 低于528.28 Myr 或高于636.1 Ma 的树将被指定为概率为零(a zero probability). 解决办法,将 Prior Distribution 由 Uniform 改为 normalPrior,并设置合适的区间范围,将Root age 限制在528.28-636.1 Ma区间内,如下图所示: Q14:BEAST运行程序过程中,遇到磁盘空间不够或内存不足导致xml文件末尾部分内容未运行完,如何处理? A14: 近期做EBSP分析时就遇到类似的情形, 除了用于EBSPplot的xx.csv 未生成外,其他分析均已完成,此时出现内存不足,重新再跑一遍是件非常痛苦的事, 尤其 对于大数据,有时候时间紧迫也不现实。解决的办法也简单,打开xml文件把已分析完成的部分内容删除,保留尚未分析的事项(下图所示),另存为一个xml,调用BEAST重新运行一下即可,大大节省时间。 Q15:BEAST分析时,链长需要和采样频率设置多少比较合适? A15: 没有普适的标准,一般是10^8(8次方),最主要的一点需要保证最后的样本最少得有10,000,比如:总链长300,000,000,采样频率可以使用30,000,即保证最终样本量达到10,000。 To be continued...
个人分类: 软件教程|32589 次阅读|8 个评论
一道程序设计习题引发的--再谈数字
furaibo 2010-1-7 20:12
下学期要给本科生上《C++面向对象的程序设计》,这对我来讲是门新课。但是有讲过几次Java的基础,我还是很有信心讲好的。 今天备课时,用Code Blocks开源集成开发环境,解了谭浩强老师《C语言程序设计》中的一道习题: 求 之值,其中a是10进制的数字,n是位数。 程序最终版如下: 为了给函数起个好的英文名字,我用循环整数在Google中搜索,得知这种整数的英文名为Repdigit,汉语也译为纯位数。用Wikipedia搜Repdigit,又有了新的发现。 (1) 弗里曼数 (Friedman number)。它是一个能够用其组成数字,通过四则运算、括号和幂组成式子,结果是其自身的数。比如: 123456789 和 987654321 都是弗里曼数。分别为: 123456789 = ((86 + 2 * 7) 5 - 91) / 3 4 987654321 = (8 * (97 + 6/2) 5 + 1) / 3 4 象343这样的, 343 = (3 + 4) 3 , 组成数字在式子中出现的顺序,与在该数中出现的顺序相同的弗里曼数,称为好弗里曼数。 很显然,纯位弗里曼数(repdigit Friedman number)一定是好弗里曼数。最小的纯位弗里曼数为: 99999999 = (9 + 9/9) 9-9/9 - 9/9 【参考文献】 Beast Number: http://mathworld.wolfram.com/BeastNumber.html Repdigit: http://mathworld.wolfram.com/Repdigit.html Friedman Number http://www2.stetson.edu/~efriedma/mathmagic/0800.html (2)数字666也是纯位数之一,六六大顺在中国可是个超级吉利的数字。在西方基督教里,却是魔鬼的数字(Beast number)。数学迷们发现了数字666有许多奇妙的性质。 ① 它是前7个素数的平方和。 2 2 + 3 2 + 5 2 + 7 2 + 11 2 + 13 2 + 17 2 = 666 ② 与 666 互素的数的个数为 666 = 216个 ③ 666 = 1 6 - 2 6 + 3 6 ④ 666 = 1+ 2 + 3 + 4 + 567 + 89 = 123 + 456 + 78 + 9 = 9 + 87 + 6 + 543 + 21 ⑤ 666还是三角数(triangular number)。T 36 = 666。 ⑥ 黄金分割数
个人分类: 杂谈|4172 次阅读|5 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-16 01:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部