科学网

 找回密码
  注册

tag 标签: PAML

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

选择压力分析之EasyCodeML完整篇(By Raindy)
raindyok 2019-2-19 13:58
絮语: 自然选择是五种遗传力(突变、重组、选择、基因流、漂变)之一,选择压力分析更是进化分析中不可或缺的一项重要内容。虽然本人也整理过包括《 PAML FAQ 》、《正选择分析之 Branch site model 篇( By Raindy )》和《 EasyCodeML 使用指南》等多篇相关的日志教程和一份课件《 EasyCodeML 选择压力分析 _ 北林》。由于相关内容比较零碎,值EasyCodeML软件文章接收在版之际,特整理此日志以飨有需要的科研工作者,并祝大家元宵节快乐。 如果您的文章使用 EasyCodeML 进行选择压力分析,欢迎参考以下格式进行引用: Gao F, Chen C, Arab DA, Du Z, He Y, Ho SYW. 2019. EasyCodeML: A visual tool for analysis of selection using CodeML. Ecology and Evolution .DOI: 10.1002/ece3.5015. 软件下载 :https://github.com/BioEasy/EasyCodeML 一、自然选择的检测 非同义替代与同义替换的比值,即: ω 值,也就是通常所说的 dN/dS (或 Ka/Ks )。 ( 1 )当 ω =1 时,中性进化 ( Neutral selection ),即不受选择: ( 2 )当 ω 1 时,正选择( Positive selection ); ( 3 )当 0 ω 1 时,负选择( Negative selection ,也叫净化选择或纯化选择 Purifying selection ) 二、 CodeML 中四个常见的模型假设及其工作流 在 CodeML 中,考虑不同序列间(考虑位点)或系统发育上的支系间(考虑支系 Lineage )的 ω 值不同,主要有以下四类常见的模型: 1. 枝模型( Branch model ) 主要用于对系统发育树中不同支系 ω 值差异性进行界定,主要有三个模型: ( 1 ) One-ratiomodel :假设系统发育树中所有支系的 ω 值相等; ( 2 ) Free-ratiomodel :假设系统发育树中所有支系的 ω 值不相等; ( 3 ) Two-ratiomodel :假设前景枝和背景枝的 ω 值不同; 2. 位点模型 ( Sitemodel ) 主要假设数据集中不同氨基酸位点受的选择压力不同(而不考虑不同支系间受的选择压力差异)。 该模型主要用于检测正选择( ω 1 )作用,共有 8 个不同假设的模型: ( 1 ) M0 (单一比率),即: One-ratio model ,假设所有位点具有相同的 ω 值; ( 2 ) M1a (近中性),假设仅有保守位点( 0 ω 1 )和中性位点( ω = 1 )而没有正选择位点( ω 1 )存在,这两类位点的比率分别为 p0 和 p1 ,其对应的 ω 值分别为 ω 0 、 ω 1 ; ( 3 ) M2a (正选择),该模型在 M1 基础上增加了第三类 ω 值 ,即假设除了保守位点和中性位点外,还存在处于正选择压力下的位点 ( ω 1 ) ,这三类位点的比率分别为 p0 、 p1 和 p2 ,其对应的 ω 值分别为 ω 0 、 ω 1 和 ω 2 ; ( 4 ) M3 (离散),假设所有的位点 ω 值呈简单的离散分布趋势; ( 5 ) M7 ( beta ),假设所有位点的 ω 属于矩阵( 0, 1 )并呈 beta 分布; ( 6 ) M8 ( beta ω ) ,该模型在 M7 基础上增加另一类 ω 值( ω 1 ); ( 7 ) M8a ( beta ω = 1 ),与 M8 模型类似,但将 ω 值固定为 1 ( ω =0 ); 3. 枝位点模型 ( Branch site model ) :主要假设不同氨基酸位点的和不同支系间受的选择压力均存在差异(既考虑位点间也考虑支系间的 ω 值存在差异),共有四个模型 Model A 、 Model B 、 Model C 和 ModelD ,主要参数如下: ( 1 ) Model A (Model 2 , NSites= 2 , ncatG=ignored) ( 2 ) ModelB(Model 2 , NSites= 3 , ncatG=ignored) ( 3 ) ModelC(Model 3 , NSites= 2 , ncatG=ignored) ( 4 ) ModelD(Model 3 , NSites= 3 , ncatG= 2 or 3 ) 4. 进化枝模型 ( Clade Model ):与枝位点模型类型,能同时检测多个进化枝( Clade ),共有 CmC 和 CmD 两种模型,主要参数如下: ( 1 ) CmC(Model 3 , NSites= 2 , ncatG= 2 or 3 ) ( 2 ) CmD(Model 3 , NSites= 3 , ncatG= ignored ) CodeML 分析大致工作流简要如下: ( 1 )配置零假设模型和备选模型的参数( codeml.ctl ); ( 2 )运行 CodeML 程序进行分析获得对应的 LnL 和 np 值; ( 3 )通过似然率检验( LRT )(卡方检验)获得 p 值确定零假设模型和备选模型之间是否存在差异; ( 4 )根据结果进行解读。 三、 EasyCodeML 的主要功能及其改进 EasyCodeML 是一款以 CodeML 为内核的、通过可视化交互式的操作进行选择压力分析的工具,并整合了 CodeML 中主要的基于密码子的模型( Codon-based models )。该软件由 Java 程序语言编写,并已编译好适用于 Windows 、 Mac OS X 和 Linux 三个操作系统预编译版本(其他系统操作未测试,不能保证其正常运行)。在运行 EasyCodeML 前,请检查对应的操作系统中是否已经安装最近版本的 Java 运行环境( Java Runtime Environment, JRE 1.6 或更高版本 ) 。与其他的选择压力分析工具比较, EasyCodeML 主要功能如下: 1. 两种运行模式 EasyCodeML 中提供了两种运行模式, 第一种是预置模式( PresetMode ),让用户彻底告别原 CodeML 晦涩高深的操作,只是轻松点击即可完成,尤其适合新手使用;第二种是定制模式( Custom Mode ),让用户根据需要随时调整或修改相关参数,适合于 CodeML 老手使用; ( 1 ) 预置模式 ( PresetMode ),即在该运行模式下,已经整合了用于选择压力分析的常见成对模型的主要参数,并通过流水线式自动完成分析。这些成对模型包括枝模型( M0 vs. Two-ratio model )、位点模型( M0 vs. M3 、 M1a vs. M2a 、 M7 vs. M8, M8a vs. M8 )、枝位点模型( Model Anull vs Model A )和进化枝模型( M2a_rel vs. CmC )四大类共 7 对。用户只需要根据分析目的在该运行模式下,添加自己的数据(格式化后的序列文件和树文件),选择其中一类模型分析即可; ( 2 ) 定制模式 ( Custom Mode ) , 有点类似于 PamlX ,用户可以任何修改模型中的所有参数以满足分析目的的需要。为了用户调用方便, EasyCodeML 在定制模式下 “Load” 模块中特别整合了一个 “ControlFileViewer” ,可以预加载上述的四大类 14 个常见模型的参数。用户可以快速载入任何一个模型的预先优化的参数,并在此基础调整部分参数。 2. 可视化标记前景枝(或进化枝) 在 CodeML 中,除了位点模型( Site model )外的其他三类模型在分析前都需要先定义前景枝( Foreground branch ),但早期的工具一般是通过文本编辑器在树文件的进行手动标记,这对于新手是个大挑战,一是操作繁琐不直观,二是容易标记效率低。 EasyCodeML 中提供可视化的前景枝标记功能,所见即所得,具有高效、准确等特点,还可以避免由手动修改造成误标问题。 用户只需要在载入的树文件,在需要标记的分支上通过鼠标点击即可完成前景枝的定义。 注意 :定义前景枝一般是基于一定的生物学证据。如果暂无生物学信息可用,可以将所有可能的分支分别定义为前景枝,并通过不同假设进行检验; 3. 其他附带功能 ( 1 )序列格式转换器,除了可以将多种序列格式转为 CodeML 分析所需要的 PML 格式,还可以实现这些序列格式之间的任意转换; ( 2 )自动完成似然率检验( LRT )分析,让用户省去繁琐处理过程(预置模式下); ( 3 ) “Export” 模块可生成准发表级的表格,用户只需要在导出主要结果数据的表格基础上简单修改即可用于发表; ( 4 ) “Check” 模块,用于检查序列名称和树文件中的 Taxa 名称相一致,可以为顺利进行 CodeML 分析作为铺垫; ( 5 )支持文件或文件夹拖曳功能,工作目录、序列文件和树文件,可以直接拖入对应的输入框内; ( 6 )支持多线程操作,主要应用于位点模型( Site model ),多线程运行可以充分利用计算机资源; 四、 EasyCodeML 选择压力分析简明图解 EasyCodeML 运行流程如上图所示 1. 数据准备(序列文件、树文件及其标记) ( 1 )用于选择压力的序列文件必须是比对后的 PML ,如果格式尚未转换,可以通过 EasyCodeML 工具栏下的 “Sequence Format Convertor” 进行转换,支持拖曳操作,自动识别序列格式类型;如果核苷酸序列,则序列长度必须是 3 的倍数( Codon 方式比对)。 ( 2 )用于选择压力分析的树文件必须是 Newick format ( 如: Examples/Example1.tree) ,可以通过 Figtree 等软件导出,如图 2 所示。注意:树中的类别名称( Taxon name )不能带有空格、逗号等非法字符。 ( 3 )除 位点模型( Site models ) 外,与枝相关的模型均需要提前进行前景枝的标记。枝模型( Branch model )和进化枝模型( Clade model )可以标记多个前景枝(或进化枝),但枝位点模型( Branch-site model )只能一次标记一个前景枝,图 3 。 简明操作 Tip :载入 Newick 格式的树文件后,点击 “Label” 按钮,自动弹出操作窗口,选择一个分支后,该分支将以橙色显示,并自动标记上 #1 符号( Clade model 使用 $ ),如果要多个分支需要标记,点击左侧菜单点击 2nd 、 3rd 、 4th 和 5th 以同样方式操作。注意: Branch Model 和 CladeModel 最多支持标记五个前景枝(或进化枝)。 2. 运行模式 2.1 预置模式 ( 1 )选择一个本地文件夹作为工作目录,可以直接通过拖曳操作; ( 2 )选择一个选择分析的模型类型(示例为 CladeModel ); ( 3 )载入 PAML 格式的比对序列(非 PAML 的序列也可以直接拖入,程序会自动转换为 PAML 格式); ( 4 )载入 Newick 格式的树文件(需要事先转换,注意树中的类别名称与比对中的序列名称一致); ( 5 )通过 “Check” 检查树文件中类别名称与比对序列的名称一致性; ( 6 )通过 “Lable” 模块定义前景枝( Site Model 不需要 ) ; ( 7 )保存当前参数配置信息( 强制操作,否则不能运行 ); ( 8 )启动 CodeML 分析(如果需要静默运行,请勾选 In Slient Mode 选项,即可不弹出相关提示信息); ( 9 )自动完成成对模型的似然法检验( LRTs ); ( 10 )通过 “Export” 将主要结果及参数导出并生成为准发表级的表格; ( 11 )启动 Microsoft Excel 查看生成的表格文件; 2.2 定制模式 ( 1 )选择一个本地文件夹作为工作目录; ( 2 )载入 PAML 格式的比对序列; ( 3 )载入 Newick 格式的树文件; ( 4 )选择当前的数据类型(示例数据为 Codon ); ( 5 )检查树文件中类别名称与比对序列的名称一致性; ( 6 )模块定义前景枝( Site Model 不需要 ) ; ( 7 )通过 “Load” 模块调出 Control File Viewer (Fig. 4) ; ( 8 )保存当前参数配置信息(强制项); ( 9 )启动 CodeML 分析; ( 10 )查看运行结果,获得 LnL1 和 np1 值。同样方式获得备选模型的 LnL2 和 np2 值,用于 LRT 分析; ( 11 )通过工具栏的 “LRTCalculator” 进行成对模型的 LRTs 分析 (Fig. 5) ; 3. 结果解读 相关的结果解读,详见 EasyCodeML 的软件文章以及参考文献后的两篇示例数据文献 。 五、 常见问题 1.CodeML 中的四类模型应如何选择? ( 1 )枝模型( Branch model )一般用于检测支系间的选择约束强度( selective constraints , 0 ω 1 )。当比较不同支系间的 ω 值是否显著差异时,一般使用成对模型 One-ratio model vs. Free-ratio model ;当比较前景枝与背景枝的 ω 值是否显著差异时,一般使用成对模型 One-ratio model vs. Two-ratio model ; ( 2 )位点模型 ( Sitemodel )一般用于检测正选择位点(不考虑支系间的 ω 差异),常用的成对模型一般有 M2a vs. M1a 、 M8 vs.M7 和 M8 vs. M8a ,后面两对更为常用; ( 3 )枝位点模型 ( Branch site model )一般用于基因复制事件发生后,检测前景枝中正选择作用对部分部分的影响。常用的成对模型为 Model A vs. Model A null ; ( 4 )进化枝模型 ( Clade Model )与枝位点模型相似,但不限于检测正选择作用,还可以整个进化枝或部分支系上特异位点的选择约束性。常用的成对模型是 CmC model vs. M2a_rel model ; 2. 为什么我的 EasyCodeML 被识别为压缩包? EasyCodeML.jar ,是主程序文件,正常情况下,直接双击即可运行。但如果 *.jar 文件被识别为压缩包,则程序会被系统关联的解压缩软件进行解压缩处理。解决办法是去除 *.jar 与解压缩软件的关联,比如 WinRAR 之类的,在参数设置去除 jar 的关联即可 3. 为什么找到的正选择位点在原始比对序列中找不到? 最主要原因可能是比对序列中带有 gap , codeml 默认忽略 gap 所带的一列数据 ( 即启用 Clean data =1) ,从而导致位置发生偏移。因此,分析前最好将带 gap 的同一列序列全部手工删除,找到正选择位点的氨基酸位置后,再还原对应到原始比对序列上。当然也可以在 EasyCodeML 主界面中把 Clean data 前面的选项勾选取消掉,重新运行分析即可。 4. 前景枝(进化枝)标记问题 与 CodeML 相一致, EasyCodeMLv1.2 支持枝模型( Branch model )和进化枝模型( Clade model ) 一次同时标记多个前景枝(或进化枝) , 但枝位点模型( Branch-site model )只能一次标记一个前景枝 ,而位点模型( Site model )不需要标记。 六、 参考文献及推荐阅读材料 1. 综述文献 ( 1 ) Vitti, J.J., Grossman, S.R., Sabeti, P.C., 2013. Detecting natural selection in genomic data. Annual Reviewsof Genetics47, 97-120. ( 2 ) Sironi, M., Cagliani, R., Forni, D., Clerici, M., 2015. Evolutionary insights into host-pathogen interactions from mammalian sequence data. Nature Reviews Genetics 16, 224-236. 2. 相关软件: ( 1 ) Yang, Z., 2007. PAML 4 : Phylogenetic analysis by maximum likelihood. Molecular Biology and Evolution 24, 1586-1591 ( 2 ) Egan, A., Mahurkar, A., Crabtree, J., Badger, J., Carlton, J., Silva, J., 2008. IDEA : Interactive Display for Evolutionary Analyses. BMC Bioinformatics 9, 524. ( 3 ) Busset, J., Cabau, C., Meslin, C., Pascal, G., 2011. PhyleasProg : a user-oriented web server for wide evolutionary analyses. Nucleic Acids Research 39, W479-W485. ( 4 ) Xu, B., Yang, Z., 2013. pamlX : A graphical user interface for PAML. Molecular Biology and Evolution 30, 2723–2724. ( 5 ) Maldonado, E., Sunagar, K., Almeida, D., Vasconcelos, V., Antunes, A., 2014. IMPACT_S : integrated multiprogram platform to analyze and combine tests of selection. PLOS ONE 9, e96243. ( 6 ) Maldonado, E., Almeida, D., Escalona, T., Khan, I., Vasconcelos, V., Antunes, A., 2016. LMAP : Lightweight multigene analyses in PAML. BMC Bioinformatics 17, 354. ( 7 ) Schott, R.K., Gow, D., Chang, B.S.W., 2016. BlastPhyMe : A toolkit for rapid generation and analysis of protein-coding sequence datasets. BioRxiv. 3. 示例数据 : ( 1 ) Bielawski, J.P., Yang, Z., 2003. Maximum likelihood methods for detecting adaptive evolution after gene duplication. Journal of Structural and Functional Genomics 3, 201-212. ( 2 ) Padhi, A., Verghese, B., Otta, S.K., 2009. Detecting the form of selection in the outer membrane protein C of Enterobacter aerogenes strains and Salmonella species. Microbiological Research 164, 282-289. 七、特别致谢 EasyCodeML 测试版自 2015 年暑假首次推出,至 2019 年 2 月 11 日软件文章被正式接收。四年间 EasyCodeML 历经无数次的调试和修改,感谢陈程杰博士的辛勤付出,也特别感谢陕西博瑞德生物科技有限公司陈振玺、西南大学家蚕基因组生物学国家重点实验室李寒博士、南京师范大学生命科学学院张麟博士和四川农业大学园艺学院陈清老师等的意见和建议,使得程序日臻完善。 Raindy: 本文首发于本人的QQ空间(http://user.qzone.qq.com/58001704/blog/1549031707),欢迎转载,但请保留作者原信息。
个人分类: 软件教程|31198 次阅读|0 个评论
EasyCodeML 使用指南
热度 2 raindyok 2016-5-3 17:44
一. EasyCodeML 的主要功能有哪些? (1)预置模式让用户彻底告别原CodeML晦涩高深的操作,只是轻松点击即可完成,尤其适合新手使用; (2)自定义模式让用户根据需要随时调整或修改相关参数,适合于CodeML老手使用; (3)可视化标记树的分支,所见即所得,具有高效、准确等特点,还可以避免由手动修改造成误标问题; (4)自动完成LRT分析,让用户省去繁琐处理过程,生成的结果还可以直接导出Excel文档,可直接用于发表; (5)支持文件或文件夹拖曳功能,工作目录、序列文件和树文件,可以直接拖入对应的输入框内; (6)支持多线程操作,主要应用于Site model, 多线程运行可以 充分利用计算机资源; (7)支持跨平台功能,可以运行于Windows、Mac OS和Linux三大操作系统。 二、EasyCodeML工作流 : (1) 数据准备 :PAML格式的多重比对序列和Newick格式的树文件;除了Site model外,其他模型还需要标记兴趣的分支,可以先行用第三方软件标记,也可以用EasyCodeML的 Label 功能进行可视化标记。 (2) 模式选择 :支持Preset 和Custom模式可供用户选择,前者内置四种模型,包括Branch model、Branch-site model、Site model和Clade model,每个模型至少都有一组成对模型:零假设模型(Null model )和备选假设模型(Alternative model),其中Site model还内置三组成对模型(M0 vs. M3,M1a vs. M2a, M7 vs. M8);后者类似PamlX功能,单一模型运行,主要便于提供用户自定义修改相关参数。 (3) 保存配置 :保存设置参数后,即可按下Run CodeML按钮自动开始分析。 (4) LRT分析: 在Preset 模式下,当成对模型运算结束后,EasyCodeML自动LRT分析,并将结果直接呈现出来;在Custom模式下,运行结束后,用户可以点击菜单栏“Tools”下的“LRT Calculator”,分别输入对应选项的数值进行LRT分析。 (5) 结果输出 :Preset 模式下的LRT结果,可以主要参数及数值导出到Excel,便于用户整理; 三、问题答疑 : 1. EasyCodeML 对系统有哪些要求? 答: EasyCodeML是由Java编译的, 该软件同时支持Mac OS和Linux系统,已经预编译好对应操作系统的版本,不需要用户进行复杂的编译操作,只需点击EasyCodeML.jar,系统后台自动完成对应操作系统版本的替换后即可使用。 为保证该程序的所有功能正常使用,系统中的JAVA必须要求 1.8 或更高版本。可以通过命令行查看系统Java版,如下图所示: 2. Preset 模式很方便,但预置的参数还能修改么? 答:虽然EasyCodeML预置了参数,但还是 可以修改,在该模式下选择四个模型之一后,比如:SM, 可以通过用菜单栏上的“Control File Editor”工具载入、修改并保存EasyCodeML/Preset/SM/下M0、M1a等6个子目录内的codml.ctl文件,此时返回主界面,点击Run CodelML按钮即可… Raindy 注:此法永久性修改预置模式参数,需慎重!!! 3. 如何使用EasyCodeML 可视化标记分支? 答:载入Newick格式的树文件后,点击“Label”按钮,自动弹出操作窗口,Branch model和Branch-site model直接选择一个分支后,该分支将红色显示,并自动标记上#1符号,点击“Finished”返回即可;Clade model下,选择一个分支后, 该分支及其子分支也以红色显示,并自动标记上$1符号,Clade model最多支持标记五个Clade,并以$1,$2,...$5顺序标记。 4. 如何使用EasyCodeML进行LRT分析 ? 答: (1) 自动方式 :预置模式下,EasyCodeML在CodeML分析结束后,自动进行LRT分析,在主界面显示LRT结果;用户还可以通过前一次保存的结果,只需要先选择之前保存的工作目录,然后 通过预置模式下的“Run LRT ”即可查看结果, 如下图所示: (2) 手动方式 :由自定义模式或原始CodeML运算的结果,也可以借助EasyCodeML的菜单栏上的“LRT Calculator”进行分析,只需要输入相关的参数,如两个成对模型的Ln和df值,然后点击“Run”即可查看结果,如下图所示: 5. 正式文章如何引用EasyCodeML ? 答:由于手稿正在准备,如果您发表文章引用我们的EasyCodeML,我们建议这样引用文献: Gao F and Chen J, 2016. EasyCodeML: an interactive visual tool for CodeML analysis. 还有问题等您的反馈...
个人分类: 软件教程|26017 次阅读|6 个评论
正选择分析之 Branch site model 篇(By Raindy)
热度 2 raindyok 2015-9-23 10:01
絮语:    关于 CodeML中的几种模型, 这里就不科普了, 推荐研读2015 年 Nature Reviews Genetics 的 这篇综述:    Sironi M, Cagliani R, Forni D, Clerici M. Evolutionary insights into host-pathogen interactions from mammalian sequence data. Nature Reviews Genetics, 2015, 16: 224-236.   当然也可以参阅这篇日志:PAML FAQ ( http://user.qzone.qq.com/58001704/blog/1434533530 )    本例示范操作如何应用我们开发的EasyCodeML软件进行Branch site model 分析 准备工作 : (1)计算机环境: Java 运行环境(JRE) (2)相关 工具 :EasyCodeML 、 谷歌浏览器Chrome、DAMBE (3)必备文件 :比对文件(基于密码子比对,并删除终止密码子)、树文件(Newick格式,可以用Figtree导入导出进行格式化) 操作流程:    1. 将比对后的序列进行转化,通过DAMBE打开,选择序列类型为编码蛋白质的核苷酸序列,如下图所示: 识别序列后,返回菜单栏选择“Sava or Convert Sequence Format”, 如下图所示: 文件类型选择为PAML,扩展为PML(如下图所示),保存后将扩展名改为nuc(当然这个非必须,不改也可以的)。 2. 标记前景枝    打开EasyCodeML,分别定义工作目录(即:程序在哪个文件夹中运行)、选择已比对的序列文件(即:前一步得到的比对文件)、选择树文件。    如果前景枝已经标记, 可以忽略下面这一步。    本示例数据的树文件未标记前景枝,这里演示一下如何用EasyCodeML可视化标记前景枝。    选择Newick的树文件后,点击“Label”标签(下图),程序会调用Chrome等插件来操作。 在待分析的分支上,点击一下,出现红色时,即表明前景枝已选定,此时只需要点击上方的“Finished”按钮完成前景枝标记。    Raindy注:可视化标记是我们这款EasyCodeML的亮点之一。 完成后前景枝标记后,返回程序时,树文件已自动变更为标记好的Tree文件。    此时可以开始后续操作,这里先选择Branch site model,然后“Save Current Profile”保存界面参数设置,最后“Run CodeML”分析,如下图所示: 在运行Codeml分析,程序会提示是否自动开始,“确定“之后就是细心的等待.... 3. 似然率检验(LRTs)    程序运行的时间取决于所分析的数据和计算机硬件配置。当完成后,会弹出完成的提示框。 ”确定“后,程序自动将LRTs结果显示在主界面上,这里主要看P值,必须低于0.05,如下图所示: 4.结果整理    当然,在LRT的P值显著情况下,您可以选择将运算结果以Excel 电子表格的形式呈现,相关参数直观显示在表格中。表格数据只需要简单整理即可用于发表用。 本示例结果显示,定义的前景枝中第100位氨基酸位点受到显著的正选择作用(后验概率PPs大于0.95)。 下图为部分SCI 文章的结果表格(红色虚线框内),详见原文: Lan T, Wang X R, Zeng Q Y. Structural and functional evolution of positively selected sites in pine glutathione S-transferase enzyme family. J Biol Chem, 2013, 288: 24441-24451 . 注意事项: 为什么找到的正选择位点在原始比对序列中找不到? 答:最主要原因可能是比对序列中带有gap,codeml默认忽略gap所带的一列数据 ,从而导致位置发生偏移。因此, 分析前最好将带gap的同一列序列全部 手工删除,找到正选择位点的氨基酸位置后,再还原对应到原始比对序列上。
个人分类: 软件教程|28674 次阅读|2 个评论
EasyCodeML开放测试,欢迎试用!
热度 1 raindyok 2015-7-7 19:53
******************************************************************* EasyCodeML: an interactive visual tool for CodeML analysis *******************************************************************   对于基因或基因组的进化分析,特别是正选择的检测以及不同分支的选择约束,PAML是最常用的工具包,而CodeML是其中最核心的一个程序,但晦涩的参数设置,着实让不少初学者望而却步。    我们新开发的EasyCodeML让新手也可以进行CodeML分析,只需要输入比对好的序列文件和对应的树文件即可运行。    程序提供两种模式供用户选择:   (1)预置模式(Preset):即目前开放测试的主界面,内置了4种模型,特别适合于新手使用,以成对模型运行;   (2)自定义模式(Custom):类似于pamlX版,适合熟悉CodeML的老手手动配置参数,以单个模型运行。   程序主界面如下图所示: 简要操作图解:   × 红色 标记为完整的一轮分析操作流程   × 蓝色 标记为对前一轮的运行数据进行LRTs分析   ×虚线部分的功能暂未启用,完整版可用 ××××××××××××××××××××××××××××××××××××××××××× 欢迎试用,联系邮箱:raindyok@qq.com ×××××××××××××××××××××××××××××××××××××××××××
个人分类: 软件教程|16599 次阅读|1 个评论
怎样进行正选择检测
Bearjazz 2014-5-14 08:18
编者(熊荣川)按:正选择检测是指通过检测编码基因序列变化(或进化)中的非同义突变和同义突变的差异来量化进化压力对遗传变异的贡献;可用于推断基因的功能性或者功能位点,是一种常用的基因分析及筛选手段,下面是一段文摘,对如何进行有效的正选择检验进行了较为详细的阐述,具有较高的参考价值。 Positiveselection was tested using the REL(HyPhy) and CODEML (PAML) methodsand these analyses revealed that codons exhibiting high dN/dS ratios, andtherefore likely to have been subjected to positive selection, were enriched inthe N-terminal cytoplasmic and TM domains in primate tetherins (Fig. 7).Tetherin evolution in primates was also evaluated under several standard modelsof sequence evolution as implemented in the CODEML program. These comprisethree nested pairs of models (M0 and M3; M1a and M2a; M7 and M8) in which thesecond model of each pair is derived from the first by allowing sites to evolveunder positive selection. Nested models were compared using the likelihoodratio test, and in each case allowing individual sites to evolve under positiveselection (M3, M2a, M8) gave a significantly better fit to the primate sequencedata than the corresponding model without positive selection (M0, M1a and M7,respectively) (Table 1). The M3, M2a and M8 models identified a largelyoverlapping set of sites in the tetherin coding sequence with dN/dS.1,consistent with an evolutionary history characterized by frequent episodes ofpositive selection. Notably, some codons that exhibited a high probability ofhaving evolved under positive selection coincided with residues that determinedthe effectiveness of Vpu antagonism (Fig. 7). However, there were numerousadditional codons, particularly in the tetherin cytoplasmic domain, that alsoexhibited high dN/dS ratios, suggesting that antagonists other than Vpu havealso imposed selective pressure on primate tetherin sequences. 参考文献 McNatt, M. W., T.Zang, T. Hatziioannou, M. Bartlett, I. B. Fofana, W. E. Johnson, S. J. Neil andP. D. Bieniasz (2009). Species-specific activity of HIV-1 Vpu and positiveselection of tetherin transmembrane domain variants. PLoS pathogens 5 (2): e1000300.
个人分类: 我的研究|6346 次阅读|0 个评论
进化分析及PAML的说明和使用
liujd 2013-7-23 17:40
个人分类: 进化分析|1 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-17 22:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部