科学网

 找回密码
  注册

tag 标签: Raindy

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

应用贝叶斯谱系动力学解析我国TMV的时空迁移特征
raindyok 2019-3-11 16:41
文献信息 : Gao, F ., Liu, X., Du, Z., Hou, H., Wang, X., Wang, F., Yang, J., 2018. Bayesian phylodynamic analysis reveals the dispersal patterns of tobacco mosaic virus in China. Virology 528, 110-117. DOI: 10.1016/j.virol.2018.12.001 文献链接: https://doi.org/10.1016/j.virol.2018.12.001 一、研究背景 : 烟草花叶病毒( Tobacco mosaic virus , TMV)是烟草生产上最为常见并造成重要经济损失的植物病毒之一,也是第一个发现的植物病毒。该病毒作为一种模式病毒,在分子生物学、植物病理学等方面作了大量的研究,但对于其进化研究的报道较少。前人基于病毒-寄主共进化的假设估算该病毒的进化速率约2.20 × 10^−8 substitutions/site/year (Gibbs et al., 2010) ,而基于长期传代的实验进化研究发现TMV全基因组的平均进化速率为3.10 × 10^−4 sub/site/year (Kearney et al., 1999) 。在TMV全基因组中,126K蛋白的进化速率较快,基于时间结构的序列数据(Time-structured sequence data)分析显示,其平均进化速率约为7.90 × 10^−4 sub/site/year (95% CIs 3.90 × 10^−4–1.30 × 10^−3) (Pagan et al., 2010) 。然而,关于该病毒的进化和群体动态的研究,尤其TMV我国不同烟草产区的迁移动态鲜有报道。本研究通过我国五个烟草主产区的10年采样并测序获得的TMV全基因组序列进行谱系动力研究,旨在为制定有效的TMV防控措施奠定理论依据。 图1烟草花叶病毒的基因组结构( Creageret al, 1999, Plant Cell 11, 301-308.) 二、方法流程 : 1. TMV全基因组序列 (1)TMV中国分离物:56条,其中51条为本研究测得的TMV中国分离物,2009-2010年间采自12个省份的烟区,另外5条为我国早期报道的序列; (2)其他国家TMV分离物:20条,包括法国、韩国、英国等国家,下载自GenBank数据库。 2.重组分析和系统发育分析 采用两个重组方法分析,先应用SplitsTree构建系统发育网络并计算成对同质性指数(pairwise homoplasy index, PHI查),随后应用RDP软件包中的7种方法,Bonferroni检验的p值设置0.01,至少四种方法均检测到显著(p 1.0E-6)的重组事件视为有效。 系统发育分析应用ML法在IQ-TREE中分析,四个基因的核苷酸替代模型分别为 GTR+ Γ 4, GTR+I, HKY+ Γ 4, K2P+I模型,这些模型的准确性采用PhyloMad进行分析,结果详见文章的Fig. S1。 3.时间信号检测 分别使用遗传距离和采样时间线性回归的方法,即可Root-to-tip(RTT)和日期随机化检验均未检测到足够的时间信号(Temporal signal),说明分析的TMV数据集为不具有时间结构(Temproal structure)的数据集,不用只用采样时间进行分子钟校准。 因此,根据前人报道的126K蛋白的进化速率进行分子钟校准,详见后述的主要难点及解决办法第一点。 4.tMRCA和进化速率估算 在应用BEAST分析TMV的tMRCA和进化速率前,,由于数据集为多基因联合分析,可将EBSP作为默认TreePrior进行预分析( 该模型可以推断有效群体大小随时间的变化),通过计算参数 demographic.populationSizeChanges 获得其平均值为2.4(95%HPD: 1-4),说明群体大小变化次数至少有2次及以上。因此,使用采用此Tree Piror适合分析的数据集,故而模型组合中只需要比较严格分子钟和宽松分子钟两组模型(Site模型确定、TreePrior模型确定)。分别配置后得到Strict_EBSP.xml和UCLN_EBSP.xml 通过PS/SS法计算分别得到边际似然函数对数值为log marginal likelihood分别为-19,915和-19,706,表明宽松的分子钟模型更适合TMV数据集。其他参数详见文章中描述。 5.群体分化检验 先定义不同烟草产区群体后,应用Arlequin软件通过计算两两群体间 F st值,根据计算的 F st值确定群体间的分化度情况。 6.谱系地理学和群体历史动态分析 先将五个地区定义为Trait,应用贝叶斯随机搜索变量(Bayesian stochastic search variable selection, BSSVS)方法应用BEAST v1.84中重建TMV不同产区群体间的迁移特征。通过贝叶斯因子法(Bayes factor, BF)在SpreaD3 v0.9.7计算获得BF值和平均后验值(Indicator)推断TMV两两产区间可能的迁移路径(至少BF3且Indicator 0.5时的迁移路径视为有效)。产区之间的迁移量通过BSSVS分析中的mean rate参数来衡量。在BEAUti v1.8.4 启用“不对称替换模型(asymmetric substitution model)”选项,其他参数配置参数详见日志《病毒的时空动态分析(BSSVS)简明图解》: http://user.qzone.qq.com/58001704/blog/1508718968 。 三、研究结果 : 研究发现烟草花叶病毒病毒(TMV)在20世纪初引入我国云南,随后扩散至北方,并在北方发生群体扩张。从新中国成立到现在,TMV总体上呈由北向南的流动趋势,这与我国的“北烟南移”政策紧密相关。该研究应用贝叶斯谱系动力学全面解析了我国TMV的时空扩散特征,可为该病毒的有效防控和精准测报奠定重要基础。 四、主要难点及解决办法: (1)当数据集不具有时间信号不能直接用于分子钟校准时,如何解决? 当采样时间跨度大累积足够的遗传变异时,采样时间可以直接用于分子钟校准。这样的序列数据集被 称为具有时间结构(Temporal structure)或时间信号(Temporalsignal)的数据集。检测数据集是否具有时间结构或时间信号,可以通过 Root-to-tip(RTT)线条回归或日期随机化(Date-randomization test, DRT)进行判断。前者是一个较为粗犷的算法,在人畜患的RNA病毒的tMRCA和进化速率分析中较为常用,但其有个重要的前提,即基于严格分子钟假设,常用的工具有TempEst和TreeTime ( https://treetime.biozentrum.unibas.ch )。而对通过DRTs的数据集进行贝叶斯分析可以获得更为准确的tMRCA和进化速率,可以参阅Guan et al, 2018, Virus Res., 256, 96-99两篇文献。 图 x 时间信号检测 ( Rieux Balloux, 2016. Mol. Ecol. 25, 1911-1924) 而本研究的TMV数据集不论用RTT和DRTs均未找到足够的时间信号,因此解决的办法就是前人报道的126K蛋白的进化速率(平均值为7.90 × 10^−4 sub/site/year,95%置信区间为 3.90 × 10^−4–1.30 × 10^−3 sub/site/year)进化分子钟校准,该蛋白基因的进化速率也是推断自具有时间结构的数据集,详见 Pagan等 (2010) 原始文献 。因此, 在BEAUti设置Prior 时,校准点设置在126K蛋白对应的基因数据上,模型选择为Uniform,初始值设置为 7.90 E−4 sub/site/year ,下限为3.90 E−4,上限为1.30 E-3),其他3个基因允许有自己相对的速率。 参考描述: A uniform prior of 3.90×10^−4–1.30×10^−3 substitutions/site/year was specified for the absolute substitution rate of the 126 K protein gene, based on a previous estimate (Pagan et al., 2010) . The other three genes were allowed to have distinct relative rates. (2)当不同地区样本量之间存在严重不平衡容易导致不准确的推断,如何解决? 本研究 五大烟草种植区的TMV样本量存在不均衡情况,常见的解决办法有两种,一是基于结构溯祖的谱理地理学方法(如MASCOT、MTT等)可以有效解决样本量不平衡问题;二是本研究中应用的Bootstrap重采样法。 参考描述: To investigate the impact of imbalanced sample sizes in our data set, we used a bootstrapping approach to standardize sample sizes and performed analyses of 10 replicate subsamples. For each bootstrap replicate, we randomly sampled 7 sequences with replacement from each tobacco-producing region. Each of these datasets was analysed using BEAST, as described above. 五、参考文献: (1)Gibbs, A., Fargette, D., Garcia-Arenal, F., Gibbs, M., 2010. Time – the emerging dimension of plant virus studies. Journal of General Virology 91, 13-22. (2)Duan, G., Zhan, F., Du, Z., Ho, S.Y.W., Gao, F., 2018. Europe was a hub for the global spread of potato virus S in the 19th century. Virology 525, 200-204. (3)Guan, X., Yang, C., Fu, J., Du, Z., Ho, S.Y.W., Gao, F., 2018. Rapid evolutionary dynamics of pepper mild mottle virus. VirusResearch 256, 96-99. (4)Kearney, C.M., Thomson, M.J., Roland, K.E., 1999. Genome evolution of tobacco mosaic virus populations during long-term passaging in a diverse range of hosts. Archives of Virology 144, 1513-1526. (5)Pagan, I., Firth, C., Holmes, E.C., 2010. Phylogenetic analysis reveals rapid evolutionary dynamics in the plant RNA virus genus tobamovirus. Journal ofMolecularEvolution 71, 298-307.
个人分类: 文献解读|11588 次阅读|0 个评论
群体结构分析之Structure 篇完整版(By Raindy)
热度 10 raindyok 2016-4-4 16:46
【絮语】 群体进化分析过程,经常要涉及群体结构分析,其中Structrue是分析群体结构组分的常用软件,本博文详细图解Structure分析的相关细节, 首发于本人QQ空间(http://user.qzone.qq.com/58001704),如需转载,请保留作者信息,谢谢! 【相关软件 】 数据格式转化:GenAIEx、 xmfaconvertor、xmfa2struct 群体结构分析:Structrue 最佳K值的确定:Structure Harvester (在线工具) Clusters 重复抽样分析: CLUMPP、CLUMPAK 图形化显示结果:distruct 相关软件可以访问Structure官方网站下载: http://pritchardlab.stanford.edu/structure.html 【操作流程】 1. 不同数据源格式转换   不同的分析软件对输入格式都有一定的要求,Structure支持多种数据源,如:SSR数据、SNPs、序列数据等。除了序列数据外,大多数数据可以利用Excel的一个插件 GenAIEx进行转换 ,此类教程网上较多,本文不再赘述;对于纯序列类型转为Structure格式的教程尚未多见,故本文以纯序列为数据源进行示例图解说明。 (1)在Clustalx中打开比对好的序列文件,将其另存(Save sequences as)为Clustal格式,如下图所示,完成得到一个*.aln文件名; (2)启动xmfaConvertor软件,将标签切换为“File”上,点击“In File”按钮,选择上一步转好的*.aln文件,并选择输出文件路径,设置完毕,点击OK即可,转换完成程序界面的左下角会提示“Successfully Done”说明序列格式转为XMFA格式( eXtended Multi-Fasta Alignment ) 成功。 (3)进一步将XMFA格式转换为Structure支持的格式(扩展名不限),双击运行批处理文件xmfa2struct.bat,输入文件xmfa文件名回车(如:avr3a.xmfa),然后输入要输出的文件名,如示例的avr3a.str (扩展名可以任意,如:txt,,但推荐使用str); 当转换完成后,命令行界面会提示All done,此时*.xmfa所在的目录下会生成一个*.str文件,如下图avr3a.str; (4)修改*.str的部分细节,此步可选,但建议处理。打开Excel程序,“打开”选择*.str前,先将文件类型改为所有文件(*.*),然后待定上一步的*.str,出现文本导入向导。向导第1步中,选择文件类型为“分隔符号”方式,如下图所示: 在向导第2步中,勾选中“空格”,如下所示: 至此,Excel已经完成打开*.str文件操作,如下图所示,默认转换的第一行会有不同的数字显示,相当于其他遗传标记中的Marker名称。该行可以保留,但在新建Structure方案设置参数时,对应处的选项也要相应设置。个人习惯将其删除,该行主要指示不同的Loci位点数。 当序列数据的个体来自不同群体时,可以在Excel的第二列插入一行,标记群体号,建议用纯数字表示,如:群体A标记为1、群体C标记为3、如此类推... 2. 群体结构分析 2.1 运算前检查数据 运行Structure主程序,在“File”-“Open Data File”菜单打开上一步得到的数据文件*.str。这个步骤主要核对数据一些信息,横向为位点数(注意:这里是位点数,不含个体那一列),纵向显示为个体数(行)等。如果能确保向导中的数据信息设置正确,则该步可以跳过。如下图所示,示例数据在Data界面显示位点数显示为18,即有18列(其中第1列在未定义为群体编号前也被默认示为一个位点,需要在向导第三步进行标记)。 2.2 “New Project”新建方案,根据向导提示设置参数 (1)出现方案向导,第一步是方案名称、保存目录及目的数据文件等信息: (2)向导第二步是数据的具体信息,包括个体数、倍体数、位点数( 最易设置错误 )、缺失数值(有Gap时该处填-9,如没Gap时,可以填 0): (3)向导第三步是输入数据的行标记,示例数据除第一列外的行内容都是具体数据,也没有Marker标记,故此处可以留空不勾选: (4)向导第四步是输入数据的列标记,示例数据第1列为个体名称,第2列为群体标记,故勾选向导中的前两项。此时可以点击“Show data file format”弹出窗口显示110行19列(行数为个体数,列数19列需要扣除前两列) (5)检查数据后,点“Finish”,此时所设置的参数以确认框的方法显示。 (6)如果设置无误,可以点击“Proceed”进行后续处理。此时方案数据也会显示数据信息。 2.3 Structure 运算参数设置 “New”新建一个参数设置名称,如示例为Avr3a,然后设置 Run Length,Burin Period=200000,Burin之后的链长=1200000(总链长为两者之和): 完成后,即可“Start a Job”,设置K值(预计的Clusters数据,比如2-7,一般不多于Pop总数)和重复次数5-10后,可以“Start”启动分析直至计算完成: 当出现“Job is Completed”提示,即说明程序完成结束。 2.4 打包结果文件 结果文件在方案保存目录下的“Results”,此时可以该文件夹以Zip格式进行压缩,备于下一步的Structure Harvester 分析。 3. 确定最佳K值 Structure 运算结果Results.zip 需要提交到在线工具 Structure Harvester 以判断群体的Clusters数(即最可能的K值)。 3.1 上传结果文件 在浏览器中输入 Structure Harvester服务器的网址( http://taylor0.biology.ucla.edu/struct_harvest/ ),选择结果文件,点击网页的“Harvest!”按钮即可自动开始分析: 3.2 结果查看及最佳K值判断 分析完成后,网页上给出两种方式推断最佳K值的图示,同时下方一个表格输出,包括K值、Runs重复数等,其中最佳K值那一行会以黄色突出显示,如下图所示,表明示例数据群体的最佳K值为3。 3.3 下载结果数据 Structure Harvester分析得到的图表以压缩包形式提供下载,可以点击“download”即可下载。 对于推断的最佳K值,需要下载两个CLUMPP文件, indfile、popfile 为多次runs得到个体和群体的Q-matirx数据,该数据用于后续的重复抽样分析。 4. 重复抽样分析Clusters 将上一步获得的Kx.indfile和Kx.popfile文件复制到CLUMPP目录下后,用记事本类的工具(如:Notepad++)打开该目录paramfile文件,需要修改以下几个关键之处: (1)DATATYPE: 读取文件类型,0表示读取*.indfile,1表示读取*.popfile。示例数据演示为K3.popfile文件,此时DATATYPE值为1; (2) POPFILE/INDFIEL:群体文件和个体文件的名称,本例为K3.popfile; (3)OUTFILE:输出群体或个体文件的名称,本例为K3_p.outfile; (4)MISCFILE:输出杂项文件,即输出的一些概要信息,可以不设置; (5)K:即Cluster数,本例最佳K为3; (6)C:个体总数或群体总数(注意与DATATYPE对应相关,当DATATYPE为主时,C表示群体总数;反之为个体总数) (7)R:即Runs数,Structure运算某个K时的重复运行次数,本例为10; Raindy 注:默认的搜索方法是Full search,如果数据量过大,建议使用贪婪法(将M值改2,当K大于15时,M=3) CLUMPP参数设置完毕保存后,即可双击运行CLUMPP,出现如下图界面: 当出现“Press Return to exit”时,表示重复抽样运算结束,目录下生成相应的输出文件,如本例的 K3_p.outfile 同样方式,重新修改参数文件paramfile文件,修改对应的参数,注意下图红色标记之处的差别: 得到CLUMPP重复抽样得到的群体和个体的Q-matrix文件:K3_i.outfile和K3_p.outfile 用于后续distrut绘图。 5. 图形化显示结果 将上一步得到的K3_i.outfile和K3_p.outfile 复制到distruct 目录下,用于生成最终图形 。 (1) casia.indivq   个体的Q-matrix文件,可直接用上一步的K3_i.outfile; (2 ) casia.popq   群体的Q-matrix 文件,可以用 上一步的K3_poutfile; (3 ) casia.names   Structure结果图示下方的名称 (4 ) casia.languages   Structure结果图示 上方的名称 (5 ) casia.perm   Structure结果图示中不同Cluster对应的颜色 (6 ) drawparams   distruct绘图的参数设置,定义前5个文件后,还需要修改K(最佳K值)、NUMPOPS(群体数)、NUMINDS(个体数)和输出文件名称(OUTFILE),如下图所示,输出文件为*.ps 文件,即Postscript文件: 上述6个文件修改完成,可以双击 批处理文件 distructWindows1.1.bat 即可自动绘图,直至出现程序路径时,输出文件K3.ps已经生成在目录内,可以用 Adobe Illustrator( AI)转换为PDF文件。 延伸阅读: Porras-Hurtado L, Ruiz Y, Santos C, Phillips C, Carracedo A, Lareu MV (2013) An overview of STRUCTURE: applications, parameter settings, and supporting software. Frontiers in genetics 4:98 SCI 美图: 常见问题: 1. CLUMPP重复抽样分析这一步是否可以忽略? 很多人都直接从结果随机选择一个xxx_runx_f文件进行绘制图。殊不知,这样生成的结果太为主观,因为同个K值的不同runs,所得到的Q-Matrix值不尽然相同,因此需要进行重复分析。 2. K 值的范围怎么选择? K值一般从2开始
个人分类: 软件教程|64789 次阅读|17 个评论
实例图解简并引物设计(By Raindy)
热度 1 raindyok 2013-10-29 21:34
【絮语】   设计一对合适的引物是PCR扩增目的基因成功的关键,但许多人往往过度依赖 Primer Premier(以下简称PP)或Oligo 等引物设计软件,有时候引物没设计成,却身陷软件之中无法自拔。其实,不论特异性引物或简并引物,只要掌握了几个关键点,手动也可以设计出一对好引物。如果不是大批量设计引物或设计复杂的引物序列,下面的四个常用工具即可轻松胜任引物设计任务。下文以马铃薯Y病毒CP基因简并引物设计为示例, 分享 一些个人经验,希望对初学者能起个抛砖引玉作用。受专业领域及水平所限,文中有不当之处,敬请各位同仁、童鞋批评指正。 【相关工具】   (1) MEGA5 -多重序列比对、选取基因区域、序列编辑   (2) DNAMAN8 -检测两引物的互补性   (3) Oligo Calc -评估引物的属性   (4) Web Logo 3 -直观显示简并碱基 -----------------------------------------------【华丽分割线】----------------------------------------------- 【基本原则】   设计一对好的 引物,归结起来就是 5 ′端 引物、3 ′端引物 之间以及 两者与模板的关系处理得恰到好处:    (1)两引物的序列要与模板的序列紧密互补;    (2)两引物不能在模板的非目的位点发生错配;    (3)两引物之间尽量减少二聚体或发夹结构生成。 【延伸原则】    (1)引物长度: 常用为 18-27bp,最大不可超过38bp,否则容易导致延伸温度过高,不适合DNA聚合酶反应;    (2) GC含量: 一般介于40%-60%之间,且两个引物之间的GC含量相差不能过于悬殊;    (3)碱基分布: 随机分布最佳,但避免连续的GC,GC富集区容易导致错误引发反应。 【特别注意】    5 ′端 引物的作用主要 限定PCR产物的长度,对扩增特异性影响不大;引物的延伸是从 3 ′端开始的,所以 3 ′端 引物是 影响特异性扩增的最关键因素 ,因此,在实际设计过程中,设计3 ′端引物时,需要综合考虑以下几个内容:    (1) 不要终止于密码子的第 3 位   (2) 末位碱基避免使用碱基 A   (3) 避免出现3个以上连续的G或C,如GCG或CCC或GGG   (4) ΔG的绝对值不可超过 9   (5) 与非特异扩增的序列同源性不能超过70%或有连续8个互补碱基同源   (6) 不能进行任何修饰 ----------------------------------------------------【华丽分割线】------------------------------------------------- 【设计流程】    实例操作:    请访问科学网论坛-《实例图解简并引物设计(By Raindy)》 http://bbs.sciencenet.cn/forum.php?mod=viewthreadtid=1280587fromuid=460481    如果论坛也无法下载,请移步我的网盘-生信教程目录下载: http://raindy.ys168.com/
个人分类: 软件教程|29346 次阅读|2 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-22 09:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部