科学网

 找回密码
  注册

tag 标签: 群体结构

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]Genetic diversity and pop structure of G. arboreum in China
crilqy 2018-12-21 14:53
亚洲棉是1种来源于东半球的二倍体栽培棉花,其优良性状对于培育棉花品种具有重要价值。 利用覆盖全基因组的80个SSR标记对197个亚洲棉种质资源进行基因分型,建立其遗传多样性和种群结构模式。这些种质来自中国3个主要亚洲棉种植区。通过遗传多样分析,共鉴定出80个标记的255个等位位点。 种群结构分析将这197个材料分为3个亚群,分别对应中国亚洲棉的3个主要种植区——长江流域、华北和西南地区。亚洲棉种群平均遗传距离和多态性信息值分别为0.34和0.47,这表明亚洲棉种质库具有较高的遗传多样性。除少数不一致外,系统发育分析结果与种群结构分析结果基本一致。3个群体间和群体内差异分别为13.61%和86.39%。 本研究获得的遗传多样性和种群结构信息对亚洲棉的遗传和基因组分析及其重要经济性状的系统利用具有重要意义。 Title: Genetic diversity and population structure of Gossypium arboreum L. collected in China JIA Yinhua, PAN Zhaoe, HE Shoupu, GONG Wenfang, GENG Xiaoli, PANG Baoyin, WANG Liru and DU Xiongming Journal of Cotton Research . 2018, 1: 11. https://jcottonres.biomedcentral.com/articles/10.1186/s42397-018-0011-0 \0
961 次阅读|0 个评论
群体结构分析之Structure 篇完整版(By Raindy)
热度 10 raindyok 2016-4-4 16:46
【絮语】 群体进化分析过程,经常要涉及群体结构分析,其中Structrue是分析群体结构组分的常用软件,本博文详细图解Structure分析的相关细节, 首发于本人QQ空间(http://user.qzone.qq.com/58001704),如需转载,请保留作者信息,谢谢! 【相关软件 】 数据格式转化:GenAIEx、 xmfaconvertor、xmfa2struct 群体结构分析:Structrue 最佳K值的确定:Structure Harvester (在线工具) Clusters 重复抽样分析: CLUMPP、CLUMPAK 图形化显示结果:distruct 相关软件可以访问Structure官方网站下载: http://pritchardlab.stanford.edu/structure.html 【操作流程】 1. 不同数据源格式转换   不同的分析软件对输入格式都有一定的要求,Structure支持多种数据源,如:SSR数据、SNPs、序列数据等。除了序列数据外,大多数数据可以利用Excel的一个插件 GenAIEx进行转换 ,此类教程网上较多,本文不再赘述;对于纯序列类型转为Structure格式的教程尚未多见,故本文以纯序列为数据源进行示例图解说明。 (1)在Clustalx中打开比对好的序列文件,将其另存(Save sequences as)为Clustal格式,如下图所示,完成得到一个*.aln文件名; (2)启动xmfaConvertor软件,将标签切换为“File”上,点击“In File”按钮,选择上一步转好的*.aln文件,并选择输出文件路径,设置完毕,点击OK即可,转换完成程序界面的左下角会提示“Successfully Done”说明序列格式转为XMFA格式( eXtended Multi-Fasta Alignment ) 成功。 (3)进一步将XMFA格式转换为Structure支持的格式(扩展名不限),双击运行批处理文件xmfa2struct.bat,输入文件xmfa文件名回车(如:avr3a.xmfa),然后输入要输出的文件名,如示例的avr3a.str (扩展名可以任意,如:txt,,但推荐使用str); 当转换完成后,命令行界面会提示All done,此时*.xmfa所在的目录下会生成一个*.str文件,如下图avr3a.str; (4)修改*.str的部分细节,此步可选,但建议处理。打开Excel程序,“打开”选择*.str前,先将文件类型改为所有文件(*.*),然后待定上一步的*.str,出现文本导入向导。向导第1步中,选择文件类型为“分隔符号”方式,如下图所示: 在向导第2步中,勾选中“空格”,如下所示: 至此,Excel已经完成打开*.str文件操作,如下图所示,默认转换的第一行会有不同的数字显示,相当于其他遗传标记中的Marker名称。该行可以保留,但在新建Structure方案设置参数时,对应处的选项也要相应设置。个人习惯将其删除,该行主要指示不同的Loci位点数。 当序列数据的个体来自不同群体时,可以在Excel的第二列插入一行,标记群体号,建议用纯数字表示,如:群体A标记为1、群体C标记为3、如此类推... 2. 群体结构分析 2.1 运算前检查数据 运行Structure主程序,在“File”-“Open Data File”菜单打开上一步得到的数据文件*.str。这个步骤主要核对数据一些信息,横向为位点数(注意:这里是位点数,不含个体那一列),纵向显示为个体数(行)等。如果能确保向导中的数据信息设置正确,则该步可以跳过。如下图所示,示例数据在Data界面显示位点数显示为18,即有18列(其中第1列在未定义为群体编号前也被默认示为一个位点,需要在向导第三步进行标记)。 2.2 “New Project”新建方案,根据向导提示设置参数 (1)出现方案向导,第一步是方案名称、保存目录及目的数据文件等信息: (2)向导第二步是数据的具体信息,包括个体数、倍体数、位点数( 最易设置错误 )、缺失数值(有Gap时该处填-9,如没Gap时,可以填 0): (3)向导第三步是输入数据的行标记,示例数据除第一列外的行内容都是具体数据,也没有Marker标记,故此处可以留空不勾选: (4)向导第四步是输入数据的列标记,示例数据第1列为个体名称,第2列为群体标记,故勾选向导中的前两项。此时可以点击“Show data file format”弹出窗口显示110行19列(行数为个体数,列数19列需要扣除前两列) (5)检查数据后,点“Finish”,此时所设置的参数以确认框的方法显示。 (6)如果设置无误,可以点击“Proceed”进行后续处理。此时方案数据也会显示数据信息。 2.3 Structure 运算参数设置 “New”新建一个参数设置名称,如示例为Avr3a,然后设置 Run Length,Burin Period=200000,Burin之后的链长=1200000(总链长为两者之和): 完成后,即可“Start a Job”,设置K值(预计的Clusters数据,比如2-7,一般不多于Pop总数)和重复次数5-10后,可以“Start”启动分析直至计算完成: 当出现“Job is Completed”提示,即说明程序完成结束。 2.4 打包结果文件 结果文件在方案保存目录下的“Results”,此时可以该文件夹以Zip格式进行压缩,备于下一步的Structure Harvester 分析。 3. 确定最佳K值 Structure 运算结果Results.zip 需要提交到在线工具 Structure Harvester 以判断群体的Clusters数(即最可能的K值)。 3.1 上传结果文件 在浏览器中输入 Structure Harvester服务器的网址( http://taylor0.biology.ucla.edu/struct_harvest/ ),选择结果文件,点击网页的“Harvest!”按钮即可自动开始分析: 3.2 结果查看及最佳K值判断 分析完成后,网页上给出两种方式推断最佳K值的图示,同时下方一个表格输出,包括K值、Runs重复数等,其中最佳K值那一行会以黄色突出显示,如下图所示,表明示例数据群体的最佳K值为3。 3.3 下载结果数据 Structure Harvester分析得到的图表以压缩包形式提供下载,可以点击“download”即可下载。 对于推断的最佳K值,需要下载两个CLUMPP文件, indfile、popfile 为多次runs得到个体和群体的Q-matirx数据,该数据用于后续的重复抽样分析。 4. 重复抽样分析Clusters 将上一步获得的Kx.indfile和Kx.popfile文件复制到CLUMPP目录下后,用记事本类的工具(如:Notepad++)打开该目录paramfile文件,需要修改以下几个关键之处: (1)DATATYPE: 读取文件类型,0表示读取*.indfile,1表示读取*.popfile。示例数据演示为K3.popfile文件,此时DATATYPE值为1; (2) POPFILE/INDFIEL:群体文件和个体文件的名称,本例为K3.popfile; (3)OUTFILE:输出群体或个体文件的名称,本例为K3_p.outfile; (4)MISCFILE:输出杂项文件,即输出的一些概要信息,可以不设置; (5)K:即Cluster数,本例最佳K为3; (6)C:个体总数或群体总数(注意与DATATYPE对应相关,当DATATYPE为主时,C表示群体总数;反之为个体总数) (7)R:即Runs数,Structure运算某个K时的重复运行次数,本例为10; Raindy 注:默认的搜索方法是Full search,如果数据量过大,建议使用贪婪法(将M值改2,当K大于15时,M=3) CLUMPP参数设置完毕保存后,即可双击运行CLUMPP,出现如下图界面: 当出现“Press Return to exit”时,表示重复抽样运算结束,目录下生成相应的输出文件,如本例的 K3_p.outfile 同样方式,重新修改参数文件paramfile文件,修改对应的参数,注意下图红色标记之处的差别: 得到CLUMPP重复抽样得到的群体和个体的Q-matrix文件:K3_i.outfile和K3_p.outfile 用于后续distrut绘图。 5. 图形化显示结果 将上一步得到的K3_i.outfile和K3_p.outfile 复制到distruct 目录下,用于生成最终图形 。 (1) casia.indivq   个体的Q-matrix文件,可直接用上一步的K3_i.outfile; (2 ) casia.popq   群体的Q-matrix 文件,可以用 上一步的K3_poutfile; (3 ) casia.names   Structure结果图示下方的名称 (4 ) casia.languages   Structure结果图示 上方的名称 (5 ) casia.perm   Structure结果图示中不同Cluster对应的颜色 (6 ) drawparams   distruct绘图的参数设置,定义前5个文件后,还需要修改K(最佳K值)、NUMPOPS(群体数)、NUMINDS(个体数)和输出文件名称(OUTFILE),如下图所示,输出文件为*.ps 文件,即Postscript文件: 上述6个文件修改完成,可以双击 批处理文件 distructWindows1.1.bat 即可自动绘图,直至出现程序路径时,输出文件K3.ps已经生成在目录内,可以用 Adobe Illustrator( AI)转换为PDF文件。 延伸阅读: Porras-Hurtado L, Ruiz Y, Santos C, Phillips C, Carracedo A, Lareu MV (2013) An overview of STRUCTURE: applications, parameter settings, and supporting software. Frontiers in genetics 4:98 SCI 美图: 常见问题: 1. CLUMPP重复抽样分析这一步是否可以忽略? 很多人都直接从结果随机选择一个xxx_runx_f文件进行绘制图。殊不知,这样生成的结果太为主观,因为同个K值的不同runs,所得到的Q-Matrix值不尽然相同,因此需要进行重复分析。 2. K 值的范围怎么选择? K值一般从2开始
个人分类: 软件教程|64988 次阅读|17 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-3 20:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部