# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz Species Delimitation Different quantitative methods for species delimitation were applied, implemented by visual inspection of the variable nucleotide positions and trees derived from these. These procedures were conducted only within the independent networks defined in the statistical parsimony analysis, greatly reducing the complexity of scoring separated groups. Population profiles of character variation were established according to Sites and Marshall (2003) as the basis for PAA (Davis and Nixon, 1992) and CHA (Brower, 1999), the latter by assessing variable characters on the likelihood tree shown below. The WP method also used this tree to delimit “exclusive” populations, defined as the monophyly of geographically restricted genotypes to the exclusion of clades elsewhere. Fst values were used for aggregating samples with non-significant pairwise Fst, in analogy to the grouping of populations under PAA (Supplementary Fig. S1). 物种划分 采用不同的物种定界定量方法,通过目视检查核苷酸变异位点和由此衍生的树来实现。这些程序仅在简约统计分析中定义的独立网络内进行,大大降低了分组评分的复杂性。根据 Sites 和 Marshall ( 2003 年) 建立了特征变异的种群概况,作为 PAA ( Davis and Nixon, 1992 )和 CHA ( Brower, 1999 )的基础,后者通过评估似然树(如下所示)上的变异特征。 WP 方法还使用这棵树来划分“排他”种群,即局限于一定地地域的基因型的单系,且不包括其他分支。 Fst 值用于将两两间 Fst 不显著的样本进行聚集,类似于 PAA 下的种群分组(附图 S1 )。 Pons J, Barraclough T G, Gomez-Zurita J, et al. Sequence-based species delimitation for the DNA taxonomy of undescribed insects . Systematic biology, 2006, 55(4): 595-609.
# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz These observations would suggest the possibility of using analyses of branch lengths on a DNA tree for explicit tests of species boundaries, based on the difference in branching rates at the level of species and populations. Branch lengths between species are determined by speciation and extinction rates (macroevolution) (Nee et al., 1994), whereas branch lengths within a species reflect coalescence processes at the level of populations (microevolution) (Hudson, 1991; Rosenberg and Nordborg, 2002; Wakeley, 2006). Well-developed approaches exist for analyzing branching rates in either framework. Combining equations that describe processes of lineage birth at the species level with coalescence models within species, it is possible to develop a statistical framework for estimating the predicted shift in dynamics of branching associated with the species boundary. Here we develop a method that determines the locations of ancestral nodes that define putative species and applies a likelihood ratio test to assess the fit of the branch lengths to a mixed lineage birth-population coalescence model. 这些观察结果表明,根据物种和种群水平上的分支速率差异,可以利用 DNA 树上的分支长度分析来明确探测物种边界。物种间的分支长度由物种形成和灭绝率(宏观进化)决定( Nee et al., 1994 ),而物种内的分支长度反映了种群水平上的溯祖过程(微观进化)( Hudson, 1991; Rosenberg and Nordborg, 2002; Wakeley, 2006 )。在这两个框架中,都存在分析分支率的成熟方法。将描述物种层次上谱系产生过程的方程与物种内部的溯祖模型相结合,可以建立一个统计框架来估计与物种边界相关的分支动态变化。在这里,我们开发了一种方法,确定祖先节点的位置以定义推定物种,并应用似然率测试来评估分支长度匹配混合的谱系发生 - 种群溯祖模型的程度。 Pons J, Barraclough T G, Gomez-Zurita J, et al. Sequence-based species delimitation for the DNA taxonomy of undescribed insects . Systematic biology, 2006, 55(4): 595-609.
# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz Cataloging the very large number of undescribed species of insects could be greatly accelerated by automated DNA based approaches, but procedures for large-scale species discovery from sequence data are currently lacking. Here, we use mitochondrial DNA variation to delimit species in a poorly known beetle radiation in the genus Rivacindela from arid Australia. Among 468 individuals sampled from 65 sites and multiple morphologically distinguishable types, sequence variation in three mtDNA genes (cytochrome oxidase subunit 1, cytochrome b, 16S ribosomal RNA) was strongly partitioned between 46 or 47 putative species identified with quantitative methods of species recognition based on fixed unique (“diagnostic”) characters. The boundaries between groups were also recognizable from a striking increase in branching rate in clock-constrained calibrated trees. Models of stochastic lineage growth (Yule models) were combined with coalescence theory to develop a new likelihood method that determines the point of transition from species-level (speciation and extinction) to population-level (coalescence) evolutionary processes. 基于 DNA 的自动化方法,对大量未被描述的昆虫物种的分类有较大提升,但目前尚缺乏从序列数据中大规模发现物种的程序。在这里,我们使用线粒体 DNA 变异来界定虎甲属( Rivacindela )中一群鲜为人知的辐射进化而来的澳大利亚甲虫物种。从 65 个地点采集的 468 个标本和多个形态可区分模式标本中,扩增的 3 个线粒体基因(细胞色素氧化酶亚基 1 、细胞色素 B 、 16S 核糖体 RNA )的序列变异强烈支持 46 个或 47 个的可能物种,通过稳定的鉴别特征定量方法鉴定相近的物种数。在受时钟约束的校准树中,分支率显著增加,也可以识别出组与组之间的界限。将随机谱系增长模型( Yule 模型)与溯祖理论相结合,提出了一种新的似然方法,确定了从物种水平(物种形成和灭绝)到种群水平(溯祖)进化过程的转变点。 Pons J, Barraclough T G, Gomez-Zurita J, et al. Sequence-based species delimitation for the DNA taxonomy of undescribed insects . Systematic biology, 2006, 55(4): 595-609.
DNA BARCODING , DNA TAXONOMY , TAXONOMY The minimum sample size for DNA Barcoding We recently published a paper on the minimum sample size in DNA Barcoding in the journal Ecology and Evolution (doi: 10.1002/ece3.1846). It tried to use simulated datasets to examine the effects of sample size on four estimators of genetic diversity, mismatch distribution, nucleotide diversity, the number of haplotypes, and maximum pairwise distance. As found by the previous project by Ai-Bing ZHANG et al. (2010, doi:10.1016/j.ympev.2009.09.014 ), this project confirms again that larger sample size helps to find the better results from DNA Barcoding. Besides, we found the minimum sample size of 20 individuals is required for each subsample. Dr A-Rong LUO led the project. She collaborated with researchers and student in Yunnan University, Beijing University of Chemical Technology, Capital Normal University and University of Sydney. Mr. Hai-Qiang LAN, the joint graduate student between Yunnan University of Finance and Economics and Institute of Zoology, Chinese Academy of Sciences finished his thesis during the project. The project was mainly supported by grants from the National Science Foundation, China, and partially supported by the Program of Ministry of Science and Technology of the People’s Republic of China. 我们最近在Ecology and Evolution上发表了一篇论文,研究了DNA Barcoding的最小取样量问题(doi: 10.1002/ece3.1846)。该工作用模拟数据,对错配分布、核苷酸多样性、单倍型数量和最大配对距离等四个估量对遗传多样性的取样量效应进行了比较分析。和张爱兵等(2010, doi:10.1016/j.ympev.2009.09.014 )发现的一样,我们发现取样量越大,DNA Barcoding的结果越好;同时,我们的结果发现每个亚群取样量至少为21个个体。 罗阿蓉博士为第一作者。她和云南财经大学、北京化工大学、首都师范大学、悉尼大学等研究人员合作完成。通过这个项目,云南大学和中国科学院动物研究所联合培养了一名硕士研究生,蓝海强完成一篇学位论文。该工作主要得到自然科学基金委面上和特殊学科点项目,部分得到科学与技术部基础专项的支持。 Luo, A., Lan, H., Ling, C., Zhang, A., Shi, L., Ho, S. Y. W. and Zhu, C. (2015), A simulation study of sample size for DNA barcoding. Ecol Evol, 5: 5869–5879. doi:10.1002/ece3.1846 ( Luo_et_al-Ecology_and_Evolution.pdf ) English Abstract: For some groups of organisms, DNA barcoding can provide a useful tool in taxonomy, evolutionary biology, and biodiversity assessment. However, the efficacy of DNA barcoding depends on the degree of sampling per species, because a large enough sample size is needed to provide a reliable estimate of genetic polymorphism and for delimiting species. We used a simulation approach to examine the effects of sample size on four estimators of genetic polymorphism related to DNA barcoding: mismatch distribution, nucleotide diversity, the number of haplotypes, and maximum pairwise distance. Our results showed that mismatch distributions derived from subsamples of ≥20 individuals usually bore a close resemblance to that of the full dataset. Estimates of nucleotide diversity from subsamples of ≥20 individuals tended to be bell-shaped around that of the full dataset, whereas estimates from smaller subsamples were not. As expected, greater sampling generally led to an increase in the number of haplotypes. We also found that subsamples of ≥20 individuals allowed a good estimate of the maximum pairwise distance of the full dataset, while smaller ones were associated with a high probability of underestimation. Overall, our study confirms the expectation that larger samples are beneficial for the efficacy of DNA barcoding and suggests that a minimum sample size of 20 individuals is needed in practice for each population. 中文摘要: DNA条形码可以为某些生物类群分类、进化生物学和物种多样性评估等研究提供有效的辅助性作用。但是,条形码的效力取决于每个物种的取样程度。只有足够的取样量才能可靠地估计遗传多样性,从而精确界定物种。我们通过数据模拟,对4个影响DNA条形码相关的遗传多样性变量进行了分析:错配分布、核苷酸多样性、单倍型数量和最大配对距离。我们的结果表明:20个(包括)以上的个体组成亚组得到的错配分布和全数据集的相似;20个以上个体亚组的核苷酸多样性估值在全数据集附近形成钟形分布,而20个以下个体亚组则非钟形分布;加大取样量通常会提高单倍型数量;20个以上个体亚组可以较好估计全数据集的最大配对距离。综上,我们的研究确认DNA条形码取样量的重要性,每个种群至少取样20个。
Early View全文分享: 2015-Douglas et al.-A DNA Barcoding system integrating multigene sequence data.pdf 自2003年在加拿大多伦多大学,了解了DNA条形码的理念后,我个人持续关注。2005年在伦敦自然历史博物馆参加第 二届世界DNA条形码大会后,自己更加希望做些工作,推动昆虫系统学工作。 基于 DNA 序列,学界已经开发了很多用于分类鉴定的方法和系统。但是,在真核生物中,大多数系统使用单个预设的基因片段,如 COI 、 16S 等。有限数据信息可能导致鉴定结果出现一定的偏差。这些系统也很难识别并分析基因组来源的大量基因数据。 今天收到 Methods in Ecology and Evolution 编辑部来信, Douglas Chesters 博士等整合多基因数据的 DNA 条形码系统的研究论文已经被正式接受,并将于近日在线发表。 在这篇论文中,我们实现了多个基因的 DNA 条形码功能: 1 )基于经常测定的基因位点数据,建立一个参考框架性数据集; 2 )其它基因数据和参考序列进行同源比对、剪切,同时在种内变异范围内对查询基因片段赋予物种分类阶元信息。我们把该方法和现有一些方法进行了比较,如“ bagpipe_phylo” 。后者在系统发育树上给序列重新赋予分类阶元信息。 上述建议的多基因系统正确推断了 GenBank 中节肢动物 78% 的物种和 94% 的属级阶元。尤为关键的是,物种鉴别的比例高于仅仅用 COI 的方法。测试数据中, 24% 的物种仅仅见于非 COI 基因,而且这些 COI 之外的基因的物种阶元信息赋予正确率并没有明显的降低。同法,我们应用非 COI 的数据栏对建立的宏基因组数据进行了额外的物种阶元信息赋予。通过测试 1 个 273 条蜜蜂基因序列的数据,我们通过改变遗传距离的计算方法,物种赋予正确率和基于系统发育的分类鉴定结果差异不明显。 标准的单基因片段 DNA 条形码仍然是基于 PCR 产生数据的物种鉴定的重要鉴定工具。对于已经建立的大量物种 DNA 条形码“骨干数据”而言,本文方法可以补充下列几点: 1 )基因组数据; 2 )通过整合其它独立的基因位点降低错误; 3 )对非条形码片段进行额外的物种鉴定。通过新一代测序平台,后面两点和群落基因组监测工作尤其相关。 学海无涯勤作舟。 Douglas 博士来组里以后,努力工作,取得了一系列的研究进展。 在基于基因序列的物种界别的方向上, Douglas 博士已经连续在 Systematic Biology ( 2 篇)和 Methods in Ecology and Evolution ( 2 篇)上发表论文,把单个基因的思路推广到多个基因,并实现了大数据库中基因物种信息的自动矫正和赋予。 功夫不负有心人:2014年, 他获得中国科学院院长国际学者1年期项目(PIFI),获得一项国家自然科学基金项目,并于年底成功竞聘为动物研究所副研究员。 后续我们计划在下面几个方面继续努力: 1 ) 把该方法推广到基因组。这个功能已经部分实现,但是还需要较多组学数据的实际测试。 2)把该方法推广到系统树上的一些关键节点。这是我个人最感兴趣的点。 3 )把该方法和其它学科,特别是昆虫多样性和物种互作研究结合起来。 4 )把该方法更系统地应用到蜜蜂物种较为丰富的几个属中,加快蜜蜂总科系统学研究工作。 原文摘要和全文将于在线后和大家分享: A DNA Barcoding system integrating multi-gene sequence data Douglas Chesters, Wei-Min Zheng and Chao-Dong Zhu Accepted manuscript online: 4 MAR 2015 04:41AM EST | DOI: 10.1111/2041-210X.12366 Abstract PDF(223K) Supporting Information Request Permissions
论文在线发表,引用信息如下: A Protocol for Species Delineation of Public DNA Databases, Applied to the Insecta. Douglas Chesters; Chao-Dong Zhu Systematic Biology 2014; doi: 10.1093/sysbio/syu038 论文全文下载: 相关数据: http://datadryad.org/resource/doi:10.5061/dryad.k7t50 论文在线发表: Abstract: http://sysbio.oxfordjournals.org/cgi/content/abstract/syu038?ijkey=tS8O8zuszBKwUulkeytype=ref PDF: http://sysbio.oxfordjournals.org/cgi/reprint/syu038?ijkey=tS8O8zuszBKwUulkeytype=ref 网站: phylolab.ioz.ac.cn 软件链接: 1、 Automated taxonomic identification of Apoidea (bee) DNA sequences 2、 Multi-Gene DNA Barcoding for Arthropods (beta) 介绍 大量 DNA 条形码数据为实现快速物种界定提供了可能性,也带来了两个问题:1)基于单个位点信息的物种界定是否可靠?2)依据公共数据库信息,实现物种界定的可靠性有多高? MEE 论文 (http://onlinelibrary.wiley.com/doi/10.1111/2041-210X.12104/abstract) 解决了多基因物种界定的全局参数优化 问题。我们 在提交MEE论文的前一天,也向另外一个专业杂志, Systematic Biology 提交了另外一篇论文。该论文最早的想法:飞速发展的测序技术至今测定了多少物种?公共数据库中有多少具有物种水平分类学信息的序列?这些分类学信息是否真实反映了物种界限?在无法完成形态分类学验证的情况下,如何基于多基因片段的信息,为无标记序列提供并验证物种分类信息? 为了实现上述想法, Douglas Chesters 博士开发并测试了一套流程,把 MEE 论文的方法从蜜蜂总科进一步推广到昆虫纲,从少数几个基因片段推广到n个,以期获得更加普遍而可靠的结论。经过审稿人、编辑、副主编和主编的3轮密集审阅,我们收获了很多建设性的建议和想法,并规划了下一步工作。 公共 DNA 数据库中昆虫物种界定规程 公共 DNA 数据库中包含很多生物类群,为系统学研究提供了大量数据来源。目前,基于分子数据的物种鉴别和界定工作已经逐步开展。现代测序技术的飞速发展,带来了海量分子数据的同时,也导致很多研究人员无法为相关数据提供准确的分类学信息。这些分类信息不够完整的分子数据,阻碍了在物种一级水平上开展精细的数据挖掘。同时,基于较大数据库进行物种聚类研究,也需要整合多个基因片段,从而在数据结构和计算过程中产生了很多问题。 作者研发了一种在分子序列数据库中界定物种的方法: 1) 首先获取所有昆虫的 DNA 序列,并对它们进行文本加工; 2) 根据一定的规则过滤掉重复数据; 3) 划分遗传位点 L ; 4) 根据每个位点信息,界定物种 S ; 5) 物种单元与位点相匹配,形成一组多位点物种界定的数据矩阵 L × S 。 作者应用马尔科夫聚类的方法将数据库划分为同源基因片段数据集。基于包含大部分物种多样性的基因,完成物种鉴定,并同时对物种单元名字赋予物种名。在物种聚类过程中,两两相似之处计算的复杂性的主要来源于线粒体基因组中的 COI 位点。自主研发的软件解决了这个复杂的过程:在分类的体系内执行序列两两比对,且为不同阶元的序列标注分类信息。 该工作研究了 GenBank 中超过 24 个不同同源基因, 194000 个未带分类标签的序列,包含 41 525 个带分类标签的物种( 98.7% 从昆虫数据库中获得)。通过对每个位点的分层聚类,利用独立的最优参数,这些序列被分组到 59173 个基于单个位点的分子分类单元( MOTU )中。来自不同位点的 MOTU ,由多部匹配算法进行匹配。这样,位点之间形成不一致性最低的多位点单元。匹配后,我们 发现了在目前的昆虫数据库中,存在 78091 个基于多位点信息的 MOTU 。其中, 38 574 个单元包含物种分类学信息,而 34 891 个则没有包含物种分类标签 。 除了可以估算物种多样性,我们开发的规程还将促进现代序列数据集的物种界定。特别是 L × S 矩阵代表了后分类学思路,将可以解构种级元基因组数据。这些方法将可以在多个基因位点,甚至基因组水平提取大量数据,产生更多研究物种多样性的 L × S 矩阵,从而整合到后续的系统发育的流程。 上述研究成果,已经被Systematic Biology接收: 17-Jan-2013 Submitted 18-Apr-2013 Reject; resubmission encouraged 08-Aug-2013 Resubmission 21-Nov-2013 Accept with major revisions 06-Jan-2014 Resubmission of R1 14-Apr-2014 Accept with minor revision 19-Apr-2014 Resubmission of R2 28-Apr-2014 Accept pending receipt of final changes 29-Apr-2014 Resubmission of R3 10-May-2014 Accept, Production Checklist 11-June-2014 Awaiting Assignment to Batch 15-June-2014 Published on-line