zhuchaodong的个人博客分享 http://blog.sciencenet.cn/u/zhuchaodong

博文

雕虫小记 - DELTA系统简介 精选

已有 7849 次阅读 2014-8-12 07:39 |系统分类:科研笔记|关键词:学者| 博士论文, 编码, 人机交互, Delta, 分类学描述语言

1996年,我刚到动物研究所,就开始在黄大卫老师指导下学习DELTA系统(DEscription Language for TAxonomy)。在DELTA系统的帮助下,我完成了博士论文。在访问匈牙利Koszeg期间,我基于博士论文建立的DELTA信息,有序记录了Szelenyi博士发表的大部分姬小蜂亚科模式标本,并很快完成了SympiesisHempitarsenus系统发育关系的研究论文。目前实验室使用跨平台的Open DELTA系统

最近有多个攻读系统学学位的同学也在研究该系统,以期提高自己的分类工作效率。我找出我博士论文中关于DELTA部分文字,再次研读并与学友分享如下。

对于一个分类学工作者而言,鉴定物种、编制检索表、描述物种或者种上阶元,并对所研究的分类单元进行分析是分类工作实践的中心。面对大的分类单元或者新的物种不断被发现的分类单元,手工鉴定和编制检索表成为十分耗时的工作。而且得到的结果也不能保证符合自然系统。随着计算机技术的飞速发展,分类学理论的日益成熟,越来越多与分类学相关的工作要求对所研究的分类对象进行支序或者表型分析,同时已经有一批成熟的分析软件被很多分类学工作者用于实践中。但是所有的分析软件都需要严格的数据格式。经过二十多年的编研,澳大利亚联邦科学与工业研究院昆虫研究所的Dallwitz博士等针对分类学工作,设计了DELTA格式以及基于该数据格式的一套功能多样的DELTA系统。分类学工作者把观察到的结果以DELTA格式输入计算机,DELTA系统就可以实现对物种的交互鉴定、编制检索表、对物种的描述。同时还可以生成不同的数据格式,用于不同软件的分析。

1988年,DELTA 格式已经被国际植物分类学数据库工作组确定为分类数据交流的国际标准。同时,有许多国外专家把该系统应用于包括微生物、病毒、植物、昆虫的分类学研究中。在国内,DELTA系统编研者Dallwitz博士曾经到中国科学院植物研究所就该系统作过报告;李健钧(1996)在植物分类学报上结合植物分类实践对该系统作了介绍;张明理(2009)对该系统进行了再次推介。结合姬小蜂的分类学研究工作,作者深感该系统的功能强大。由于DELTA系统在产生之后就不断更新,特别是近几年来,计算机技术的飞速发展,该系统的发展更是日新月异。同时,为更方便地处理DELTA数据,有一些作者编研了同样基于DELTA数据格式的软件。本文试对DELTA 作一简介,希望广大的分类学工作者,尤其是昆虫分类工作者,能对该系统有所了解,并利用该系统,规范高效地处理数据。

1.  系统功能

如前所述,DELTA系统功能强大。在此,仅列举与分类学实践密切相关的几大功能:

描述:所产生的描述规范、自然,可以是文本格式,也可以是能被WORD程序直接读取的带格式 .RTF 文件,也可以是能直接上网的超文本文件;

编制检索表 - 通过基于分类学实践经验的性状加权,得出的检索表和手工编制的检索表一样实用;

交互检索:对于分类学工作者而言,得到的数据可以转化为一套交互检索工具,图文并茂,可以为相关的科学工作者提供物种的快速有效的鉴定;

生成数据距阵:用于聚类分析或者支序分析。其中支序分析软件包括HENNIG86PAUPPHYLIP等。


1.  系统组成(1)  程序

转化程序       CONFOR.EXE

检索表生成程序    KEY.EXE

交互标本检索程序   INTKEY.EXE

距离距阵生成程序   DIST.EXE

近邻判定程序     NSIM.EXE

数学聚类程序     PCLASS.EXE

聚类结果作图程序    TXPLOT.EXE

位图编辑器      INTIMATE.EXE

用户数据维护程序     DELFOR.EXE

(2)  指令文件

TODIS     转化为DIST 格式.

TOHEN     转化为HENNIG86 格式.

TONEX     转化为Nexus 格式.

TOPAU     转化为PAUP格式.

TOINT     转化为INTKEY 格式.

TOKEY     转化为KEY 格式.

TONAT     转化为自然语言:

TXT 格式;

RTF 格式;

超文本格式

2.  用户数据文件及其生成与维护

DELTA的用户数据文件有CHARSSPECITEM三个文件。下面简单介绍各个文件的结构和它们的维护。因为后面的部分中所有功能的实现,都是基于这三个用户数据文件,所以在介绍中,列出了中国姬小蜂亚科分属的相关文件内容。

 

(1)  性状表文件 CHARS

性状表文件包含了一个编号的性状列表和性状状态列表。每个性状由一个性状和一系列的性状状态组成。性状有五种类型:

 

无序多态UM:有两个或者两个以上的性状状态,性状状态和它们的顺序没有联系或者这种联系目前还没有确定。例如:

 

#5. 口上沟 <存在?>/

1. 存在/

2. 不存在/

 

有序多态OM:两个或者两个以上的性状状态,性状状态和顺序之间有一定的联系。例如:

 

#7. 下颚须 <几节>/

1. 1/

2. 2/

3. 3/

4. 4/

#8. 下唇须 <几节>/

1. 1/

2. 2/

3. 3/

 

整数(IN:量度为整数的性状。例如:

 

#176. 前胸背板上长刚毛 <数目>/

#177. 中胸盾片上刚毛 <几对>/ /

 

实数(RN:用于量度为实数的性状。例如:

 

#194. 头部宽度和长度的比例 =<Leica M10, 80* >/

#195. 头部宽度和高度的比例 =<Leica M10, 80*>/


文本(TE:用于记述一些特殊资料或者文献。例如:

 

#12. 采集人: /

#13. 采集日期: /

 

由以上例子,可以看出:每个性状开头都是一个井号(#),一个数字,一个句点(.)和一个空格,后面是性状描述,结尾是一个斜杠(/)。每个性状状态开头是一个数字,一个句点和一个空格,后面是该性状状态的描述,结尾也是一个斜杠。性状177中说明整数性状或者实数性状中可以带单位。

任何说明可以被放在尖括号(<>)中,出现在任何地方。但是该括号的左边必须有一个空格,右边必须有一个空格或者是斜杠。这些尖括号中的说明,有助于对分类单元的编码,并且可以出现在交互检索程序-INTKEY中。


(1)  分类单元描述文件 ITEMS

分类单元描述文件包括分类单元的名称及其在性状表中各个性状中状态的取值。用任何文本编辑器打开该文件,可以了解该文件的详细结构。例如:

 

*SHOW Chinese Genera of Eulophinae. Revised Fri Mar 05 08:42:251999

 

*ITEM DESCRIPTIONS

 

# Alophomorphella Girault, 1913/

1,1 2,1 5,1 6,2 7,2 8,1 9,1 10,1 11,1 12,1 13,1 14,1 15,1 16,117,1 18,1 19,1 20,1 21,1 22,1 23,1 24,1 25,1 26,1 27,1 28,1 29,2 30,1 31,1 32,133,1 34,1 35,1 36,1 37,3 38,1 39,1 40,2 41,1 42,2 44,1 46,1 47,1 48,1 49,1 50,251,2 52,1 53,2 54,1 55,2 57,1 58,2 59,2 60,1 61,1 62,1 63,1 64,1 65,2 67,1 68,169,1 71,1 72,1 73,2 74,1 75,2 76,2 77,1 78,1 79,1 80,1 81,3 82,2 83,1 85,1 91,192,1 93,1 94,1 95,1 96,1 97,1 98,1 99,1 100,1 101,1 102,1 103,1 104,1 105,1106,1 107,1 108,1 109,1 110,1 111,1 112,1 113,1 115,1 116,1 117,1

 

第一行是一个说明,此例中说明该文件所处理的分类单元,和最近一次处理的时间。第二行是必须行,它提示其它有关DELTA格式的程序,下面就是编码的分类单元描述了。

分类单元描述包括一个分类单元名称和与性状列表密切相关的描述。分类单元名称前有一个井号,结尾是一个斜杠。描述由每个性状的数码和性状状态数码构成,两个数码之间由逗号隔开。性状之间必须有空格隔开。如果分类单元的性状状态不止一个,可以用斜杠表示或者,短横表示范围,&表示同时存在等。如:2/3表示该性状取性状状态2或者32-3表示该性状性状状态在23之间,2&3表示该性状中性状状态23同时存在。必须说明的是:除了在生成自然语言描述能区分上述‘或者’和‘同时存在’的表示方法之外,大多数的程序并不能区分。所以,如果这种区分在鉴定上有重要的作用,最好在性状中添加一个性状状态,表示这种区别。

整数和实数性状的最大值可以放在圆括号中,如:(1.4-1.9-2.53.2)。

如果该性状不容易观察到,该性状可以空缺。如果该性状不存在,它的性状状态将被编码为‘-’。例如:

 

#13. 触角窝 <位置:相对于复眼下缘>/

1. 最高不超过头部中央,到前单眼的距离最多和到口缘的等距/

2. 到前单眼的距离几乎是到口缘的1/2/

 

#14. 触角窝 <位置:相对于口缘>/

1. 不位于口缘,到前单眼的距离最多是它到口缘距离的1.5 /

2. 位于口缘,到前单眼的距离至少是它到口缘距离的3/

 

14号性状依赖于13号性状的存在。对于该例,如果13号性状状态取2,那么,14号的所有性状状态将不存在。这样的依赖关系在说明文件中作出规定。

(2)  说明文件 SPECS

说明文件中包括:

性状个数;

性状最多性状状态个数;

最多分类单元个数;

每个性状的类型:UMOMIN RNTE,默认为UM

每个性状的性状状态数,默认为2

性状之间的依赖关系等转化程序CONFOR.EXE所需要的信息。如:

 

*SHOW Chinese Genera of Eulophinae. Revised Fri Mar 05 08:43:391999

*NUMBER OF CHARACTERS 120

*MAXIMUM NUMBER OF STATES 6

*MAXIMUM NUMBER OF ITEMS 37

*CHARACTER TYPES 1-4,OM 6,OM 9-23,OM 25-32,OM 34,OM 40,OM44-51,OM 54-55,OM 57,OM 61-62,OM 64,OM 69,OM 71-72,OM 74,OM 77-78,OM 83-84,OM88-94,OM 97-101,OM 103-105,OM 107-110,OM 112-113,OM 114,TE 115-116,OM

*NUMBERS OF STATES 7,4 8,3 16,3 21,6 37,4 39,3 40,4 44,3 46,349,4 55,6 56,3 69,3 73,5 76,3 81,5 82,3 90,6 101,3 105,3 120,1

*LINK CHARACTERS 2-4 5-6 10-12 13-14 15-16 17-18 19-20 25-2829-31 33-34 35-39 40-43 46-55 57-59 64-67 68-70 71-73 74-78 79-83 86-90 95-9697-99 101-102 103-105 109-111 115-116 117-120

*NEW PARAGRAPHS AT CHARACTERS 1 24 74 97 106 112 114

*CHARACTER RELIABILITIES 1,8 5,8 9-14,8 16,3 21,3 22,10 26-31,834,8 36,8 37,3 39-40,3 44,3 46,3 47-48,8 49,10 50-53,8 55-56,3 61,8 62,10 63,869,3 73,3 74-75,8 76,3 78,8 81-82,3 83-84,8 88,8 90,3 91-97,8 98-99,10 100,8101-102,10 105,3 106-107,10 108,8 110-111,8 112-113,10 117,8 119,8

*INAPPLICABLE CHARACTERS 2,1:3-4 5,2:6 10,2:11-12 13,2:1415,2:16-20 16,2:19-20 35,2:36-39 36,2:37 41,1:43 44,1/2:45 47,1:56 48,2:49:6053,1:57-59 54,2:55 58,1:59 62,2:63-73 64,2:67 65,2:66 68,2:63:67:69 68,1:7071,2:66:72-73 75,1:76-77:85-90:93 76,1/3:77:93 76,2:86-90 79,2:80-84 82,2/3:8486,2:87-90 103,2:104-105 104,2:105 117,1:118-120

 

(3)  数据的生成和维护

在了解了DELTA系统的作用之后,用户大部分的时间将与上述三个用户文件打交道。所有文本编辑器都可以生成上述数据。但是,如前所述:DELTA格式严格,三个文本数据之间又有严格的相互关系,所以,分别编辑三个文件十分不方便。特别是一旦一个性状列表文件建成,它的性状之间的顺序就不能改变,其性状状态之间的性状也不能改变。而在生物系统学的实践中,却会不断有新性状或者新性状状态的发现。

荷兰的J. GoudaTAXASOFT软件,解决了上述问题:在编辑三个文件中的任何一个时,都可以自动对其它两个文件同时进行删除、添加、调换顺序等修改。同时,不需要考虑文本的格式。而且,所操作的对象均为自然语言的文本,而不是数字,减少了疏忽造成的失误机会。还有一个优点是:它不要求用户在一开始就准备一个完善的性状列表,而是允许在连续的标本检视和分类单元编码过程中,不断修订该列表。

但是,TAXASOFT是一个DOS环境下的应用程序,所以它处理数据的能力有限。

最近,在DELTA最新推出的版本(1998/5/5)中,新增加了一个程序—DELTA EDITOR。该程序调用.DLT文件格式,该格式和上述用户文件的最大区别有两点:1)单个文件储存所有信息;2)可以输入的信息包括了带格式的文本、声音、图象等。该程序可以在WINDOWS环境下实现TAXASOFT的功能,同时,它可以从上述三个用户数据文件中引入数据,也可以将.DLT格式的文件转化为上述三个文件。

2.  几个主要功能简介

DELTA的中心是转化程序CONFOR.EXE。几个主要功能,将由CONFOR.EXE调用相应的指令文件来实现。用户只需要到DELTA系统目录下将相应的指令拷贝一下,稍作修改,就可以用转化程序处理上述用户数据文件,很快就能生成所需要的结果。

下面分别简单介绍生成检索表、生成自然语言描述和支序分析等主要功能。

(1)  生成检索表步骤1. 修改指令文件TOKEY

例如:

 

*SHOW Translate into KEY format

*HEADING Chinese Eulophinae.  Data converted #TIME #DATE.

*LISTING FILE tokey.lst

*INPUT FILE specs

*TRANSLATE INTO KEY FORMAT

*KEY OUTPUT FILE kchars

*INPUT FILE chars

*KEY OUTPUT FILE kitems

*INPUT FILE items

 

步骤2. 转化

运行CONFOR.EXE,调用上述指令文件TOKEY,生成过渡文件KCHARSKITEMS。这两个文件都是二进制文件,一般的文本编辑器不能阅读它们的内容。其中,CONFOR.EXEDELTA系统中的中心,所有的处理都由它来完成。同时,如果数据很大,可以用CONFORQW.EXE,在WINDOWS环境下完成转化。

步骤3. 生成检索表

运行KEY.EXE,或者KEYQW.EXE,生成检索表。该程序独立运行,所生成的检索表中的所用性状通常单独出现;也可以调用指令文件运行,如:指令文件KEY5

 

*HEADING: Key 5. Confirmatory characters

*NUMBER OF CONFIRMATORY CHARACTERS 4

 

这样,在生成检索表时,程序将自动寻找最多四个的等效性状,增强该索表的可靠性和可用性。

(2)  生成自然语言描述

DELTA系统中,数据可以转化为多种描述,如普通的文本,可以被WORD直接调阅的RTF文件,可以被网络浏览器调阅的超文本等。本文仅以生成RTF文件为例:

步骤1.修改指令文件TONATR

例如:

 

*LISTING FILE OUTtonatr.lst *PRINT FILE OUTtonatr.rtf

*DATA BUFFER SIZE 6400

*INPUT FILE SPECS

*CHINESE FORMAT

*TRANSLATE INTO NATURAL LANGUAGE

*REPLACE ANGLE BRACKETS

*OMIT CHARACTER NUMBER

*OMIT INAPPLICABLES

*OMIT INNER COMMENTS

*PRINT WIDTH 0

*INPUT DELTA FILE markrtf

*INPUT FILE CHARS

*PRINT COMMENT qcsa300bfs30 中国姬小蜂亚科fs22b0

*INPUT FILE items

 

步骤2. 转化运行CONFOR.EXE,调用上述指令文件TONATR。所生成的文件NATR.RTF即为描述文本。

由于处理中文汉字,所以使用了指令‘CHINESEFORMAT’。它将在CONFOR.EXE处理数据时指示按双字节方式处理。TRANSLATE INTO是该例中的中心指令。MARKRTF是一个格式文件,其中包含了许多把数据转化为RTF文件时所需要的信息。DELTA系统中原有的该文件只能处理西文,所以必须稍加改动:把所调用文字类型由西文字体转换为汉字字体—这样,和CHINESEFORMAT同时使用,才能生成中文的描述。同时,只需把性状列表文件翻译成中文,就可以同时生成中文、英文两个版本的描述。

(1)  支序分析示例

下面仅以HENNIG86 (TOHEN) 简单示例:

步骤1. 修改指令文件TOHEN

例如:

 

*SHOW Translate into HENNIG86 format

*HEADING Chinese Genera of Eulophinae #TIME #DATE

*LISTING FILE hen86tohen.lst *PRINT FILE hen86tohen.prt

*INPUT FILE specs

*TRANSLATE INTO HENNIG FORMAT

*PRINT CHARACTER LIST

*OMIT TYPESETTING MARKS

*INPUT FILE chars

*OUTPUT FILE hen86hendata

*INPUT FILE items

 

综合上述两个指令文件,可以看出:TRANSLATEINTO指令是指令文件中的中心,它直接决定数据被CONFOR.EXE转化的结果。

步骤2. 转化运行CONFOR.EXE , 调用指令文件TOHEN。生成中间文件HENDATA。这是一个文本文件,可以被文本编辑器直接阅读。


步骤3. 运行HENNIG86程序调用HENDATA,即可对所处理分类单元进行支序系统学的分析和研究了。

所有与生物系统学分析研究相关的成熟软件,都要求严格的数据格式。这种严格要求,在数据量较小的情况下,并不影响其编码。但是在数据量巨大时,不使用DELTA系统和TAXASOFT软件,编码十分困难,同时失误率也比较高;而使用DELTA系统和TAXASOFT软件,所有的编码都是在人机交互环境下完成,并受到一定的编码规则约束。另外,由于在性状列表中,所有的性状和性状状态都是有序排列的,所以,在该系统下,所有的标本检视也是有序地进行的。

致谢:

当时黄老师实验室肖晖博士、胡玉琴、吴岷博士、张彦周博士和许多同事和作者就交互检索开展了多次讨论。

黄复生教授在昆虫野外考察方面给予了许多指导、还提供了一些到中国南方采集的机会;薛大勇教授、纪力强副教授和侯晓霞女士在计算机技术和数据库方面给予了多方指导和帮助;于延芬、甘雅玲、李佑文、李世文老师帮助我进行SEM的观察和洗像;同时,我还从李文柱先生、武春生副教授、乔格侠副教授等处学习到许多专业知识。

同时感谢曹焕喜、王朝、颜蕾、吕向阳等同学关于DELTA提出的问题和讨论。

附相关网址:

DELTA - DEscription Language for TAxonomy

delta-intkey.com/

Free DELTA

freedelta.sourceforge.net/

Open DELTA

https://code.google.com/p/open-delta/







https://m.sciencenet.cn/blog-536560-818881.html

上一篇:雕虫小记-全景纪录生境与昆虫摄影
下一篇:Simon Ho博士、副教授获得Macquarie University Eureka Prize

6 黄永义 张珑 李欣海 王琛柱 程起群 shenlu

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-14 12:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部