Google 时代,或者叫搜索时代。在人人都搜索的时代,做研究当然也离不开 Google 。 没有做过调查统计,但好像中国的小学生中学生甚至大学生用百度搜索的会更多。记得有一次,看北京市中学生科技论文,论文中的很多引用来源都是百度百科。在大街上很多时候都能听见说,“百度一下嘛”。但我向来是说“ Google 一下嘛”。 找学习资料, Google ;找最新文献, Google ;找导师, Google ;找同行, Google ;懒得收藏网址, Google ;不管遇到啥问题,都来 Google 。前几天在 Powell's City of Books 看见一本书,名字叫《 Whoogles: Can a Dog Make a Woman Pregnant - And Hundreds of Other Searches That Make You Ask "Who Would Google That?" 》。大家确实不管什么问题都去 Google 。 说实话,在平时工作中,没有 Google ,我会觉得心里不踏实。所以国内很多时候连不上 Google ,总是忍不住骂几句。 但实际上,搜索时代一个很重要的问题是:(你所检索到的) 数据信息质量如何? 举一个专业相关的例子。有时候我们需要检索一个物种名,用 Google 检索之后会发现有很多条记录,前面几条最相关的记录往往来自一些物种名目数据库。比如,网页 A 指向维基百科,网页 B 指向一个欧洲的数据库,网页 C 指向生命之树( Tree of Life web project )网站,网页 D 指向生命大百科全书( Encyclopedia of Life ),网页 E 指向 Species2000 的全球物种名录( Catalogue of Life ),网页 F 指向一个由科学家个人时时更新的某个生物类群的物种名录数据库。 物种名字由分类学家所确定,并且随着时间随着对某个生物类群更多证据的了解,这些名字可能发生变化,比如原来的物种名 1 现在可能叫物种名 2 。所以要搞清楚一个物种的名字,很有必要了解其修订的历史。对于上面的例子,会发现维基百科( A )的参考文献是那个欧洲的数据库( B ),而欧洲数据库的参考文献是生命之树网站( C );生命大百科全书的网页( D )的参考文献是全球物种名录( E ),而全球物种名录的信息来源,指向那个科学家管理的网站( F )。经过分析,你还会发现生命之树网站上那个 1995 年创建的网页上面的物种名现在已经不成立了,因此 A 、 B 、 C 三处的信息应该过时了;并且你发现虽然生命大百科全书网页( D )物种名字信息正确,但其他相关信息显然没有更新,而最新的信息,体现在网站 F ,因为它是科学家时时更新的网站。对于上面的例子,如果把信息的有效性排序,应该是: A B C D E F 。 问题是,如果你只是信息的需求者,不是专门的分类学家,则很难去追踪物种名字的修订历史,有时候难免会使用了并没有及时更新的或者错误的信息(比如你引用了 A 、 B 、 C )。这只是一个例子,这样的例子在使用网络检索时很多很多。对于普通大众来说,如何来判断所检索到的信息的准确性呢。在 Google 时代,这确实是个挺大的问题。本来还想举一个我们国家的例子,想想还是算了,我们国家的很多数据库根本就进不去,一点击,告诉你“找不到文件”、“网页无法打开”。 对于与科学有关的数据库来说,我觉得至少应该做到的两点:一定要保持更新;二手三手的数据库一定要给信息使用者提供最直接的引用或者说数据来源(比如上面例子中的 F )。这样做一方面尊重原始的信息所有权,一方面减少二手三手甚至 N 手信息的传播。对于非原始信息使用者或传播者来说,也要尽量引用最原始的数据来源(但不知道多少能做到)。
今天上午,听了一场精彩的学术报告,报告人是被称为 DNA 条形码之父的 Paul Hebert ,题目是 Digital biodiversity 。听 Paul 的报告不是第一次,但这次,对我的想法触动最大。他非常清楚的传达了他要讲解的主旨:如何更有效的揭示地球上的生物多样性。我在这儿介绍一下 Paul 今天的报告内容,中间夹杂着谈谈我的想法。 先来看看我们单位对他的介绍。 Paul Hebert ,加拿大University of Guelph大学教授、加拿大皇家学会会员。他于2003年提出了DNA条形码(DNA barcoding)的概念,并发起了国际生命条形码计划(International Barcode of Life Project),被尊称为DNA条形码之父。他在2003年关于DNA条形码的文章被ISI确定为2004年在生物学和生物化学领域引用最多的论文,并将DNA条形码视为进展最迅速的学科前沿之一。New Scientist在2004年6月将DNA barcoding作为封面文章,Science和Nature分别作了多篇评论。DNA条形码不仅是传统物种鉴定的强有力补充,更由于它采用数字化形式,使样品鉴定过程能够实现自动化和标准化,突破了对经验的过度依赖,并可利用有机体的残片进行快速有效的鉴定,能够在较短时间内建立形成易于利用的应用系统。 报告的开篇, Paul 首先比较了对现今自然科学影响巨大的三方面研究,即 life ( Charles Darwin 的研究)、 cosmos (宇宙科学)和 matter (物质科学),在 19 世纪 50 年代( 1850s )和 21 世纪的今天在研究手段方面的差异。 1850 年代,宇宙科学研究使用很简单的望远镜观察太空,物质科学同样使用简单的研究工具;而今天,宇宙科学研究有了哈珀望远镜,物质科学研究也有了越来越强大的粒子加速器。对于生物多样性的发现呢,达尔文时代已经开始使用显微镜观察生物标本,而今天的分类学家,依然使用并没有提高多少的显微镜观察并发现新的物种。他是想告诉我们:揭示地球上的生物多样性,我们或许需要新的工具。 接着, Paul 问了一个问题:地球上到底有多少生物物种?他展示了,我们从林奈时期开始经过 250 年所描述的生物物种数量,与科学家所预计的地球生物多样性的体量,依然很少,仍有大量的生物多样性需要发现。他接着详细讲解了传统的生物分类( specimen taxonomy )和物种记录( species documentation )方式是一种需要大量时间和精力的研究模式,这种研究模式使得生物多样性发现的速度太慢。 在传统的生物分类研究中,一般有三个步骤:标本采集( collecting ),标本整理( curation ),鉴定分类( taxonomy )。标本的采集相对容易,比如一晚上可以灯诱成千上万头昆虫;标本馆中对标本的整理归类则需要的时间则长很多;而标本的鉴定则最慢,有时候花很多的时间也不能鉴定出一批标本。为什么这么慢?因为基于形态特征的传统生物分类的原理是物以类聚,也即一个基于实物标本的比较过程,分类学者需要向世界各地的标本馆借阅(或者直接去看)更多的标本才能获得更确定的鉴定结果。对于部分难以鉴定的生物类群,这个过程往往需要花费很多的时间和金钱。对于传统生物分类,另外一个重要问题是:如何确定清晰的区分不同物种的形态特征的界限?达尔文对 barnacles (藤壶)的分类研究,正体现了基于形态的分类有时候非常难。也正是如此,不同人对同样标本的分类也会有不同的结果,从而产生了同物异名(实际上为同一物种,但被不同分类学者命名为不同的物种)。当我们鉴定出一个新的物种时,还需要记录其生物学细节(地理分布,生物型,生活史等),并将其发表( documentation ),而这个传统的过程,也需要大量的时间。 讲解了发现生物多样性的传统方式存在的问题之后, Paul 给出了一张片子,写道: DNA A digital future for biodiversity 。之后重点讲解了 DNA 条形码的发展及相关国际项目的进展,他还提到就在 2 周前日本名古屋举行的联合国生物多样性条约第 10 届缔约国会议( CBD COP 10 )上,国际生命条形码组织( iBOL )同 CBD 签订了正式的协议。 基于 DNA barcoding 揭示生物多样性的研究模式是这样的: 1 )从自然界采集或利用馆藏标本,收集相关信息包括图像和各种生物学信息; 2 )获取样品的 COI Barcode ,并进行分析,包括遗传距离分析、构建进化树等; 3 )树上的 barcode clusters 可以认为代表了不同的物种( BINs ),可能是一个已经基于形态描述的物种,也可能是一个新的未描述的物种; 4 )所有的相关信息,被录入数据库并实现共享。当然,这过程当中也有一些重要的科学问题需要进一步精确,比如区别物种的遗传距离标准、新物种的描述和命名等。 对于 DNA 条形码,一直有不少的争论,尤其是很多分类学家认为 DNA 条形码是在否定传统分类学,所以总是不断的辩护传统分类学的重要性,今天报告的提问环节,也有一些专家提了这样的问题。发展到今天, DNA 条形码可能从没有想过取代传统分类学的研究模式,而是提供了生物物种另一方面的证据,期望更高效的揭示生物多样性。 实际上,越来越多的分类学家认可了综合的分类学( integrated taxonomy ),即不仅仅只基于形态特征,而是利用更全面的信息(生物学信息、 DNA 序列等)来进行物种分类,这样确实能得到更可信的结果。在这样的思路下,谁说一定要以形态特征为核心进行物种分类呢?我说 Paul 今天的报告对我触动最大,因为听报告时我突然觉得: 或许某一天,他所描述的物种分类研究模式会取代现在的传统模式,这确实是一个更高效的模式(当然,将来我们也可以同时用更多的 DNA 片段提供信息) 。我不知道这一天什么时候到来,但技术发展如此迅速,就像韩健老师说的把 PCR 仪做成家用电器,我开始相信分类学研究模式的这种变化一定会发生;并且,如 Paul 们所构想的,我们用一个如手机般的手持机器,就可以鉴定身边所有的物种。 相关背景: DNA 条形码,即一小段具有普适性的能够区分生物物种的 DNA 序列,我们可以基于这段 DNA 序列揭示生物多样性。动物中比较普适性的是线粒体 COI 基因 5 端约 650bp 的一段序列,其优点是容易扩增并有效区分物种。有关条形码的介绍,也可以看我另一篇博文: DNA 条形码:认知物种新方式 。 (今天下午, Paul 去我们实验室访问,送他离开时,我还跟他谈到我的想法,并说今晚会写一篇博文介绍他的报告,我兑现了呵)
爱德华-威尔逊在《生命的未来》一书中写道:如果你想要体验一下丰富的生物多样性,不必到很远的地方,只需要你从座位上站起来就可以了。其实,你的身体本身就是某种意义上的热带雨林。 人体这个热带雨林到底蕴含了多少生物多样性?我将在后续博文中写写这个话题。这里先来看看人体表(皮肤)的无脊椎动物(主要指可专性寄生于人体表的)。 ---------------------------------- 虱子 人体寄生的虱子主要有三种,即 头虱 Pediculus humanus capitis , 体虱 P. humanus humanus 和 阴虱 Phtirius pubis 。 头虱专性地寄生在人的头部,并在头发上产卵;体虱一般存在于旧衣服的缝合处或褶皱处,只有取食的时候到皮肤上去;阴虱主要寄生在阴部和腋部,有时也寄生在面部毛发,一般通过人体接触(如性交)传播。 虱子在其整个生活周期中以吸食人体血液为生,并导致寄生部位严重瘙痒及形成丘疹。从致病性来说,头虱一般不传播病原体;体虱在某些地区会传播流行性和复发型斑疹伤寒,是该流行病的主要传播源;阴虱一般也不传播病原体。 体虱 阴虱 头虱正在孵化的头虱 螨虫 虽然很多螨类会取食人类皮肤,但它们最主要的寄主往往不是人类,只有少数能较长期寄生于人体,主要有人疥螨和蠕形螨类。 人疥螨 Sarcoptes scabiei var. hominis 寄生于人体皮肤表皮角质层间,在皮肤表面交配产卵,并可引发疥疮,使皮肤剧烈瘙痒且容易引起继发性感染。 蠕形螨 (又叫面螨)包括两种,即毛囊蠕形螨 Demodex folliculorum 和皮脂蠕形螨 D. brevis ,主要寄生于人面部及其他部位的毛囊和皮脂腺,并通过人体接触传播。蠕形螨是最常见的人体寄生螨类,实际上人年纪越大越会被更多的蠕形螨寄生,并且油性皮肤更容易被感染。蠕形螨致病性较低,但寄生较多时可引起瘙痒、毛囊炎和溢脂性皮炎等。 人疥螨 蠕形螨 蠕形螨 Images are from: 1. Weems HV, Fasulo TR, 2007. Human Lice: Body Louse, Pediculus humanus humanus Linnaeus and Head Louse, Pediculus humanus capitis De Geer (Insecta: Phthiraptera (=Anoplura): Pediculidae). The document of EENY-103, 104, Entomology and Nematology Department, Florida Cooperative Extension Service, Institute of Food and Agricultural Sciences, University of Florida. 2. Nutanson I, et al., 2008. Pediculus humanus capitis : an update. Acta Dermatoven APA, 17(4) : 147-159. http://www.dpd.cdc.gov/dpdx/HTML/ImageLibrary/Scabies_il.htm http://www.dpd.cdc.gov/dpdx/html/ImageLibrary/S-Z/Scabies/body_Scabies_il3.htm