DataONE正在做一个匿名网上调查,关注科学家对于科学数据的管理、使用、共享等,欢迎大家参与调查。 问卷网址: http://tinyurl.com/DataONEScientistsSurvey ----- Scientists and research data: Continuing to build an understanding of your data needs Led by our Usability and Assessment Working Group , DataONE is conducting an online survey to better understand how scientists work. Your responses will help us better understand how scientists create, preserve, manage, and share their data which will then allow DataONE to better serve their data management needs. The questionnaire should only take about 20 minutes to complete. Questions relate to the data management practices of scientists, the data education practices of scientists, and how your organization and/or designated data managers are involved with your research data. Your responses will be recorded anonymously so that no one can link your responses to you personally. After completing the survey, we would be grateful if you could forward to your colleagues; faculty, researchers, lecturers, post-doctoral associates, and graduate students in sciences, technology/engineering, health sciences, and social sciences. Thank you. http://www.dataone.org/news/help-us-understand-how-scientists-work-data -----
5 月 30 日 晚上查邮箱,看到一个加拿大同行发来邮件说, “ 晓磊:看到一篇博文,讨论你的一篇文章,也许你感兴趣 ” ,随信发来一个链接。原来是科学网一篇博文讨论我们去年在 Conservation Letters 发表的一篇有关数据共享的文章。由于当时正是我们筹备 6 月初主办的一个国际会议最紧张的时候,我实在没空关注这篇讨论。 6 月 2 日 ,我们的会议开幕那天,收到科学院版纳植物园刘佳佳的邮件,“ Hello, Dr. Huang: We recently discussed one your paper, of which the idea is really good. And we have some questions on this paper on the methods section, do you think it would that be helpful on your future study or you can answer some of them? ”,刘佳佳是那篇博文的作者。看意思是他们研究组在文献讨论会上讨论了我们的文章。同样由于会议期间要处理的事情太多,我写邮件说等会议结束才能回复。 我们的文章能引起他们研究组的兴趣并开展讨论,要表示感谢。这篇博文算是对《生态学文献讨论 41 :你愿意共享你的原始数据吗?》一文的回复,对他们提出的问题(下文中下划线部分)进行了一些讨论。任何一篇已发表的文章,不同读者都会提出不同的问题,其实对于作者自己,或许也都知道缺陷所在。科学问题应该是越讨论越明了的,我也希望这样的讨论越来越多。我之前曾发博文介绍过我们这篇文章:“ 科学家为何不愿意分享数据? ”。 问题 1. 本文数据量的问题,只有一年的时间,且是 2009-2010 年,正是 meta-analysis 较为热火的年份,且只选了 3 个杂志,据我所知,这三个杂志,很多并不是第一手数据的,尤其是 journal ofbiogeography ,由于很多数据是从各个地方来的分子材料或者标本材料,或者部分数据来源于其他人,并不是自己一手采集的。所以数据严重存在 bias 且数据量不够。 刘佳佳等可能在这个问题有些误解。实际上,我们文章开展的国际调查研究关注的是科学家个体对于生物多样性数据共享的认识,论文作者或者说数据提供者在我们看来是很好的对象。我们是 2011 年设计的调查,调查对象是 2009 和 2010 年在生物多样性和生态学领域三个主要刊物( Biodiversity and Conservation , Diversity and Distributions , Journal of Biogeography )上发表论文的通讯作者。选择刊物时我们也有过考虑,客观地说,这三个刊物所发表的论文更多地使用了原始数据。即使有 meta-analysis 类型的论文,其比重恐怕也远小于 Global Ecology and Biogeography 之类的期刊。并且对于数据共享,重要的是将数据共享出来,如果一篇论文所使用的数据是作者从众多前人文献收集来的,只要他选择将那个数据集共享,就算是一种进步。对于“并不是自己一手采集的”这个问题,还有一个更直观的例子: GBIF 的数据集,基本上来自全球生物标本收藏机构,而这些标本收藏机构的原始数据,也是众多科学家很多年采集的,也不是那个共享者一手采集的。 其实我们自己也知道调查对象的集合还可以更大些,比如调查更多年份更多期刊的作者群,但当时一方面考虑到近期年份的作者群才是正在活跃的一批科学家,另一方面考虑到收集每篇论文的通讯作者电子邮件的工作量也不小。最终确定了 2 年、 3 个期刊的体量。 问题 2. 问卷设计方面:如 Do you collect primary biodiversity data(species distribution) in the field yourself? 只给出了是否的选择,这是不科学的,因为很多人部分数据来源于野外。且数据有等级差异,物种分布数据的珍贵度(如数据量、数据完整度、数据质量)等没有进行区分,一同对待。如若做一个等级分析,应该是数据越珍贵,越难采集,越不愿意共享。但是很多很边角料数据当然无所谓了! 刘佳佳等认为调查问卷中“你是否自己采集原始数据”这个问题有些不够全面,实际上我们在问卷中还问了 2-3 个与此相关的问题,目的是想通过相关问题的答案综合判断被调查者的研究中主要的数据来源是什么。确实,数据收集难度越大,期望科学家将其共享的难度也会越大。刘佳佳等对数据珍贵度进行划分这个建议对将来的调查研究会有所帮助。在我们目前的研究里头,由于想对科学家个体对数据共享的态度有个基本的认识,我们的问卷问题并没有划分到非常多的细节。(这里要谈到一个设计调查问卷时需要关注的一个问题,即一定不要让被调查者觉得回答你的问题很麻烦,我之前曾参与过一些问卷,由于有太多逻辑连接的问题,让人回答得很累,于是选择中途离开。) 问题 3. 所有的问卷调查都是真实的吗?我很怀疑。很多老外说着可以共享,事实上不会的。所以实验数据的真实性没有得到较好的提升,设计相关的问题来排除这一类的误差。本问卷调查没有排除此类的问题,所以严重存在问题的。 这个问题我觉得有必要着重说一下,因为我觉得刘佳佳这种质疑并不科学。我们认为所有的问卷回复都是真实的。一方面,被调查者都是科学家,相信大家有客观严谨的态度。另一方面,我们必须相信问卷回复的真实性,如果你连你的调查者都不相信,还怎么做调查研究。这就像做研究的时候引用前人的研究结果,你可以客观的质疑,但一定要是理性的质疑,可能大多时候你必须相信前人的结果,科学就是这样积累和发展的。并且,其实我们是可以通过综合考量被调查者对不同问题的回答来判断其真实性的,如果是不真实的回答,很难保证其答案的逻辑一致性。你会发现,其实仍然有很多人回复不愿意共享,我们的研究也揭示了共享文化并不发达。如果刘佳佳等去读读我们随论文共享的那 18 页被调查者提交的评论,或许会对大家的态度能有更好的认识。 问题 4. 没有涉及到数据共享的问题,只涉及到了数据共享的好处。如数据共享是否会促进更多室内生态学家的诞生?只会统计没有野外经验。分工更明确,以至于现实和理论脱节…… 我们文章中,既涉及了目前数据共享中存在的问题,也谈到了数据共享的好处。存在的问题比如共享文化不发达、缺少共享意识、数据保存结构的问题等等,正是由于问题的存在,才会有我们给出的那些建议。数据共享的好处,是给科学家一定的动因,更多地去共享。刘佳佳等提到的“ 如数据共享是否会促进更多室内生态学家的诞生?只会统计没有野外经验。分工更明确,以至于现实和理论脱节…… ”,确实是一个现实问题,越来越多玩统计算法而不注重野外试验,是生态学发展中面临的一个问题。实际上在被调查者的评论中,以及我们文章中,都有提到一些。我们关注的,还有另一个问题,即很多基于统计分析的生态学论文结果的可重复性,有同行在评论中说,“很多人不愿意共享原始数据,是怕被发现他们的论文中统计分析结果错了”,如果实现数据共享,就可以增加对结果可靠性和和可重复性的控制。 问题 5. 数据分析太弱,都是展示性数据,没有进一步分析。且让人信服度不高。 如果了解我们这篇调查研究论文的目的,以及发表时这个领域的发展状况,刘佳佳等或许就不会做这样的判断。开展这个研究之前,我们能看到的都是政策者或数据保存机构在那谈论该如何如何共享,但我们极少听到作为主要数据分享者和使用者的科学家个体的声音。作为可能是第一篇涉及科学家个体对生物多样性数据共享态度的文章,我们要将数据结果真实的呈现给大家,并且我们在讨论时其实没有什么可以引用的前人研究。另外,调查性研究并不像丝丝入扣的实验性研究或公式推导。我们由调查结果给出一些相对合理的共享建议,也算是一种进步。其实,数据是最有说服力的,有时候只展示数据,可能就足够了。 如果单就某一篇论文中的那些文字来评论,常能发现一些问题,比如数据不够全面、分析还可以做得更好等。但我们也要认识到,一篇论文是否应该发表,还要放大某个领域的背景下去看,看看它是否带来了一些新的信息和进展。我们这篇论文的贡献,可能正是将那些数据(包括被调查者回复的 18 页评论)以及数据反映出来的问题和建议呈现给这个领域,让相关决策多了更多的信息参考。不过,我们也在论文中提到,我们的调查研究肯定有不全面的地方,比如某些问题的设计,希望我们的工作能给未来进一步的研究提供一个参考。 还是如上面说的,谢谢刘佳佳他们的讨论。希望不管是在科学网上,还是私底下,这样的讨论和交流都越来越多。
Willing or unwilling to share primary biodiversity data: resultsand implications of an international survey 2012 Huang et al. Cons. Letters.pdf 咋一看,居然是中国人的文章,似曾相识,才想起来这作者以前就发表过一篇 TREE 的文章的,这话题确实很就现实 …… 文中已经讲了太多了,事实上也是做科研的人经常会碰见的问题,每个人估计也有各自感受。总体上当然是数据共享于人于己都好,关键是如何操作的问题。本文也提出了一些建议。 言归正传,涉及到本文。题目是很现实的,方法是很简单的,结果是一目了然的,讨论也有很多相关的材料。总而言之,很简单明了,是很适合发 letter 的。作者在这一领域已经有比较明确的定位和知道自己该做什么的,入了行。 然而,本文是很有些问题的,需要商榷: 1. 本文数据量的问题,只有一年的时间,且是 2009-2010 年,正是 meta-analysis 较为热火的年份,且只选了 3 个杂志,据我所知,这三个杂志,很多并不是第一手数据的,尤其是 journal ofbiogeography ,由于很多数据是从各个地方来的分子材料或者标本材料,或者部分数据来源于其他人,并不是自己一手采集的。所以数据严重存在 bias 且数据量不够。 2. 问卷设计方面:如 Do you collect primary biodiversity data(species distribution) in the field yourself? 只给出了是否的选择,这是不科学的,因为很多人部分数据来源于野外。且数据有等级差异,物种分布数据的珍贵度(如数据量、数据完整度、数据质量)等没有进行区分,一同对待。如若做一个等级分析,应该是数据越珍贵,越难采集,越不愿意共享。但是很多很边角料数据当然无所谓了! 3. 所有的问卷调查都是真实的吗?我很怀疑。很多老外说着可以共享,事实上不会的。所以实验数据的真实性没有得到较好的提升,设计相关的问题来排除这一类的误差。本问卷调查没有排除此类的问题,所以严重存在问题的。 4. 没有涉及到数据共享的问题,只涉及到了数据共享的好处。如数据共享是否会促进更多室内生态学家的诞生?只会统计没有野外经验。分工更明确,以至于现实和理论脱节 …… 5. 数据分析太弱,都是展示性数据,没有进一步分析。且让人信服度不高。 总之问题不少,但是本文的idea还是可以的。接:拒=3:7。这一类文章成果很容易发表啊,值得学习。
在很多研究领域,科学数据的共享越来越显得重要,并且引起了越来越多的政府机构及国际组织的重视。虽然数据共享在很多研究人员看来应该是基本义务(比如在遗传学和医学领域, DNA 序列、蛋白质结构等数据的共享已经是任何人都知道的常规事情),但执行起来却并不是那么回事儿,很多人并不愿意分享。这背后的原因,更多的还是观念和利益问题。其实有研究发现,如果一篇论文将相关原始数据共享,其引用率将比不共享数据更高,这可以算数据共享的一个好处。其实, 数据共享背后的道理却也很简单,公共资金支持的研究,当然要将所有的研究成果包括数据共享给社会 。但是,很多人仍然觉得自己辛苦获得的数据与别人共享(哪怕是论文相关数据)会减少自己的竞争力,认为数据就是硬货币,这种观念在科学发展相对落后的国家更常见。 为了促进数据共享, 一些国家的研究资助机构采用了自上而下的措施 。比如,美国国家科学基金会( NSF )和英国生物技术和生物科学研究委员会( BBSRC )都开始明确要求项目申请人在申请书中包含有关数据保存和共享的承诺与措施; Wellcome Trust 、英国的一些研究委员会、以及美国国家卫生研究院( NIH )也签署了联合声明,以促进医学研究数据共享从而造福公共健康。 科学期刊在数据共享进程中也起着重要作用。 比如 BMC 和 PLoS 期刊,都有比较明确的数据保存和共享要求。 2011 年度 BMC 数据共享奖颁给了 Tommi Nyman (芬兰)、 Veli Vikberg (芬兰)、 David R Smith (美国)、 Jean-Luc Boevé (比利时)四人。获奖理由是他们在 BMC Evolutionary Biology 所发表的一篇有关叶蜂亚科生态物种形成的文章中,将所有的标本采集及生态数据作为附件材料共享。下面是他们附件材料清单,与一般论文只分享序列数据相比,确实算是一个详细的共享。 Additional file 1: Collection data for exemplar specimens, and taxonomic and ecological background information. Excel file containing collection data for the specimens used in the study, as well as species numbers, geographical distributions, larval lifestyles, and collective host ranges of genera, subgenera, and species groups within the Higher Nematinae. Format: XLS Size: 156KB Download file Additional file 2: Sequence data used in phylogeny reconstruction and resultant phylogenetic trees. NEXUS file containing the data matrix and trees obtained from the Bayesian phylogenetic analyses in MrBayes and BEAST, and the maximum-likelihood tree from the analysis using RAxML. Format: NEX Size: 434KB Download file Additional file 3: Data file and run parameters for BEAST. XML file used for the phylogenetic analysis in BEAST. Format: XML Size: 345KB Download file 其实他们的获奖,还有段挺好玩的故事,对于数据共享有一定的启示。作者们自己谈到,在他们的稿子被审稿期间,一个匿名审稿人曾两次要求他们将论文所用到的除序列数据之外的其他原始数据也作为附件材料共享。正是这名审稿人和编辑的坚持,作者们才共享了全部数据。但他们,也获得了相应的利益,比如获得 BMC 数据共享奖,比如被邀请加入一些旨在促进数据共享的组织的委员会。这个故事的 启示在于,科学家个体,以及审者们,可以一起促进数据共享的进程 。严厉的期刊政策将使得作者在收集和整理原始数据时更加认真,数据的共享也将使得研究结果能够被检验。 虽然数据共享背后的道理很简单,但全球性的数据共享文化的营造,仍有很长的路要走,并且需要更多可行的措施来促进研究人员对于数据共享认识的转变。不管科学家个体喜欢与否,数据共享必定会成为科学研究中的常规。 相关博文: 论文数据共享,你守规矩了吗 Tommi Nyman, Veli Vikberg, David R Smith, Jean-Luc Boevé. 2010. How common is ecological speciation in plant-feeding insects? A 'Higher' Nematinae perspective. BMC Evolutionary Biology 10: 266 doi:10.1186/1471-2148-10-266