大数据的时代势不可挡的已经到来。地球大数据、生物大数据和医学大数据频频在耳边出现。对于任何一个科研人员而言,数据( Data ),其实就是科学研究的生命线。科学研究中的一个关键的环节就是为你的学术论点寻求并提供有力的证据。早在 700 多年前,被称为“万能博士”的罗杰 • 培根就在他的学术著作中明确指出,没有感官数据、实验数据及可靠数据支撑的任何学术理论都是站不住脚的。再激烈的学术争论没有通过实践来证实都是没用的。可见,数据对于我们的研究工作和学术论文而言就是一个核心的灵魂。 事实上,一篇论文是否可以被同行认可、被期刊接受发表,一篇论文的结论或新发现是否会引起其他研究人员的兴趣而被引用或利用来重复试验或开展新研究,在很大程度上取决于为这些研究提供支持的数据的可获取性和可靠性。根据一项对科研人员关于数据共享途径的调查结果显示,目前科研人员获取和分享数据的最主要途径是根据需要直接联系,其次是通过访问已有数据库。但是,即便一篇新近发表的论文,其中的数据最多也只有 30% 多(如图 1 所示)可以被保存和重复利用。随着时间的推移, 20 年后,一篇论文的数据保留比例可能几乎为“零”(图 1 )。这样的调查统计结果可能会令科学家自己都感觉诧异和遗憾。因为,这意味着,科学家们千辛万苦、夜以继日的在实验室工作产生的大量一手数据最终都以“被淹没”终结他们的生命。科研人员都很清楚,为了让一篇论文看上去或深究起来是一个完整的无懈可击的故事,庞大的第一手原始数据中只有很小比例的一部分数据被筛选出用以佐证我们的论点。大部分的数据最终都成为了黑箱数据“ Dark Data ”。 图 1. 图片来自 Vines et al . Current Biology (2014) doi:10.1016/j.cub.2013.11.014 越来越多的学科领域正大量产生各种大数据,如遥感影像、基因序列、观测的气象、水文、环境等要素信息、临床医学病例数据、社会调查数据等等,围绕大数据产生了众多应用学科的研究领域。科学研究问题本身对庞大数据的需要必然导致科学家们对数据共享的迫切需求。因而数据开放( Data Open )和数据共享( Data Sharing )早已不是一个新的概念。很多交叉学科事实上就是在不断的有效的数据开放和共享过程中形成的。比如,宏观经济学就是在政府和经济学家的数据共享中诞生的。全球气候及气象数据的共享历史已经超过了 100 年。正因为蛋白质结构和基因序列的数据共享才形成了生物信息学这门学科。科学家们越来越意识到数据共享的重要性。因而,相比论文发表而言,数据发表( Data publishing )其实对促进科学本身的发展显得更为重要。这就需要科研工作者在研究工作中不仅仅以讲故事、发表论文为导向,而是如实的记录下研究过程中产生的相关有用数据,并将这些数据的产生和内容及相关技术信息跟同行研究者们分享。因而,任何一项研究工作产生的不论是看似失败“ Negative ”的数据还是很成功“ Posative ”的数据都是有价值并值得发表的。事实上,正因为大量不成功的实验数据才促成了最终解决科学问题的成功数据的诞生。所有数据本身对推进科学发展都存在着潜在的不可估量的创造价值。由于意识到这一关键问题,科学界、出版界及政府管理层正在全球范围内积极推进数据的存储、共享与发表。 与论文发表本质不同的地方在于,数据发表强调对数据本身的记录和详尽描述。拿一个测试样本来说,在什么地方获取,什么样本,进行了什么处理和测试,数据结果存储在什么地方,是让别人有效获取数据的关键信息。因而,关于数据的表述,数据论文( Data Paper )或者更确切的说数据描述文稿( Data Descriptor )便是作者提供的详尽的关于数据描述的文稿,这样的文稿在公开发表之后是可以被科学引用的(如自然 • 科研旗下的期刊 Scientific Data )。与此同时, Data 要求被存储在全球已有的涉及众多学科领域的专业数据库,大概 90 多个( http:// www.nature.com/sdata/policies/repositories )。在 Data paper 正式发表的同时,这些数据被要求在 CCBY 开放获取协议下可以免费下载、修改和重复利用。有了这样的公开发表和获取的期刊平台,科研人员可以将不足以作为论文发表的大量数据以数据论文的形式公开发表,告诉同行做了什么,怎么做的,获得了什么,可以分享什么。从而可以使数据本身得到最大限度的引用、使用和为未来创新研究提供基础贡献,使某项研究得到更广泛的传播,更好的发挥数据的重复使用价值,不至于最终被“湮没”。数据发表的另一个特点在于,由于数据量的庞大,数据的结构、标准或形式对于数据的有效获取显得尤为重要。为了方便作者发表数据,某些期刊也为作者提供了数据格式的编辑支持。 AJE 也为作者提供了关于数据和论文格式编辑的服务 https://www.aje.cn/services/formatting/ 。 需要强调的是,数据发表也是有严格的同行评议过程的。而且,有价值的不成功数据也是可以发表的。当然,每个科研人员对自己创造的数据会持有自己的关于开放获取的观点,很多人可能还不太愿意或者事实上也存在宁可毁灭数据也不愿跟公众分享数据的情况。但当这个大数据共享时代悄然来临的时候,你觉得自己是在那儿守着自己仅有的一点数据能创造更多价值呢?还是在互惠互利的数据共享中获得更多价值呢?相信仁者见仁的科学家们应该会仔细斟酌从而获得答案的。
White House Open Data Executive Order Echoes USACM Recommendations By DAVID B. | Published: MAY 29, 2013 In early May the White House issued an Executive Order outlining a policy to make open and machine readable the ‘default’ for new and ‘modernized’ government information. This Open Data Policy would be implemented for federal agencies over the next few months, with quarterly progress reports following the initial rollout. While the Administration rightly notes that the Open Data Policy is part of an ongoing Open Government Initiative (involving several other executive orders and policies dating to 2009), it also echoes recommendations made by many groups, including USACM. In 2009, as the Administration was dealing with the stimulus legislation, USACM issued recommendations on the government release of data: Data published by the government should be in formats and approaches that promote analysis and reuse of that data. Data republished by the government that has been received or stored in a machine-readable format (such as online regulatory filings) should preserve the machine-readability of that data. Information should be posted so as to also be accessible to citizens with limitations and disabilities. Citizens should be able to download complete datasets of regulatory, legislative or other information, or appropriately chosen subsets of that information, when it is published by government. Citizens should be able to directly access government-published datasets using standard methods such as queries via an API (Application Programming Interface). Government bodies publishing data online should always seek to publish using data formats that do not include executable content. Published content should be digitally signed or include attestation of publication/creation date, authenticity, and integrity. As the Office of Management and Budget, the Chief Technology Officer, and the Chief Information Officer help agencies implement the new default setting for government information, the additional details should demonstrate how closely this effort aligns with the USACM recommendations. Early signs are encouraging. This entry was posted in Digital Government . Bookmark the permalink . Comments are closed, but you can leave a trackback: Trackback URL . Senate Hearing on Making Movies and Inflight Entertainment Accessible USACM Statement on House Ways and Means Subcommittee Hearing on U.S.-EU Transatlantic Trade and Investment Partnership Negotiations 转自: http://techpolicy.acm.org/blog/?p=2700