主题: 科学数据共享 兴趣点: “数据挖掘”与“科学数据”结合起来的研究 阅读目的: 寻求研究点,为写 论文研究计划 作准备。 工具: CNKI SCHOLAR(检索中文文献);WEB OF SCIENCE(检索英文文献) 检索词: “科学数据”;“DATA MINING” 入手文献: 19篇中文(第一部分10篇,第二部分9篇),4篇英文。(见附录) 今日进展: 通读第一部分的10篇文献。准确地说是大致浏览了一下,只有一个模糊的印象。 今日收获: 发现两个比较有用的关键词,科学数据的 “价值鉴定” , “数据质量” 。可以考虑用数据挖掘的方法来评价科学数据的价值或质量。有待进一步确认。 附录: 我国科学数据元数据研究综述 国外开放科学数据研究综述 国外科学数据共享研究综述 面向服务的区域性地震数据共享平台研究 基于林业科学数据的语义检索研究 基于大数据环境的科学数据共享模式研究 科学数据价值鉴定研究进展 科学数据价值鉴定研究 科学数据质量实践与若干思考 本体构建理论在林业科学数据共享中的应用研究 国外元数据研究前沿与热点可视化探讨 科学数据库元数据标准体系设计 XML和RDF在科学数据库元数据标准建设中的应用 实现科学数据共享的基石语言——XML的理论与应用 元数据技术在科学数据共享平台中的应用 农业科学数据共享中数据汇交与管理研究 科学数据库通用元数据管理工具的研究与实现 基于元数据的异构数据集整合方案 科学数据共享中的元数据技术研究 ECDS – A SWEDISH RESEARCH INFRASTRUCTURE FOR THE OPEN SHARING OF ENVIRONMENT AND CLIMATE DATA Theory and techniques of data mining in CGFbehavior modeling Three challenges in data mining A Survey on Visual Content-Based VideoIndexing and Retrieval
1 、大数据、云计算与科研数据 ² 什么是大数据? n 引发大数据热的几个因素(技术成熟、应用推动) n 大数据的特征( 4V 论 VS 周涛论) ² 大数据与云计算的关系 n 一个硬币的两面 n 大数据与云计算的“惺惺相惜” ² 大数据对科研范式的影响 n 微软的预言:第四范式 n 数据密集型科学的三个基本活动 n 大数据与科研数据关系 n 科研数据的困惑 2 、科研数据共享服务实践与挑战 ² 科研数据共享的意义 ² 科研数据共享的价值所在 ² 数据堂的科研数据共享实践 n 科研数据云计算 n 科研机构数据专区 n 科研数据直通车 n 数据挖掘竞赛 3 、科研数据 / 研发数据的处理应用 ² 大数据应用跑到了科研前面 ² 大数据处理一般流程 ² 科研数据处理应用案例 n 图片、视频、语音、文本等非结构化数据的处理 n 应用场景及学科相关 4 、结语 ² 大数据生态环境 ² 不仅仅是进化 报告于2013年3月25日中国科学院国家科学图书馆智慧信息中心
Google 时代,或者叫搜索时代。在人人都搜索的时代,做研究当然也离不开 Google 。 没有做过调查统计,但好像中国的小学生中学生甚至大学生用百度搜索的会更多。记得有一次,看北京市中学生科技论文,论文中的很多引用来源都是百度百科。在大街上很多时候都能听见说,“百度一下嘛”。但我向来是说“ Google 一下嘛”。 找学习资料, Google ;找最新文献, Google ;找导师, Google ;找同行, Google ;懒得收藏网址, Google ;不管遇到啥问题,都来 Google 。前几天在 Powell's City of Books 看见一本书,名字叫《 Whoogles: Can a Dog Make a Woman Pregnant - And Hundreds of Other Searches That Make You Ask "Who Would Google That?" 》。大家确实不管什么问题都去 Google 。 说实话,在平时工作中,没有 Google ,我会觉得心里不踏实。所以国内很多时候连不上 Google ,总是忍不住骂几句。 但实际上,搜索时代一个很重要的问题是:(你所检索到的) 数据信息质量如何? 举一个专业相关的例子。有时候我们需要检索一个物种名,用 Google 检索之后会发现有很多条记录,前面几条最相关的记录往往来自一些物种名目数据库。比如,网页 A 指向维基百科,网页 B 指向一个欧洲的数据库,网页 C 指向生命之树( Tree of Life web project )网站,网页 D 指向生命大百科全书( Encyclopedia of Life ),网页 E 指向 Species2000 的全球物种名录( Catalogue of Life ),网页 F 指向一个由科学家个人时时更新的某个生物类群的物种名录数据库。 物种名字由分类学家所确定,并且随着时间随着对某个生物类群更多证据的了解,这些名字可能发生变化,比如原来的物种名 1 现在可能叫物种名 2 。所以要搞清楚一个物种的名字,很有必要了解其修订的历史。对于上面的例子,会发现维基百科( A )的参考文献是那个欧洲的数据库( B ),而欧洲数据库的参考文献是生命之树网站( C );生命大百科全书的网页( D )的参考文献是全球物种名录( E ),而全球物种名录的信息来源,指向那个科学家管理的网站( F )。经过分析,你还会发现生命之树网站上那个 1995 年创建的网页上面的物种名现在已经不成立了,因此 A 、 B 、 C 三处的信息应该过时了;并且你发现虽然生命大百科全书网页( D )物种名字信息正确,但其他相关信息显然没有更新,而最新的信息,体现在网站 F ,因为它是科学家时时更新的网站。对于上面的例子,如果把信息的有效性排序,应该是: A B C D E F 。 问题是,如果你只是信息的需求者,不是专门的分类学家,则很难去追踪物种名字的修订历史,有时候难免会使用了并没有及时更新的或者错误的信息(比如你引用了 A 、 B 、 C )。这只是一个例子,这样的例子在使用网络检索时很多很多。对于普通大众来说,如何来判断所检索到的信息的准确性呢。在 Google 时代,这确实是个挺大的问题。本来还想举一个我们国家的例子,想想还是算了,我们国家的很多数据库根本就进不去,一点击,告诉你“找不到文件”、“网页无法打开”。 对于与科学有关的数据库来说,我觉得至少应该做到的两点:一定要保持更新;二手三手的数据库一定要给信息使用者提供最直接的引用或者说数据来源(比如上面例子中的 F )。这样做一方面尊重原始的信息所有权,一方面减少二手三手甚至 N 手信息的传播。对于非原始信息使用者或传播者来说,也要尽量引用最原始的数据来源(但不知道多少能做到)。
《中国图书馆学报》2011年第5期两篇文章涉及一个新概念——科学数据(Digital research data)。作者分别为张晓林和李晓辉。根据阅读两篇文献的参考文献,笔者认为这是一个引进的新概念,更加赞同翻译为“科学数据”。何为科学数据? 张文在论述“教育科研信息的内容形态变化”时提及科学数据:科学数据的数字化、网络化组织利用正在高速发展。数据(包括各种数值型、事实型和文字型数据)一直是科学研究的基础产出,是科学出版的重要内容(包括嵌入到论文、专著中的复杂数据),是科学研究与教育的基本信息资源。” 李文中篇名有科研数据,“科研数据管理与服务内涵”中有科研数据的定义:“科研数据(Research Data)是指数字形式的研究数据,包括在研究过程中产生的能存贮在计算机上的任何数据,也包括能转换成数字形式的非数字形式的数据。如传感器读取的数据、遥感勘测数据、调研结果、神经图像、实验数据及来自测试模型的仿真数据等。格式有文本的、数值型的、多媒体的、也包括模型和软件等。有效的科研数据管理具有保护数据免于丢失、提高数据曝光度,传播和出版成果、实现数据共享、对科学质疑公开、鼓励观点的多样性、节约科研成本、完成研究资助方的要求等诸多意义。” 李文定义的参考文献已不能访问,但可以访问其上级链接及相关文档(ANU DM Manual (PDF) )。ANU(The Australian National University)的定义是:“Digital Research Data is not just numbers stored in spreadsheets, but virtually anything that can be stored on a computer. For example: digital photographs, video, survey results, documentation, etcetera. All researchers have digital data. At the least, a researcher will have their publications and electronic copies of academic articles.”(图谋译:科学数据不是只是存储在电子表格中的数字,而是几乎任何可以存储在计算机里的信息。比如:数码照片、视频、调查结果、文档等等。所有研究人员均有数字数据。任何一个研究人员最起码拥有他自己的出版物及学术论文的电子稿。) 笔者认为“科学数据”与“机构库(Institutional Repository)”有密切的关联,而且似乎是一种颠覆式发展,属于“破坏性技术(Discruptive Technologies)”范畴。而且“科学数据”的理论与实践并非坦途,单单是对概念的认识与把握,可能同“机构库”一样没有统一的定义,甚至没有统一的“称谓”。即便如此,“科学数据”会是一个研究热点,是值得包括图书馆界内的社会各界研究与关注的。 参考文献 : 张晓林.颠覆数字图书馆的大趋势.中国图书馆学报,2011(5):4-12 李晓辉.图书馆科研数据管理与服务模式探讨.中国图书馆学报,2011(5):46-52 http://ilp.anu.edu.au/dm/ 相关资料 : 美国的科学数据网 http://www.data.gov/ 英国的科研与教育数据服务网 http://www.jisc.ac.uk/whatwedo/topics/dataservices.aspx Harvard-MIT Data center http://hmdc.harvard.edu/ ANU data management manual:Managing digital research data at the Australian National University. http://ilp.anu.edu.au/dm/ANU_DM_Manual_v10.09.17-63_2010-09-17.pdf Digital Research Data (Digital Research Data is not just numbers stored in spreadsheets, but virtually anything that can be stored on a computer. For example: digital photographs, video, survey results, documentation, etcetera. All researchers have digital data. At the least, a researcher will have their publications and electronic copies of academic articles.) Throughout this document, ‘data’ will refer to digital research data. Digital research data is any data that is created during research that can be stored on a computer. This includes field notes, analog recordings, and non-digital images as they can be converted to digital images. Physical data such as biological specimens, soil samples etc. are not considered. Digital research data can additionally include: ? Numerical data: instrument measurements, survey responses. ? Documentation: Publications, experimental methods, field notes, analytical methods, technical reports, dataset descriptions. ? Digital Images: photographs, diagrams, graphs. ? Digital Audio: Sound data, interviews, wildlife recordings, language recordings. ? Digital Video: High-speed recordings, interviews. ? Configuration Data: Configuration and optimization settings for simulation and in-silico experimentation.