来源: http://dataup.cdlib.org/ 翻译者:郭进京 1 、背景: 在当今技术先进的世界中,科研人员所产出的数据在产出之初就是数字化的,并在不断增长,数据在发布之前会受到集中转换和分析的限制,现代科研环境下所要求的各种文件格式、软件和硬件,令人无从下手,尤其是有关数字化数据管理的教育还没有跟上技术进步的步伐。现代科研人员所需的数据管理技能和其目前的能力之间存在着显著的差距,鉴于目前数据管理计划的资助请求和期刊出版商提出的、将与传统研究文章相关的数据公开可用的要求的增加,这种差距越来越明显。 DataUp tool 就是为了满足将数据管理无缝集成进科研人员当前工作流的需求而产生的。 DataUp tool 是一个开源工具(可在 github 上找到源代码 https://github.com/CDLUC3/dataup2 ),观察发现,绝大多数的地球、环境、大气和生态领域的科学家在其数据收集和组织过程中使用电子表格, DataUp tool 可以帮助科研人员归档、管理和存储其表格数据。当然, DataUp 也可用于其他学科,如经济学、社会学和生物医学。 DataUp 项目由加州大学数字 图书馆 中的加州大学内容管理中心( University of California Curation Center ,简称 UC3 )运行。原始资助者是戈登与贝蒂 . 摩尔基金会( Gordonand Betty Moore Foundation )和微软研究院( Microsoft Research Connections )。 DataUp 2.0 由微软研究院和 NSF 资助。 DataUp 是 Investigator Toolkit for DataONE 的一部分。 Outercurve 基金会拥有 DataUp 代码的版权, DataUp 是其科研加速器长廊计划( Research AcceleratorsGallery. )的一部分。软件网址: http://dataup.cdlib.org/ 2 、 DataUp tool 具有以下四大特征: 2.1 审查最佳实践 DataUp tool 将会解析科研人员的 .xlsx 或 .csv 文件 ,检测不符合数据管理最佳实践的潜在问题。这些问题可能会抑制科研人员归档优选的 .csv 格式的数据文件的能力,或者为未来的数据用户带来麻烦。检测的问题包括: 1) 嵌入式的图表、表格、图片 2) 嵌入式的评论 3) 逗号 4) 特殊字符 5) 编码文本颜色或单元格底纹 6) 有复杂数据类型的列 7) 非连续的数据 8) 合并单元格 9) 空白单元格 10) 标题行缺失或多个标题行 11) 多个表(标签) DataUp tool 除了找出问题所在之外,还会提出问题的由来及解决的建议、方法。问题需要解决与否,由用户来决定。 2.2 创建元数据 DataUp tool 通过使用一个作为电子表 单一 部分的表格来指导创建标准元数据,允许未来使用和共享。当数据文件上传到知识库中时,会以生态元数据语言( Ecological Metadata Language ,简称 EML )的形式生成元数据文件,对于许多地球、环境和生态领域研究人员来说,这是一个标准形式的元数据。通过创建标准化的元数据,数据文件可以更容易的被发现和重用。 元数据可以 file level 和 column level 两种形式生成。 file level 的元数据包括项目人员姓名、邮箱地址、数据集名称和所属机构。 columnlevel 的元数据(比如属性元数据)包括数据中变量的相关信息、测量单位、每一列数据的描述。 2.3 、为数据添加信任:获得一个标识符 评估和激励管理数据所需的时间和精力 对于 促进数据共享和重用来说是一个重要因素。不单单是引用从数据集中得出结论的论文,科研人员可以开始引用数据集,这是有可能实现的,数据必须被很好地记录、存档和拥有持久的唯一标识符(类似于 DOI )。 DataUp tool 将帮助为数据集获得标识符,使科研人员彼此可以直接引用数据,把它放在科研人员的简历里,确定其在科研人员的研究团体中的影响力。 2.4 、存档和共享数据 在创建元数据之后,可以通过 DataUp 与其他知识库直接相连并更新科研人员目前要存储的数据。 DataUp 是和 ONEshare 相连接的, ONEshare 是 DataONE 的成员节点,意味着存储在 ONEshare 中的数据被 DataONE 索引,可被公众发现和利用。 DataUp 可以有助于满足新实行数据管理的资助者的要求。通过归档数据、使数据公开、提供永久标识符以供引用,也可对开放科学和研究过程透明化做出贡献。 DataUp 对数据存储不做强制要求,用户 可以 实现用于最佳实践的审核、生成元数据、获得标识符而不将其数据存储在知识库中,但 DataUp 鼓励科研人员去存储数据以用于长期利用。通过邮件用户清单管理为科研人员提供更新信息。 图 1 平台使用流程示意图 ( 科研人员角度 ) 3 、平台使用流程详解(从科研人员角度) 3.1 、注册登录 用微软账号、 facebook 账号或谷歌账号都可以进行登录。 3.2 、 DataUp 管理流程 Ø 上传 CSV 或 XLSX 格式文件 (文件保存在微软云 Azure 的安全服务器上, DataUp 仅保留文件三天,之后会自动从网站上移除,会提供一个时间标识,提醒被移除前所剩时间),审查或新增要求的元数据,对文件进行描述; Ø 发布数据文件 ,选择某个知识库,根据知识库的要求进行数据质量审核、增添元数据,直到满足知识库的要求; Ø 应用元数据 ,元数据要求由网站管理者定义,有两种元数据:一种是和整个文件相关的文件元数据,一种是和数据集内单列相关的字段元数据,按照要求进行填写,有些元数据字段是必填的。文件元数据的标签是默认的,字段元数据选择填写,字段元数据的选项包括:表格名称、表格描述、字段名称、字段描述、数据类型(文本、数值、日期)、单位。 表 1 字段元数据列表 字段 中文译名 描述 解释 Table Name 表格名称 Select one of the available tables (sheets) within a data file. 挑选一个数据文件中的可用的表格(表单) Table Description 表格描述 Descriptive text for the table. 表格的描述性文本 Field Name 字段名称 The name of the column as it appears within the table. 出现在表格中的列的名称 Field Description 字段描述 Descriptive text for the column. 对列的描述性文本 Data Type 数据类型 The data type for the column (Text, Numeric, DateTime). 列的数据类型(文本、数值、日期) Units 单位 The unit of measurement if the Numeric data type is selected. 数值型数据类型被选中时的计量单位 Ø 检查数据的最佳实践 ,对嵌入的图片、特殊字符、编码文本颜色或单元格底纹、逗号、非连续数据、空白单元格等进行审查,目前只适用于 .xlsx 格式文件。 Ø 执行质量审核 ,确保数据集在知识库中的一致性,依知识库而定,由网站管理员定义和处理(有些知识库可能没有数据审核规则),质量审核规则可以是必需的或可选的,可以对知识库内的任何数据集进行审核。 Ø 生成引用信息 (可选),可以为数据添加引用信息,包括发布年、标题、版本、数据发布者等。引用只支持 Merritt (兼容 OneShare )知识库。 Ø 发布到知识库中 在完成所要求的各项步骤之后,可以将数据发布到网上知识库中,尽量详细的填写元数据、引用等信息。在上传到知识库前,要输入凭证信息,之后数据会添加到队列中。当转换完成后,数据集的状态就会被标记为已发布的。 4 、平台使用流程详解(管理员身份) 以管理员身份登录平台时,管理员的任务主要围绕着创建和配置知识库。在 DataUp 每个知识库的上下文中,可以建立一组元数据和数据验证规则,反过来又会应用到每一个上传到知识库中的数据集。此外,每个 DataUp 知识库是和在线存储知识库相连的,数据在被 DataUp 处理过之后,在线存储知识库会对其进行存储。 重要提示: DataUp 只保留实际实际数据文件三天,之后会自动从网站上删除。一旦用户上传了文件,他们可以查看文件将在 DataUp 中保留多长时间。 Ø 注册登录 用微软账号和 facebook 账号都可以进行登录。 Ø 建立在线存储账户 DataUp 并不打算用于数据的长期存储。用户一旦符合元数据标准和为其设立的任何数据验证规则,会将其数据上传到知识库中。 管理员需要创建一个云存储账户来保存数据。一旦该账户使用 DataUp 进行处理,将会成为数据的存储归宿。目前 DataUp 支持 SkyDrive 和 ONEShare ,并且其它知识库支持 ONEShare 标准(如 Merritt )。 Ø 创建新的知识库 在登陆 DataUp 后,在屏幕的左侧边栏会出现“ Repositories ”按钮,点击之后,在屏幕的右上方会出现“添加知识库”按钮,点击之后,会出现添加知识库的页面,需要按照字段要求填写知识库信息,具体要求如下: 表 2 知识库描述字段信息列表 字段 中文译名 描述 解释 Repository Name 知识库名称 The name of the repository. 知识库的名称 Repository Type 知识库类型 The type of online repository to use (SkyDrive or Merritt). 在线知识库所采用的类型( SkyDrive 或 Merritt ) Impersonate 模拟 If this box is checked the administrator may enter user credentials for the repository account. This enables users to access the online repository account through DataUp without needing to obtain their own account credentials. 检测管理员是否可以输入知识库账户的用户凭证。确保用户通过 dataup 访问在线知识库账户时,无需获得自己的账户凭证。 User Name 用户名 User name for the online repository account (used only for impersonation). 在线知识库账户的用户名(只用于模拟) Password 密码 Password for the online repository account (used only for impersonation). 在线知识库账户的密码(只用于模拟) Get Identifier URL Get 标识符 URL URL to use for GET requests. Used only by Merritt repositories. 用于 GET 请求。仅用于 Merritt 知识库 Post File URL 发布文件的 URL URL to use for POST requests. Used only by Merritt repositories. 用于 POST 请求。仅用于 Merritt 知识库 Delete File URL 删除文件的 URL URL to use for DELETE requests. Used only by Merritt repositories. 用于 DELETE 请求。仅用于 Merritt 知识库 Download File URL 下载文件的 URL URL to use for downloads. Used only by Merritt repositories. 用于下载。仅用于 Merritt 知识库 User Agreement 用户协议 Terms to which users will have to agree in order to use the site (upload). This is essentially the text of the End User License Agreement (EULA) for your site. 用户为使用此网站(上传)所要同意的条款。本质上是网站最终用户许可协议( EULA )文本。 File Type 文件类型 Semicolon-delimited list of file extensions for supported file types. For example: xlsx;csv. 用于支持文件格式的文件扩展名分号分隔符列表。例如 xlsx;csv 。 Visibility 可见性 Sets whether the repository will be visible only to admins, or to both admins and users. 知识库是否只对管理员可见,或对管理员和用户都可见。 Ø 创建元数据 每个知识库都可以有一组相关联的元数据字段,适用于知识库中的每个数据集。当用户添加新的数据集到知识库中时,将会被提示为每一个知识库已定义的元数据字段输入值。管理员可以指定哪些字段是需要赋值的。 表 3 知识库已定义的元数据字段列表 字段 中文译名 描述 解释 Mapping 绘图 The internal (schema) field name. 内部(图解)字段名 Field 字段 The friendly name for the field. 字段的友好名称 Description 描述 Descriptive text for the field (this appears to the user). 字段描述文本(给用户) IS-Required 需要标记 Sets whether the field is required. 设置该字段是否需要 Type 类型 Sets the data type for the field (Text, Numeric, Email, Range, Phone, DateTime). 该字段的数据类型设置(文本、数字、电子邮件、值域、电话、日期) Range 值域 A numeric range used for the Range type. Specify values in this format: 1to100 用于范围类型的数字值域。采用以下格式的特定值: 1 到 100 管理员还可以通过上传 XML 文件来指定一组元数据,这些元数据必须和都柏林核心元数据相兼容。 Ø 创建质量审核规则 管理员可以采用质量审核规则来审核数据是否满足预定义的规则,以确保存储在一个知识库中的数据的一致性。作为站点管理员,可以定义一组质量审核规则,适用于知识库中的任何数据集。质量审核规则用来审核: w 一个特定的标题或一组标题是否呈现; w 所要求的标题的顺序是否正确; w 标题中的数值数据是否在特定的值域内。 表 4 添加新规则所需的字段列表 字段 中文译名 描述 解释 Rule Name 规则名 Name of the rule. 规则的名称 Description 描述 Some text to describe the rule. 描述该规则的少量文本 Header Names 系列标题名 A list of header names that must be present. 必须呈现的标题名称列表 Consider headers order 考虑标题顺序 Check this box to make the rule enforce the order of headers. 检查标题的顺序是否正确 Header Name 标题名 Name of the header to check for. 要核查的标题名称 Type 类型 Indicates whether the header contains a numeric value. If Numeric is selected, Range Start and Range End fields become activated. 表明标题是否包含数值。如果是数值型数据,值域的起点和终点变得可用。 Range Start 值域起点 The minimum value for a numeric header. 数值型标题的最小值 Range End 值域终点 The maximum value for a numeric header. 数值型标题的最大值 Visibility 可见性 Sets whether the repository will be visible only to admins, or to both admins and users. 知识库是否只对管理员可见,或对管理员和用户都可见。 5 、特点总结: 1 、个性化的设计 给科研人员充分的选择自由,是否公开数据由科研人员决定,既可以通过该平台公布其数据,也可以不公开,作为归档、管理自身表格数据的平台。科研人员可以选择想要上传至知识库的数据,自由选择是否生成引用信息、选择质量审核的规则。 2 、界面友好 采用可视化的操作界面,元数据、引用信息等的添加方便,界面简洁大方。 3 、功能较全 该软件涉及到数据格式的验证、数据质量的审核、元数据的描述和引用信息的生成、数据的选择性存储等方面,从数据的上传、描述到最终的为个人所有或选择公开,流程较为完整。 4 、存在的不足 对上传的表格数据的格式要求较为严格,检查数据的最佳实践目前只适用于 .xlsx 格式文件;元数据描述的字段、质量审核规则都是由不同知识库的管理员进行制定的,满足的仅是所要上传至的知识库的要求,缺乏一致性,不利于知识库间的互操作;目前平台还在建设中,可供选择的能上传至的知识库较少(目前只有一个测试知识库和 DataShare 知识库)。