bigdataresearch的个人博客分享 http://blog.sciencenet.cn/u/bigdataresearch

博文

[转载]科技计划项目数据管理过程模型

已有 804 次阅读 2022-2-18 17:24 |个人分类:科学数据治理|系统分类:论文交流|文章来源:转载

科技计划项目数据管理过程模型


许琦1,2, 邹自明1,2, 袁雅琴1,2, 胡晓彦1,2, 佟继周1,2, 马文臻1,2

1 中国科学院国家空间科学中心,北京 100190

2 国家空间科学数据中心,北京 100190

 

 摘要面向未来日益增多的各类科技计划项目和快速增长的科学数据资源,为了深入加强和规范科学数据管理,以项目周期为轴线,融合数据生命周期和数据管护理念,定义了项目周期内有序开展的7项数据活动,提出了适用于各类科技计划的科技计划项目数据管理过程模型。描述了项目各阶段内依序开展的数据产出分析与管理策划、数据产品定义、产品生产与处理、产品汇交与编目、开放与服务、评价与反馈、维护与保存7项数据活动的内容、输入与产出,并结合任务书签署、年度/中期检查、综合绩效评价等管理节点给出了数据活动产出控制措施。此外,提出了项目阶段与管理节点增设、数据活动拆分合并、产出内容与管理角色细化等模型实施建议,以提高对不同类型科技计划项目的适用性。


关键词科学数据管理 ; 项目过程管理 ; 数据管理活动 ; 数据汇交


论文引用格式:

许琦, 邹自明, 袁雅琴, 等. 科技计划项目数据管理过程模型[J]. 大数据, 2022, 8(1): 15-23.

XU Q, ZOU Z M, YUAN Y Q, et al. Data management process model for the science and technology programs[J]. Big Data Research, 2022, 8(1): 15-23.


0 引言

科技计划项目是我国政府部门支持科技创新活动的重要途径和手段,代表着我国科技创新的最高水平,也积聚了我国各类高水平科技创新资源。近年来,在《关于改进加强中央财政科研项目和资金管理的若干意见》的指导下,我国科技财政投入快速增长,中央财政科技计划改革取得了决定性进展,形成了布局合理清晰又各具不同管理方式的新五类科技计划(专项、基金等)。根据国家科技管理信息系统公共服务平台内容显示,截至2021年10月,“十三五”期间共部署了6 8项国家重点研发计划和13项国家科技重大专项,“十四五”国家重点研发计划已启动52个重点专项。随着各级科技计划的有效推进和实施,科学数据将快速积累,科学成果将不断涌现。各类科技计划产生的海量科学数据作为国家资源和人类知识库,特别是以科学探测为目标的项目产出的科学数据具有稀缺性、不可复制性等特点,应进行全面收集、规范管理和长期保存,以便科学团队在未来长时间内可以深入分析挖掘与利用数据背后的知识,促进科学成果产出。

随着《科学数据管理办法》的发布,科学数据规范化管理的重要性得到了国家层面的高度重视,各类科技计划项目的数据管理细则或要求相继出台,如《国家重点研发计划项目综合绩效评价工作规范》《关于进一步弘扬科学家精神加强作风和学风建设的实施意见》和《科技计划项目科学数据汇交工作方案(试行)》等,针对正在实施的科技计划项目,确立了项目实施周期内数据汇交、开放共享的管理制度,以综合绩效评价为关键节点,有效管理并促进了项目数据汇交与开放共享。

科学数据的生命周期通常由数据采集生产、汇交保存、开放共享与应用等环节构成,科技计划项目的数据生命周期与项目立项、实施、综合绩效评价和项目后等阶段紧密相关。面向“十四五”时期新的各类科技计划项目,为了进一步促进科技计划项目数据的规范有序汇交,保证数据安全、加强科学数据开放共享与综合利用,应将科学数据的管理活动纳入科技计划项目全流程管理,在项目立项、项目实施、综合绩效评价和项目后等各阶段提出数据管理要求或约束,从项目全周期规范数据活动,对数据采集生产、汇交与保存、开放共享等各类数据活动进行过程管理。此外,也应在项目立项前策划各项数据管理活动,将数据管护理念融入项目周期内各数据活动,切实提高数据管理质量,保障数据可用性,提高项目数据开放共享水平。

国际上各类数据组织和相关机构通常以构建数据生命周期模型为主要方式,规划指导各类人员做好科学数据管理工作。根据国际卫星对地观测委员会(Committee on Earth Observation Satellites,CEOS)信息系统与服务工作小组(Working Group on Information Systems and Services)调研报告显示,国外不同机构组织提出了55个数据生命周期模型,从数据生命周期的视角出发,描述了数据从产生、收集、描述、存储、发现、分析到再利用的全过程。比如英国数字管护中心(Digital Curation Center, DCC)提出了环状管护全生命周期模型(curation lifecycle model),国际数据文档倡议联盟组织(Data Documentation Initiative Alliance,DDIAlliance)提出了支持社会科学数据管理并具有迭代性的DDI组合全生命周期模型(DDI combined life cycle model),美国地质调查局(United States Geological Survey, USGS)建立了线性的USGS科学数据生命周期模型(USGS science data lifecycle model),但上述模型并未从项目周期的视角规划数据管理活动。只有美国航空航天局(National Aeronautics and Space Administration,NASA)的日地空间物理学科和行星科学数据系统将各类数据活动与项目工作流关联,在项目周期内定义各项数据活动,并提供工作指南或参考依据,极大地促进了项目产出数据的统一规范管理、有序归档和开放共享。NASA日地空间物理学科为日地空间物理数据环境(heliophysics data environment, HPDE)制定了HPDE项目数据全生命周期(heliophysics mission data lifecycle)模型,该模型将HPDE项目周期划分为任务提案、初步设计评审、关键设计评审、任务发射、第一次高级评审、任务扩展、任务运行结束、任务终止、常驻档案馆更新9个阶段,将出具科学提案报告、数据管理计划的准备和签署、数据系统建设部署和测试、数据生产、数据产品优化、数据归档计划的准备和签署等数据管理活动有序划分到上述9个阶段,以便规范管理。NASA行星科学数据系统(planetary data system,PDS)在项目管理指南中定义了PDS项目数据全生命周期模型,该模型以关键评审为节点将项目周期划分为5个阶段:提案、项目研究、定义、设计和研制、任务运行。在模型中详细定义了PDS数据归档过程中的数据归档准备、制订数据管理计划、形成数据归档计划、数据产品分发维护、同行评价等管理活动和各里程碑事项,并以文档签署及相关评审活动为节点进行控制管理。

国家空间科学数据中心是20个国家科学数据中心之一,根据《国家科技资源共享服务平台管理办法》,承担了开展领域内重要科技资源的收集、整理、保存任务,与领域相关的科技计划项目实施所形成的科技资源的汇交、整理和保存任务,还开展了科技资源的社会共享、面向科技创新活动及需求提供公共服务和定制服务等任务。在推动空间科学领域数据资源的有序汇交、规范管理和开放共享,保障科学数据安全的同时,国家空间科学数据中心总结中国科学院空间科学战略性先导科技专项、国家重大科技基础设施项目“子午工程”等项目科学数据管理经验,以科技计划项目实施周期为轴线,建立科技计划项目数据管理过程模型,在周期内的各阶段规划数据生产、处理加工、汇交与保存、共享与服务等各类数据管理活动,明确数据管理对象与内容,提出数据管理共性要求。

1 科技计划项目数据管理过程

1.1 模型概述

科技计划项目数据管理过程模型的管理对象为各级各类科技计划项目周期及前后阶段内开展的各项数据活动。模型由项目阶段与管理节点、数据活动、项目数据管理角色、产出文档4个要素组成,如图1所示。项目阶段可划分为项目立项、项目实施、项目后3个主要阶段,并设立任务书签署、年度/中期检查、项目综合绩效评价3个管理节点。依据项目周期和项目数据的生命周期,定义了数据产出分析与管理策划、数据产品定义、产品生产与处理、产品汇交与编目、开放与服务、评价与反馈、维护与保存7项数据活动,以及《项目数据管理计划》《数据产品定义文件》《项目数据汇交计划》及《科技计划项目汇交凭证》等产出文档。将项目数据管理相关人员划分为项目实施方、项目管理方以及科学数据中心,并明确职责,目的在于保证科学数据的真实性、完整性、标准性、可用性和科学有效性,最大限度地满足科研工作者对科学数据的应用需求。


image.png

图1   科技计划项目数据管理过程模型

1.2 项目立项阶段

在项目立项阶段,主要开展数据产出分析与管理策划活动。项目实施方以项目方案论证报告或其他立项依据相关材料为输入,组织开展数据产出分析,明确佐证或支持科学研究目标的数据需求,对项目数据产出的种类、体量以及数据产品预期的质量、应用效果进行需求分析。同时,项目实施方需开展项目数据科学管理策划,科学数据中心需配合参与策划,以确定项目实施方内部数据管理的主要角色及职责分工,确定项目数据采集生产及处理流程,明确项目数据产品设计、采集生产、处理加工、传输、保存等需求,明确数据汇交、共享等方面的管理要求,形成《项目数据管理计划》,并作为项目任务书要件之一。项目管理方应在对《项目数据管理计划》的可行性进行审查后签署任务书。

1.3 项目实施阶段

在项目实施阶段,前期项目实施方以项目管理计划为输入,开展数据产品定义活动,定义项目数据产品级别和类别、明确各级各类数据产品的组织、格式、命名和内容,形成《数据产品定义文件》,文件内容应包括数据分级定义与数据产品格式说明等内容,并对数据产品定义文件进行评审。在实施阶段中期,项目实施方以数据产品定义文件为输入,开展数据产品生产与处理活动,包括数据采集生产、数据处理、标定和反演分析以及质量控制,生成各级、各类数据产品。项目实施方应组织开展数据产品同行评价,邀请科学数据中心和相关数据评估专家参与,对项目数据产品的真实性、完整性、标准性、可用性和科学有效性进行客观性评价,形成《数据产品同行评价报告》。此外,项目实施方应开展《项目数据汇交计划》编制工作,根据《 科技计划形成的科学数据汇交 技术与管理规范》(GB/T 39912—2021)的要求,汇交的主要内容应包括但不限于科学数据实体、科学数据描述信息及科学数据辅助工具软件等。各类科技计划项目有单独政策要求的,应按相关政策执行。在“开放为常态,不开放为例外”的原则下,可在《项目数据汇交计划》中明确项目数据开放共享相关条件,也可形成单独的《项目数据共享实施细则》文档,用于明确项目各级各类科学数据的保护期限、开放条件、开放对象和审核程序。此外,各类科技计划项目可按需设立数据保护期,但保护期不宜过久,涉密项目数据除外。按照GB/T 39912—2021的要求,《项目数据汇交计划》应由科学数据中心审查,项目管理方审批后实施,因此《项目数据汇交计划》的审批可纳入项目年度/中期检查管理节点,作为必要的检查内容之一。在项目实施后期,项目实施方和科学数据中心共同开展数据产品汇交与编目活动,项目实施方以《项目数据汇交计划》为输入,启动数据产品汇交工作。接收数据产品的科学数据中心以《项目数据产品汇交计划》和相关的《数据产品同行评价报告》为输入,对汇交数据产品进行规范性审查,并反馈问题。科学数据中心应开展产品整编工作,按照相关标准规范对数据产品进行规范性整理与编目,形成便于使用的数据库或数据集,编制数据资源目录,对数据进行分级分类管理。在项目综合绩效评价时,科学数据中心据实出具数据汇交凭证,必要时对汇交凭证进行解读。

1.4 项目后阶段

在项目后阶段,科学数据中心同时开展数据维护与保存活动、数据开放与服务活动、数据评价与反馈活动,项目实施方配合参与。数据维护与保存活动以《项目数据管理计划》《项目数据汇交计划》等文件为输入,科学数据中心对汇交的数据产品进行分级存储、备份和长期维护,按需对数据产品进行版本更新、维护与安全保存。在数据开放与服务活动中,依据《科学数据管理办法》要求,除国家法律法规特殊规定的外,科学数据中心应公布科学数据开放目录,并将项目数据开放目录及时接入国家数据共享交换平台,通过在线下载、离线共享或定制服务等方式面向社会和相关部门开放共享。此外,科学数据中心应提供应用服务支持,包括但不限于数据出版与引用、数据确权与知识产权保护等,并对应用情况进行跟踪统计。在数据评价与反馈活动中,科学数据中心组织数据应用情况评价,并将数据应用服务评价情况反馈至项目管理方与实施方。

2 实施建议

科技计划项目数据管理过程模型旨在为项目实施方、项目管理方、科学数据中心的数据管理工作提供指南及参考依据,包括为项目管理方在立项阶段的项目数据产出需求和目标评审、项目数据管理计划的评审提供依据,为项目综合绩效评价时的成果评价提供依据;为项目实施方开展规范化的全过程数据管理工作提供指导,包括数据产出规划、数据产品设计、数据产品质量控制、汇交管理和数据成果归档管理等;为科学数据中心制订和审查规范化的数据汇交和共享计划及管理工作提供依据,包括数据汇交、分类分级、规范化整理、数据标识、知识产权管理、数据共享方式、数据应用评价等。

科技计划项目数据管理过程模型满足各类科技计划项目数据的过程管理需求,如国家重点研发计划、科技基础性专项等项目。在模型具体应用实施方面,科技计划项目数据管理模型的项目阶段与管理节点、数据活动、项目数据管理角色、产出文档4个要素均具有可扩展性,可按需根据实施建议(见表1)进行适用性改进,形成具体项目和具体领域的数据管理模型。具体如下。


image.png


● 项目阶段与管理节点要素可根据工程技术、基础研究、应用研究、试验开发等不同类型的项目进行扩展。如针对具有建设、运行阶段的工程类项目,模型的项目实施阶段可拆分为建设、试运行、长期运行等阶段,并根据阶段增设相应的管理节点,将项目管理方检查或数据管理过程中的关键性技术评审作为控制活动,如数据采集设备或数据采集处理系统的交付验收测试等。

●“数据产出分析与策划—数据产品定义—产品生产与处理—产品汇交与编目—开放与服务—评价与反馈—维护与保存”7个数据活动组成了完整的项目数据流,贯穿数据全生命周期,可依据不同项目阶段和特点进行拆分合并,如将开放与服务、评价与反馈、维护与保存合并为数据应用活动。

● 模型以产出文档约束相关数据活动,并将产出文档作为下一项活动开展的主要输入,如项目数据产品级别较复杂、产品种类及格式较多、数据生产方较多,可将产出文档细化形成各级、各类、各方的数据管理文档,可按照数据产品级别形成各级产品定义文件;针对具体某一项活动的管理,可依据行业惯例、领域数据资源管理特殊需求等形成单独的项目数据发布共享细则、数据保存计划等,也可将相关内容归纳到项目数据汇交计划。

● 模型中定义了3类通用型的数据管理角色,各类科技计划项目可根据数据管理办法/政策要求,按照项目组织管理结构进行角色细化和拆分,如项目实施方设定内部的项目总体、首席科学家、建设运行团队、项目数据中心等,并细化相应工作的数据管理职责。

3 结束语

在我国科技投入强度不断增长和科学数据快速积累的趋势下,科学数据汇交与保存、开放共享等方面的规范化管理需进一步强化和加深。为了满足各类科技计划项目数据的过程管理需求,特别是“十四五”时期国家重点研发计划等科技计划项目,本文提出了科技计划项目管理过程模型,旨在从项目立项阶段开始指导项目实施方、项目管理方、科学数据中心全面参与项目全周期内的数据管理活动。通过在项目各阶段根据任务书签署、年度/中期检查、综合绩效评价等节点,将《项目数据管理计划》《项目数据汇交计划》和《科技计划项目数据汇交凭证》等产出文档作为相关活动的控制管理措施,通过《数据产品定义文件》和《数据产品同行评价报告》等评审性活动的产出文档保障项目数据质量控制,推动项目数据管理工作规范有序开展,保障数据质量。当前,科技计划项目数据管理过程模型正在通过全国科技平台标准化技术委员会(TC486)申请国家推荐性标准研制任务,以期推广扩大应用效益,推动科学数据规范管理、有序汇交、开放共享,助力良性的数据应用生态系统的形成。


作者简介

许琦(1990-),女,中国科学院国家空间科学中心助理研究员,主要研究方向为科学数据管理、科学数据标准研究。


邹自明(1971-),男,博士,中国科学院国家空间科学中心研究员、副主任,主要研究方向为空间科学信息学。

袁雅琴(1988-),女,中国科学院国家空间科学中心助理研究员,主要研究方向为科学数据标识与出版。


胡晓彦(1987-),女,中国科学院国家空间科学中心副研究员,主要研究方向为空间科学数据管理与应用。


佟继周(1976-),女,中国科学院国家空间科学中心研究员、运控部副主任,主要研究方向为空间科学大数据应用技术、空间科学数据标准研究。


马文臻(1982-),女,博士,中国科学院国家空间科学中心副研究员,主要研究方向为空间科学大数据处理、卫星地面系统技术。


联系我们:

Tel:010-81055448

       010-81055490

       010-81055534

E-mail:bdr@bjxintong.com.cn 

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/



大数据期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,并被评为2018年、2019年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。




https://m.sciencenet.cn/blog-3472670-1325907.html

上一篇:[转载]高能同步辐射光源科学数据管理策略研究与应用
下一篇:[转载]基于生命周期理论的农业科学数据中心化管理模式

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-17 08:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部