科学网

 找回密码
  注册

tag 标签: 数据管理

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

高校图书馆科学数据管理计划服务框架构建与解析
terahertz 2019-8-21 17:02
(本文发表于《国家图书馆学刊》2019年第4期) 中文摘要: 科学数据管理计划是实施科学数据管理政策的落脚点,也是贯彻科学数据生命周期全流程管理的出发点。采用网络调查法深入调研50所国内外高校图书馆的科学数据管理计划服务实践,以信息生态学为理论指导,构建一套高校图书馆的数据管理计划服务框架体系,明确图书馆提供科学数据管理计划服务的组成要素,深入剖析该框架体系包含的信息需求分解、信息收集、信息加工、信息反馈等信息流动过程,为我国高校图书馆开展数据管理计划服务提供理论基础和实践参考。 中文关键词: 科学数据; 数据管理计划; 数据管理; 网络调研; 高校图书馆; 信息生态 链接: http://gtxk.nlc.cn/ch/reader/view_abstract.aspx?file_no=201904003flag=1
个人分类: 发表论文|2130 次阅读|0 个评论
开放科学:概念辨析、体系解析与理念探析
terahertz 2018-11-26 14:03
(本文发表于《图书馆论坛》2018年第11期) 摘要: 开放科学正逐渐改变传统科研范式,文章多角度探析开放科学的理念与内涵,为积极参与开放科学运动提供理论认知与实践支撑。文章采用文献调研法和网络调查法,从开放科学的概念、体系、理念三个角度出发,深度解析开放科学。首先结合自由、开放、合作、共享的理念辨析开放科学的概念,然后构建以开放科学政策、开放获取、开放数据、开放资源、开放同行评审、开放教育资源为内容的开放科学体系,最后以开放科学理念解析构建的体系。 关键词:开放科学;开放数据;开放获取;数据科学;数据管理;
个人分类: 发表论文|599 次阅读|0 个评论
高校科研数据管理理论与实践
terahertz 2017-11-17 14:32
(发表于《图书馆报》2017年11月17日A09版) 本报讯 近日,江苏大学图书馆副研究馆员,江苏大学科技信息研究所所长刘桂锋著《高校科研数据管理理论与实践》一书由江苏大学出版社出版。 该 书基 于大数据、数据管理、数据生命周期等基本理论,综合运用文献调研、网络调查、现场考察、案例研究、内容分析、比较研究等方法,详细阐述了科研数据管理研究领域的发展脉络、体系架构、最新理论成果与优秀科研数据管理实例,主要分为科研数据管理政策、科研数据管理服务与科研数据管理教育三个方面。 该书具备三个特点。一是具备一定的理论前瞻性。科研数据管理是一个发展快速的领域,新思想、新理论、新方法、新工具不断涌现,数据管理的内涵与外延越来越丰富。二是具备一定的实践操作性。本书选取的科研数据管理服务案例均来自国内外高校图书馆的实践一线,确保可操作、可推广、可复制。三是具备一定的学术价值性。本书力图构建科研数据管理的理论大厦,回答了为什么开展科研数据管理服务,科研数据管理服务的内容有哪些,怎样更好的开展科研数据管理服务等问题。 该书力求精炼,具备一定的理论性、实践性与学术性,来自图书馆又高于图书馆。 链接: http://124.207.48.191/epaper/tsgb/2017/11/17/A09/story/54448.shtml
个人分类: 教材专著|2353 次阅读|0 个评论
美国高校图书馆数据管理与服务
terahertz 2017-11-14 08:28
2017 年 11 月 13 日下午,美国伊利诺伊大学阮炼教授来图书馆做报告, 报告的题目是:“美国高校图书馆数据管理与服务”。 报告首先由研究数据管理概念、数据管理计划、数据生命周期等引出,主要讲述了 3 个方面的问题。一是高等教育和高校图书馆的发展动态,回答了为什么图书馆要开展数据管理服务的问题;二是研究数据管理和服务概论,回答了研究数据管理服务内容的问题;三是研究数据管理和服务的案例,选取了伊利诺伊大学、哥伦比亚大学、耶鲁大学、加州大学伯克利分校四个典型案例,系统回答了图书馆怎样更好的开展研究数据管理服务的问题。 在报告提问环节,就机构知识库、数据馆员培训、数字人文等当前热点问题与师生进行了互动交流。 阮炼,伊利诺州消防服务培训学院图书馆馆长 / 教授。研究专长:数据管理。伊利诺伊大学厄巴那-香槟分校图书信息学博士,美国华人图书馆员协会主席,美国华人图书馆员协会执行董事长,国际图联信息素养委员会成员。现任伊利诺州消防服务培训学院图书馆馆长和该院中国国际合作项目负责人,伊利诺伊大学图书信息学院兼职教授。
个人分类: 图书情报|2365 次阅读|0 个评论
国内外数据治理研究进展:内涵、要素、模型与框架
terahertz 2017-11-7 08:51
(本文发表于《图书情报工作》2017年21期P 137-144 ) 摘要: 深入探析国外数据治理内涵、要素、模型与框架等,为我国数据治理的全面发展提供更为具体的建议和更为明晰的规划。 采用文献调研和网络调查相结合的方法,全面梳理国内外数据治理的研究现状。 国外数据治理研究主要集中在理论探索、模型框架以及实践应用三个方面;国内研究侧重于理论分析,尚且缺乏模型与框架等应用研究。结合已有研究,从数据治理的内涵、要素、模型与框架出发,分析已有数据治理模型的类型、特点、问题、挑战与机遇,提出开展数据治理活动的对策建议。 关键词: 数据治理 , 数据管理 , 开放数据 , 科研数据 , 数据科学 网络链接: http://www.lis.ac.cn/CN/abstract/abstract21938.shtml
个人分类: 发表论文|4360 次阅读|0 个评论
高校科研数据管理理论与实践
热度 1 terahertz 2017-11-3 15:59
《高校科研数据管理理论与实践》专著于2017年8月由江苏大学出版社出版。 主要包括9章: 第1章  绪论 1.1 科研数据管理研究背景 1 .2 科研数据管理研究进展 1 .3 研究思路、内容与方法 1 .4 本章小结   第2章 科研数据管理基本概念 2 .1 科研 数据 相关概念 2.2 数据管理 相关概念 2.3 数据科学相关概念 2.4 本章小结 第3章 科研数据生命周期理论 3.1 专业 机构的数据生命周期 3.2 高校的数据生命周期 3.3 本章小结 第4章 高校科研数据管理政策体系构建研究 4.1 高校科研数据管理政策 调查研究 4.2 高校科研数据管理政策典型 案例研究 4.3 高校科研数据管理政策 体系构建 研究 4.4 本章小结 第 5 章 高校科研数据管理服务内容 模型 研究 5.1 高校 科研数据管理服务文献调研 5.2 高校 科研数据管理服务网络调查 5.3 科研数据管理服务 内容模型 构建研究 5.4 本章小结 第 6 章 高校科研数据管理服务体系构建与策略 研究 6.1 高校科研数据管理服务 现状 6.2 高校科研数据管理服务体系案例 6.3 高校科研数据管理服务体系构建 6.4 高校科研数据管理服务策略 6.5 本章小结 第 7 章 国外 高校科研数据管理服务实践 研究 7 .1 高校科研数据管理服务案例 7.2 UIUC 科研数据管理服务阶段 7 .3 UIUC 科研数据管理服务体系 7. 4 UIUC 科研数据管理服务启示 7 .5 本章小结 第 8 章 国外 高校科研数据管理教育实践 研究 8 .1 Data Curation 研究现状 8 .2 UIUC 科研数据管理教育实践基本概况 8 .3 UIUC 科研数据管理教育课程案例项目 8 .4 UIUC 科研数据管理教育实践案例项目 8 .5 本章小结 第 9 章 我国高校 科学 数据管理实践 研究 9.1 我国科学数据管理 实践 9.2 武汉大学科学数据管理 实践 9.3 复旦大学科学数据管理 实践 9.4 北京大学科学数据管理 实践 9.5 我国高校科学数据管理 实践 比较 9.6 本章小结
个人分类: 图书情报|3582 次阅读|2 个评论
国外科研数据管理研究综述
terahertz 2017-10-13 08:41
(本文发表于《情报理论与实践》2017年第10期P130-134) 摘要 : 深入探析国外科研数据管理研究热点,能够为我国科研数据管理提供更为清晰的发展规划和更具针对性的建议。 通过网络调研和文献调研对国外科研数据管理的文献进行概念辨析和热点探讨。 国外科研数据管理研究热点主要集中在数据生命周期理论和科研数据管理服务。文章从科研数据管理政策、数据生命周期理论和科研数据管理服务体系构建3个角度提出我国开展科研数据管理活动的对策建议。 关键词 : 数据科学;科研数据;数据管理;开放数据
个人分类: 发表论文|2813 次阅读|0 个评论
数据科学支撑的知识服务创新对策思考
terahertz 2017-9-14 10:32
2017年9月 13日 下午3点 , 南京理工大学王曰芬教授 在图书馆一楼报告厅做了题为 “ 数据科学支撑的知识服务创新对策思考 ”的报告。 报告内容主要分为大数据时代知识服务面临的挑战、数据科学的兴起与发展、数据科学与知识服务、数据科学支撑的知识服务创新四个部分。
个人分类: 图书馆|2408 次阅读|0 个评论
英国高校科研数据管理政策内容调查及启示
terahertz 2017-1-18 09:16
(本文发表于《图书情报研究》2016年第4期P35-44) 摘要: 采用网络调查和内容分析法,在明确英国科研数据管理政策现状的基础上,分析其20所高校的科研数据管理政策并深入总结政策总体要求及内容,选择兰开斯特大学、利兹大学以及巴斯大学3所数据管理特色鲜明的高校作为典型案例,进行详细解读,发现英国高校制定的数据管理政策和数据管理模式在政策内容体系、动力机制以及责任细化等方面都可给我国高校的政策制定提供重要经验与启示。 关键词: 科研数据管理;;高校;;数据政策;;英国;;科研数据
个人分类: 发表论文|2389 次阅读|0 个评论
《中国科学数据》、Science Data Bank
热度 2 terahertz 2016-2-22 19:47
《中国科学数据》是由中国科学院主管,中国科学院计算机网络信息中心主办,国内外公开发行的学术期刊。《中国科学数据》的新编国内统一连续出版物号 CN11-6035/N, 中英文,季刊,在国内外公开发行。致力于科学数据的快速出版与传播。 主页: http://www.nsdata.cn/index 。 SciDB(Science Data Bank)是一个在线通用存储库,面向科研期刊、重大项目(国家项目、部委项目、973项目或863项目等)、科研团队等用户群体,主要发布和科学研究密切相关的数据,使数据具备可发现性、可重用性和可引用性。 SciDB允许用户在非传统学术出版的模式下在线发布自己的科研成果,支持任何格式,如数据集、多媒体文件、论文、演示文稿和文件集等。 主页: http://www.scidb.cn/index 。
个人分类: 图书情报|5902 次阅读|4 个评论
短期展望——影响学术出版的因素
Enago 2015-12-30 13:34
当展望学术出版的未来时,需要考虑下面几个因素: (1)出版技术的革新。 (2)开放存取期刊的发展势头。 (3)不断增长的数据库。 (4)数据聚合和数据挖掘的使用。 (5)学术造假和被撤的文章数量的增加。 --- 阅读原文请 点击链接造访 【英论阁学术院】短期展望——影响学术出版的因素 --- 除了这些,还需要考虑到现在的科研环境已经与以前有了很大的变化,比如: 科研成本的上升。除了纯粹做理论只需要点纸笔还有一台电脑外,做计算都需要升级计算机以及购买一些相关的软件,更别提做实验了,仪器是越来越精细,越来越贵了,人工费也是日益上涨。 研究课题的选择。随着基础研究的经费越来越难申请,企业资金的比例升高,科研人员可以自由选择的课题越来越难了。 在压力之下,能够完全被重复的研究的比例在逐步下降,直接威胁到科研诚信。 在学术出版方面,现在每年发表的文章数量大大增加,得益于网络技术的发展,研究数据在全球范围内的可访问性也大大增加了,但是如果不能充分理由这些海量数据,即使再高的可访问度也只能产生有限的价值。虽然现在的数据挖掘技术也在往前发展,但对相关的专业人员的培训也要跟得上。否则发表的文章数量的增加只会给科研人员带来更大的压力。 同行评审过程已经伴随着学术发表几百年了,但是现在已经有一些人开始质疑它是不是符合现在的发表需求。每次出现文章撤稿或者科研结果不可重复的情况发生,就有人呼吁要让同行评议更加透明化,加强对同行评议的监督甚至完全取消这个过程。取消同行评议的提议太过于极端,但是如果对这个过程进行改进,也势必会影响到学术出版。 在过去的十年中,学术出版经历了非常多的变化,我们看到了更加丰富的访问科研结果的渠道,但是可惜的是科研诚信也受到一定的挑战。如果没有快速和有效的解决之道,那么整个学术发表行业就会受到一定的影响。 § 博客内容皆由 英论阁 资深学术专家团队撰写提供 § ------------------------------------------------------------------------------------------------------------------------------------ 您可能感兴趣的博文: 1. 纸质期刊会消亡吗? 2. 阴性结果需要发表出来吗? 3. 一个课题能发几篇期刊文章? ------------------------------------------------------------------------------------------------------------------------------------
个人分类: 作者讨论|4406 次阅读|0 个评论
《自动驾驶汽车中的传感器和数据管理》
coofish 2015-10-26 10:06
Sensors and Data Management for Autonomous Vehicles 购买该报告请联系: 麦姆斯咨询 吴越 电话:15190305084;电子邮箱:wuyue@memsconsulting.com 除了炒作和喧嚣,传感器技术已经迎来汽车产业的最大变革——自动驾驶汽车(Autonomous Vehicles),它为传感器供应商和半导体产业描绘了一幅美妙的画面。 多种传感技术将确保各级厂商都能享受市场机遇 传感器技术是自动驾驶汽车(无人驾驶汽车)成为现实的原动力。汽车制造商都在竞相研发安全自驾汽车,但是这场“竞赛”的路程漫长,分为多个阶段(如下图),涉及多种 传感器 。 不同自动化程度的汽车发展情况 超声波传感器、雷达和多摄像头系统已经集成在高端汽车中,预计未来十年,远距离摄像头、激光雷达、微测辐射热计,以及准确的航位推算将进入汽车。这些传感器将协同工作,确保每项技术互相依赖、避免冲突。虽然,传感器仅仅是自动驾驶汽车的一部分,但是市场前景非常好。 传感器技术路线图和相关的自动驾驶功能 2030年自动驾驶汽车中的传感器模块市场规模将达360亿美元 自动驾驶汽车的必备监测模块(传感器、软件、电子控制单元、数据管理、GPS和无线连接)需要高效的、可靠的器件。应用于汽车的超声波传感器、摄像头和雷达技术逐渐成熟,越来越多的汽车集成这些传感器以掌握定价权。汽车产业目前主要集中研发力量于激光雷达和航位推算系统,因为这些可以增加新功能以改善自动驾驶体验。Yole预计,2015年自动驾驶汽车中的传感器模块市场规模为26亿美元,2030年将达到360亿美元,复合年增长率为19%。 2015-2030年自动驾驶汽车中的传感器模块市场 当前最先进的自动驾驶商业车嵌入了17个传感器(这里传感器仅指应用于自动驾驶功能),Yole预计2030年将超过29个传感器。现在有两大传感器业务占主导地位:超声波传感器和全景摄像头。这两个业务的市场规模达到24亿美元,其中超声波传感器占85%市场份额(出货量)。到2030年,全景摄像头市场将达到120亿美元;超声波传感器将达到87亿美元;远距离雷达将达到79亿美元;短距离雷达将达到50亿美元。总体而言,2030年自动驾驶汽车中的传感器模块市场规模为360亿美元。 关键的传感器技术逐渐成熟,但是其它地方还存在瓶颈 传感器技术日益成熟,但是嵌入式数据处理和管理都还在研发中。新兴厂商(如Mobileye, nVidia和Kalray)提供先进的ECU,以挑战老牌厂商(如东芝和英飞凌)。本报告详细介绍了最先进的自动驾驶汽车技术,包括超声波传感器、近距离雷达、远距离雷达、激光雷达、红外传感器、航位推算传感器,以及相关数据管理等。 自动驾驶汽车中五大基础模块 未来,汽车将慢慢地从“传统机械、燃料动力和高功率电子汽车”演变成“能够预见许多重要情况的超灵敏电动机器”。总体目标是减少由于人类驾驶失误造成的灾害。 传感器技术将您的汽车变成一个超级英雄车 虽然汽车市场拥有很大的希望。但是,谁将会受益呢?自动驾驶汽车中的传感器市场规模很可能会迅速增长。同时,算法和软件也有望在未来几年内增长。我们相信,产业链价值迟早将从传感器流向ECU和软件,从而导致新的专业化厂商出现,进而分一杯羹。 自动驾驶趋势从根本上改变产业格局,但是连带影响不会立即显现 汽车制造商和汽车设备制造商正面临着一个充满多种威胁的新时代,新竞争者的业务从电动车和混合动力车(EV/HEV)到打车服务(如Uber)和消费电子。Yole认为,这种“多条战线”竞争会导致汽车产业发生深刻变化。随着20世纪的电子技术发展,汽车已经变得更快、更安全、更高效,并且互联性加强。通常,一辆汽车上的电子产品组件数量已经超过30%。 2030年,所有上述技术的发展都将有可能促使半自动汽车的大规模市场应用。我们预计2030年二级(level 2)自动汽车销售量为2200万辆,三级(level 3)自动汽车销售量为1000万辆,四级(level 4)自动汽车销售量为100万辆。自动驾驶汽车出现将创造一个全新的市场现象,这可能动摇汽车产业的根基。现在,人们都在猜测自动驾驶汽车技术是否可以创建全新的子行业,如汽车共享和按需服务。主要汽车制造商都充分认识到,这种技术破坏性情况是可能发生的。由于来自汽车共享和按需服务公司的早期投资,因此可能导致自动驾驶汽车的期初销售提升,而全球普通汽车的销售可能停滞。不管如何,有一件事情是肯定的:2008年金融危机之后,汽车产业感觉就像是在风暴之眼。 报告目录: Table of contents report scope Introduction, definitions methodology Executive summary The transportation industry’s history and evolution The move toward autonomous driving Level 0/1 - Low level of automation Level 2/3 - Partial automation Level 4/5 – Fully autonomous vehicles Market forecasts Worldwide cars sales 2015 - 2050 Breakdown of car sales by automation level Sensor module forecasts (M units) Sensor module forecasts ($M) Sensors for autonomous driving Ultrasonic Radar (SRR/LRR) Camera LIDAR FIR/NIR Dead reckoning Technology roadmap Supply chain Data management and processing Security and regulation Conclusion perspectives Yole’s presentation 若需要《自动驾驶汽车中的传感器和数据管理》样刊,请发E-mail:wuyue@memsconsulting.com
859 次阅读|0 个评论
UIUC图书馆讲座:数据存储与数据共享(Making Data Public)
terahertz 2015-4-21 03:50
当地时间 2015 年 4 月 20 日下午 1 点在图书馆 314 房间参加了 Data Management Workshop Series 的 第三部分, Making Research Data Public : Why, What, and How ,大约 10 人参加了本次研讨会。 本次主题包含三个问题:一是数据共享的原因:节约时间、精确预算、满足基金组织或期刊出版社的要求、提供启发;二是数据存储选择:学校机构库,学科存储库,如 Figshare 、 ICPSR 、 Genbank 、 tDAR 等。三是数据共享考虑的 9 大因素:基金组织或期刊出版社的要求、数据文件描述、数据范围、存储费用、知识产权问题、许可要求、隐私考虑、数据获取限制、数据利用 / 再利用及影响。
个人分类: 出国留学|2349 次阅读|0 个评论
UIUC图书馆讲座:数据文档与数据组织过程
热度 1 terahertz 2015-4-14 04:43
当地时间 2015 年4 月13 日下午1 点在图书馆314 房间参加了Data Management Workshop Series 的第二部分,Documentation and Organizationfor Data and Processes ,大约10 人参加了本次研讨会。 本次主题包含三个问题:一是考虑数据组织的组成部分,比如科研背景、基金资助、实验人员、仪器设备、结果与决策等;二是绘制可视化的工作流程,列举了几个例子,推荐了几款软件:Xmind 、FreeMind 、Coggle yEd 、Graph Editor ;三是重点介绍了数据文档与数据组织的过程,(1) 文件与文件夹命名,要遵循简洁、一直、有价值;(2) 控制词表,推荐了几个例子:Mesh 、Wordnet 、ISO3166 、ISO639.2 ;(3) 存储与备份;(4) 元数据相关的概念及案例,codebook 、数据字典、ISO 的标准、Readme file 等。
个人分类: 出国留学|2611 次阅读|2 个评论
UIUC图书馆讲座:数据管理(Introduction to Data Management)
terahertz 2015-4-7 05:13
当地时间2015年4月6日下午1点在图书馆314房间参加了Data Management Workshop Series的第一部分,Introduction to Data Management,大约20人参加了本次研讨会。 本次的主题是 Data Management的入门,主要讲述了三个问题:一是开展数据管理的背景,有来自科研人员的实际需要,也有基金组织和期刊出版社的要求;二是 开展数据管理的意义或者好处,主要有满足基金要求、节约时间、让自己的数据能够被更多的人理解和访问;三是主要介绍了数据管理的各个组成部分:计划、组织、文档、备份与存储等。
个人分类: 出国留学|2593 次阅读|0 个评论
UIUC图书情报研究生院(GSLIS)学术报告:数字内容管理
热度 3 terahertz 2015-3-11 07:20
当地时间2015年3月10日下午4时,地点位于美国伊利诺伊大学香槟分校图书情报研究生院的126报告厅。学术报告“铸造我们共同的文化财富:数字管理在数字人文学科的重要性”。演讲嘉宾是Alex Poole。 数字内容管理包括数据的保存、管理和增值。数字内容管理和数字人文在职业人士和学者之间有巨大的潜在跨学科合作空间。重要的是,这两方面能够促进数据的共享与利用,产生新的研究问题并引起公众的关注。虽然数字内容管理可以帮助保护我们的文化遗产以及证明我们在数字人文学科投资的必要性,但是数字人文主义者的数字内容管理技能培养仍是一个紧迫的问题。 本演讲侧重于数字内容管理在数字人文学科的价值,特别是数字人文主义者管理他们的数据需要具备的技能。通过对获得国家人文基金会办公室的数字人文项目的资助人员进行定性研究和对19个项目的45名人员进行半结构化访谈。研究结果表明:需要提高对风险数据的意识,加强数字人文的实证研究,提高数字人文主义者数字内容管理技能,开发配合教学日程的一体化教育框架。最后提出了未来的研究方向。 作者简介: Poole获得布朗大学历史学、北卡大学教堂山分校图书馆学硕士学位。他研究数字管理,数字人文,教育学,档案历史、理论和实践;图书情报学职业多样性和包容性以及印刷文化史。他的论文发表在《Digital Humanities Quarterly》、《AmericanArchivist》和《Archival Science》等期刊。2013年获得美国档案管理学会西奥多·卡尔文·皮斯奖。正在北卡攻读博士学位,博士论文“铸造我们共同的文化财富:数字管理在数字人文学科的重要性”,主要关注数字人文主义者和信息专业人士的数字管理教育。
个人分类: 出国留学|2757 次阅读|6 个评论
数据丢失正威胁科研界 – 意得辑专家视点 Editage Insights
editage 2014-11-5 19:27
你有想过,如果你的研究数据突然不见了,会怎么样?这对科研人员来说无疑是个噩梦,而有些人还真的不幸遇到了,数据丢失固然是很吓人的事,但有些研究人员储存数据的方法更是让人震撼,先前加拿大温哥华英属哥伦比亚大学(University of British Columbia ,UBC )的进化生态学家Timothy Vines 曾在他的论文“ The Availability of Research Data Declines Rapidly with Article Age ”中提到,研究人员承认曾经把数据存储在阁楼、车库的箱子等地方,这种数据储存方式跟数据丢失基本没有两样。 不管是处在什么阶段的研究人员都必须面对研究数据管理的长期议题,Nature 中的 文章 用 统计数据来呈现数据存储的重要性: 数据正在快速增长 ,目前世界上有 90% 的数据是近 2 年产生的,而科研数据的年增率是 30% 。尽管资金投入有显著的增长,但 数据仍然没有有效的管理 ,目前全球在 RD 上的支出粗估为 1 万 5 千亿美元 ,但数据却不停在消失,数据的可取得性正以每年 17% 的速度在下降,超过 20 年以上的数据有 80% 已经不见。 上面的数据显示出科研界面临严重的数据管理问题,数据的丢失无疑是对科学的巨大损失,不足的数据会使得某些研究无法复制再现,曾经 发生过一个案例 ,农业研究人员Melvin McCarty 自1958 年到1973 年这 15 年间在布拉斯加州附近记录过各种植物以及青草的生命周期,40 年后,生态学家 Lizzie Wolkovich 开始寻找 Melvin McCarty 的数据来探究气温上升对植物生命周期的影响,当时 Melvin McCarty 已经去世,原始数据也找不到了。这些数据一旦丢了就无可挽回,重新搜集数据更代表着额外的支出。 研究数据会丢失的主要原因是数据的来源只有研究人员,因此拥有数据的人应该利用工具来有效管理数据,将数据妥善保存,一些可用的工具有:电子记事本( electronic notebooks )、云存储服务 (cloud storage services )中的 GoogleDrive 和代码托管网站(code hosting sites )中的 GitHub ,以及最近的工具 Projects 。 除了研究人员,期刊也扮演保护数据的重要角色,目前已有许多期刊要求作者在投稿时提供研究数据,确保数据的可取得性并完善保护, 数据共享被视为迈向开放科学的必要之路 ,因为数据共享能保护数据,促进科技的进步。 研究数据是无价的,科研人员和期刊应共同努力确保数据不会丢失。 您是否有使用数据管理工具?欢迎分享您的经验与看法。 延伸阅读: 原始数据是什么? 数据共享这一步走对了吗? ∷意得辑科学网博客 内容皆来自《 意得辑专家视点 》,转载请注明出处 ∷ 【 意得辑 提供专业 英文论文修改 、 学术论文翻译 、 英文论文发表一站式服务 www.editage.cn 】 ____________________________________________________________________________________________ 完整原文刊载于 意得辑专家视点 : 数据丢失了怎么办? http://www.editage.cn/insights/what-would-happen-if-you-lost-all-your-data
个人分类: 科研影响力和研究质量|3666 次阅读|0 个评论
为什么要管理好数据?
热度 1 book 2014-1-16 20:27
管理好科研数据是一个研究者的基本要求,来看一个很直观的信息图,就知道还有更广泛的意义。 https://projects.ac/blog/five-top-reasons-to-protect-your-data-and-practise-safe-science/
个人分类: 读-思-拾|15623 次阅读|1 个评论
A short list of papers to be appeared in ICDE 2011
longxie1983 2011-2-15 10:50
RCFile:afastandspace-efficientdataplacementstructureinMapReduce-basedWarehousesystems http://www.cse.ohio-state.edu/hpcs/WWW/HTML/publications/abs11-4.html AnsweringApproximateStringQueriesonLargeDataSetsUsingExternalMemory http://www.ics.uci.edu/~chenli/pubs.html HashFile:AnEfficientIndexStructureForMultimediaData http://www.comp.nus.edu.sg/~atung/list_of_publication.htm IdentityObfuscationinGraphsThroughtheInformationTheoreticLens http://research.yahoo.com/Francesco_Bonchi CreatingProbabilisticDatabasesfromImpreciseTime-SeriesData AdvancedSearch,VisualizationandTaggingofSensor http://lsirpeople.epfl.ch/jeung/ PrefJoin: An Efficient Preference-aware Join Operator http://www-users.cs.umn.edu/~mokbel/publications.htm Stochastic Skyline Operator http://www.cse.unsw.edu.au/~yingz/ Processing Private Queries over Untrusted Data Cloud through Privacy Homomorphism. Selectivity Estimation of Twig Queries on Cyclic Graphs http://www.comp.hkbu.edu.hk/~db/publications.html Discovering Popular Routes from Trajectories http://archive.itee.uq.edu.au/~zxf/ ES^2:A Cloud Data Storage System for Supporting Both OLTP and OLAP http://www.comp.nus.edu.sg/~ooibc/papers.html A Continuous Query System for Dynamic Route Planning http://www.cse.iitk.ac.in/users/arnabb/publications.php Nonmetric Similarity Search Problems in Very Large Collections http://siret.ms.mff.cuni.cz/skopal/pub.htm Authentication of Moving kNN Queries Efficient Continuously Moving Top-K Spatial Keyword Query Processing http://www4.comp.polyu.edu.hk/~dbgroup/ Intelligent Management of Virtualized Resources for Database Management Systems in Cloud Environment. http://yellowstone.cs.ucla.edu/~hjmoon/publications/ Consensus Spectral Clustering http://ranger.uta.edu/~chqding/papers/ Selectivity Estimation for Extraction Operators over Text Data http://www.cs.berkeley.edu/~daisyw/ Continuous Monitoring of Distance-Based Outliers over Data Streams http://delab.csd.auth.gr/~apostol/publications.php RAFTing MapReduce: Fast Recovery on the Raft http://infosys.cs.uni-saarland.de/publications.php XClean: Providing Valid Spelling Suggestions for XML Keyword Queries Top-k Keyword Search over Probabilistic XML Data Keyword-based Search and Exploration on Databases http://www.cse.unsw.edu.au/~weiw/index.html#%285%29 Toward Exploratory Hypothesis Testing and Analysis http://datam.i2r.a-star.edu.sg/~skng/publications.htm Nonmetric Similarity Search Problems in Very Large Collections http://siret.ms.mff.cuni.cz/pubs.php Interactive Itinerary Planning http://dbxlab.uta.edu/dbxlab/research.html Influence Zone: Efficiently Processing Reverse k Nearest Neighbors Queries A Unified Approach for Computing Top-k Pairs in Multidimensional Space http://www.cse.unsw.edu.au/~lxue/cpub.html High-performance Nested CEP Query Processing over Event Streams. http://users.wpi.edu/~liumo/resume.html Classification Algorithms for Web Text Filtering http://user.cs.tu-berlin.de/~aloeser/ ScientificWorkflowDesign2.0:DemonstratingStreamingDataCollectionsinKeple http://www.daks.ucdavis.edu/news-events-2 Optimal Location Queries in Road Network Databases. http://www3.ntu.edu.sg/home/xkxiao/publications.html
个人分类: 书摘|4772 次阅读|0 个评论
普适计算中的数据管理
njumagic 2009-2-8 16:34
体积更小、处理能力更强的设备,改进的有线无线的网络,数据传输和表示的标准( HTML 、 XML 、 HTTP 、 WAP 等),这些因素的结合使得计算机在人的日常生活中扮演更重要的角色。有理由相信最终这些设备将普遍深入到我们生活中对我们的生活起到关键的作用,但是一切都是在不知不觉之中,好像在无形中发挥作用。这种被成为普适计算的概念在过去的十年中吸引了很多计算机研究者,这个概念首先是由 Mark Wieser 提出的。 当然,任何依赖于计算机或 PDA 人知道,普适计算实现之前还有很多工作要做。加快实现普适计算的必须的技术是提高速率。很多这个领域的研究者关注的是改进设备本身和他们使用的通信技术。对于设备,关键是在减小体积、成本、功耗的同时提高它的功能。对于通信技术,关键是提高带宽和覆盖率,发展协议使得能有更强的容错性和提供无线和移动连接。 改进的硬件和网络显然对于普适计算的发展十分重要,同样重要的和困难的是数据管理。为了支持计算行为背景化,数据必须是可靠地、高效地被存储、查询和传输。传统的数据管理如缓存、并发控制、查询处理需要适应普适计算环境的要求和限制。这些环境包括资源限制、间歇的变化的连接、移动的用户和动态的合作。 本文中,我们首先讨论普适计算支持的应用的主要特征和这些应用对数据管理的要求。然后我们介绍数据管理的不同方面以及它们是怎么适应这些新的要求的。 应用和数据管理的要求 虽然对普适计算的前景大家由共识,但是并没有明显的所谓的杀手锏应用。很多研究者和产品开发者开发样品在特定情形下阐述这种技术的潜能。由于这种综合的全局的普适计算的应用,特定的产品具有比单个应用多很多的功能。有的厂家提出这种技术强调的是用户的经历而不是一个或以一套特定的应用。这些情形中用户被若干移动设备包围,在不同的环境(家、办公室、汽车、会议室)中移动。这些设备主动地提醒用户制定的任务,对这些任务相关的部分或所有信息提供访问,并且使得在任务中的独立的小组之间通信变得简单。 功能的种类 与其举例另外的场景还不如分类各种场景功能有用。这些功能分类用来决定数据管理的要求。功能可以按照以下的方式分类: 1 )对移动的支持-小型设备与无线通信的融合意味着这些设备可以被用于移动的情况下。所以,相关的应用要能够在变化的、动态的通信计算环境中运行,可以从一个网络提供商移动到另一个网络提供商下正常操作。此外,本地化的新的应用同样要被开发。 2)上下文感知-如果设备真正做到是普遍存在的,那么它们就必须做到在大范围的持续变化的条件下使用。对于那些真正对人有帮助的设备,它们必须对环境以及用户正在执行的和即将执行的认为能够感知。上下文感知的系统从智能提示系统(提醒用户一个重要的事件或者数据)到smart空间(房间或者环境能对当前出现的人和事进行适应)。 3)协作的支持-普适计算应用的另一个重要主题是对一组人的支持。这种支持包括通信、会议和共享数据的存储、维护、传输以及表示。如果所以的参与者可能的话,协作可以是实时发生的,当然可以是异步的。除了支持当前发生的协作,系统还要求能回溯和分析已经发生的行为。 适应性和用户交互 上述的这些功能对数据管理提出了许多挑战,其中对适应性的要求是所有的功能共同要求的。移动的用户和设备、不断改变的上下文、动态的群组这些对适应性提出很高的要求,而这恰恰是传统的数据管理技术不能表示的。适应性是本文余下部分讨论的技术的共同的主题。 普适计算是为了提高人在执行各种任务的能力的,所以这些应用中用户是实时地与计算机进行交互。有的情形下,我们把提供用户对不确定事件的动态干预作为提高适应性的一个方面。群组系统中对共享数据的访问和更新是这种设计思想的具体的例子。不像传统的数据库系统并发控制机制中利用严格的用户交互的类型和度的限制,群组系统数据管理者则很少采用严格的限制规则。放宽规则降低了系统自动处理的范围的冲突。系统自动处理它们能够处理的事件,当它们检测到不能处理的冲突的时候,只是简单地提醒用户发生冲突了并允许用户根据当时的情形来处理冲突。把用户包括在处理的过程中可以提供更强的适应性。 其它还要一些数据管理的要求虽然并不像适应性那样作为所有功能共同要求的,但是为了支持全面的普适计算的环境也应当被提出来。例如,移动性带来很多问题。首先,移动的终端以及有限的存储能力意味着普适计算系统能够从不同的变化的位置接受和发送数据。这就需要对不同的代理支持,因为用户要在不同的代理之间移动。协议就必须在这样的要求下构建以满足不见断的支持代理的变动。移动性还要求智能的数据筹备,这样数据能够在用户需要的时候放置在离用户很近的位置。 其次,移动性把在固定场景下不是很重要的位置因素引进到应用中来。例如,很多为移动设备服务的系统是以位置为中心的。假定有这样的系统,它能够回答这样的问题找出以我的位置为中心2英里内的药店。这样的系统一定可以跟踪当前用户的位置并能够访问到与相关位置、距离有关的信息。从更一般的范围说,系统能够大量的移动对象,并能预测它们未来的位置。例如交通控制系统要追踪大量的汽车,包括它们的当前位置、方向以及速度。以位置为中心的计算要求特定的数据结构,这种结构能够把位置信息有效地保存起来。 上下文感知的要求 上下文感知的功能对系统中保存的知识以及如何利用这些规则提出要求。为了支持上下文的感知,系统必须保存用户的要求、角色、偏爱等内部信息。这种系统的一个例子就是智能的日程安排系统,它能够根据用户的近期安排给用户发送信息。比如用户下午与特殊的客户下午见面,系统可以自动向用户发送与下午见面相关的信息(客户帐户、以前会谈的结果、与会议主题相关的文章)。 负责的系统可能利用各种传感器来监控环境并跟踪用户的行为以帮助用户完成正在进行的任务。这种基于传感器的系统要求能够实时处理数据流并能够分析和解释这种数据流。所以普适计算中数据流处理扮演着重要的角色。 无论系统是怎样接受上下文信息,从传感器、用户输入、个人信息管理运用或者联合各种方式,系统必须能够很好地对这些数据提供处理以能够准确地获致当前环境的状态或者用户的兴趣。上下文感知的应用还要求系统有推论和机器学习的能力。所有的这些必须能够处理不完整的、有冲突地数据,并能够足够有效地与用户进行交互。 协作的要求 我们讨论的最后一组要求是为了支持动态的一组人或者工作的协助。如前面所述,这种应用的主要的要求是适应性的要求。此外,除了适应性还有其它的一些尚未讨论的要求。首先是同步和一致性地要求。任何支持协作的应用的核心是一组共享的数据的建立、访问、修改和删除。这种功能必须是灵活的这样不同类型的交互(从聊天的工具到传统数据库的四个特性原子性、一致性、隔离性、持久性)才能够很好的支持。 协作应用的另一个要求是对历史的可靠的可行的存储。如果协作是在同步方式下发生的,用户要能够访问在协作的早些时候发生的事件。还有,如果协作的参与者允许在中途有变化,对参与者和其行为的持久的记录可以加快新的参与者的融入。这种持久的记录可以有效的作为行为的日志,而用作对协作的各种结果的起因的追踪,或者用作机器学习或者数据挖掘来帮助优化以后的协作。 数据管理技术的例子当前进行的项目 前面的讨论中描述了为了支持普适计算场景的数据管理中遇到的挑战并概述了普适计算应用的特性。这一段,我们主要描述两个正在进行的系统。第一个系统是Data Recharging,发掘用户的兴趣和偏好信息并把这些信息更新和相关的信息传递给用户的移动设备。第二个系统是Telegraph,建立适应数据流结构的数据处理来处理不同的数据流上(传感器数据流、动态环境数据流)的查询操作。 Data Recharging:Profile-Based Data Dissemination and Synchronization 移动设备需要两个资源:数据和能源。由于移动设备体积和成本的限制使得它不可能始终连接到固定的能源和数据(因特网等)上。移动设备利用缓存技术来解决这种不相连接的问题。设备利用充电电池来缓存能源,利用本地存储来缓存数据。一段时间后,设备本地的资源必须连接到固定的资源上充电。利用现在的技术设备中已驻数据的更新和补充比能源的补充更麻烦、和易出错。能源的补充可以在任何地方,只需要很少的用户干预,并能够累进的进行充电时间越长,能源储备越充足。但是,数据的补充并不具备这些特性。 Data Recharging项目是开发这样一种服务和相关的基础设施,使得移动设备在任何地方、任何时间内接入到因特网以后设备就拥有比接入以前更多更有用的信息。数据更新的开始要求设备拥有一个插入式的接入因特网的接口。设备接入因特网的时间越长,获取的信息越丰富。虽然和充电类似,但数据更新在数据传输中的数据类型和数据量更加复杂。数据的更新必须根据更新设备的能力、更新数据要支持的任务来量身定做。 不同的移动用户有不同的数据需求。商务旅行者希望更新合同信息、目的地的旅馆概况和价格等。学生要求访问最近的课程笔记、预习课件、查看实验室公告。数据的更新把用户不同的需求看作特征。特征可以理解为对可用数据的详审找出与用户相关的信息并决定它们对用户的价值。 数据更新的特征包括三个类型的信息:首先,特征描述了用户感兴趣的数据类型。这种描述应当式公开的,这样它能够把新创造的数据和已经存在的数据都包含进来。这种描述也应当非常灵活的这样才能够表达不同类型数据和媒体的属性。第二,由于带宽、本地存储容量、数据更新时间的限制,只有一定范围内的数据能够被传输到设备中来。特征还要根据数据的优先级、多个可选项中用户的选项、一致性的要求和其它的特性能够表述用户的偏好。最后,用户的上下文能够动态地和由用户的特征参数化表示的更新过程相协作。 我们前面对用户的特征的工作主要关注以下几点: 1) XML文档流上高效处理特征;2)通过外在的用户的反馈学习和维护用户特征;3)开发移动设备同步大规模的可靠的系统。数据更新是建立在这些工作的基础上,但针对更加意图明显的用户特征(包括用户偏好、上下文信息等)还要开发相应的语言和处理策略。此外,我们还需要开发可为全球众多人口提供数据更新服务的可升级的广域系统体系结构。 适应的数据流操作 普适计算环境的另一个关键的方面是数据可用性的不确定和动态数据流的管理操作存在的挑战。例如在移动的应用中,数据根据用户的需要在不同的系统之间移动。当数据在端点生成以后,数据会以不确定的方式流向系统,过程中可能被代理商存储、转发。在有的应用中信息流也会出现,像数据分发系统中新建立数据和修改过的数据发送到用户和缓存中去。 传统的数据库查询系统在这种环境中由于以下几个原因而停顿:首先,它们是基于静态的查询优化策略。数据库的查询方案是通过简单的成本模型和对数据的统计来建立的。在动态的数据流环境中,这种方案是不能很好的执行的。因为数据到达的速率、顺序和数据流的行为是难以预测的,从而对数据就没有可靠的统计。 第二,现在的方案不足以处理查询操作中的失败。在现在的数据库系统中,数据源的失败没有被检测到,则只是简单的冻结查询操作,以等待数据的到来。如果检测到了数据源的失败,则只是放弃或者重新开始查询。在数据源和流动作不可预测的普适计算环境中这些方法是不恰当的,因为查询操作可能要运行很长时间。 第三,现在的查询方案是优化成分批的操作,整个查询的结果作为最后的目标来传输。在普适计算环境中,用户要与系统进行交互,这种策略是不可取的。一旦可以了,处理的数据应当传递给用户。而且,由于是交互的,用户可能要根据前面返回的信息或其它因素来修改查询。系统应当能够根据用户的需求调整变化。 加州大学伯克利分校的Telegraph项目通过开发适应性数据流操作引擎来研究这些问题。Telegraph利用一种新颖的策略来执行查询操作。这种策略是基于这样的思想,数据流控制结构把数据逐项发送给查询操作者。Telegraph并不依赖于传统的查询方案,但是允许在查询中应用这些方案。对连续的动态的数据流的查询,系统能够适应于数据到达的速率、数据特征、存储通信资源的可用性等因素的变化。 除了新颖的控制结构,Telegraph还使用了非阻塞的均衡的查询处理操作,如Xjoins和Ripple,这些能够处理它们输入数据的变化和不可预测的数据到达。Telegraph系统还存在的问题由基于群的开发、处理引擎的广范围的实现、容错机制的设计、对传感器的连续的查询、基于特征的信息分发和用户接口问题。 结论 普适计算是未来一个引人瞩目的现象,它在以越来越快的速度在一步一步地实现 。 更小的、处理能力更强的设备通过有线的或无线的网络相连接组成了全新的应用,改变了现有的计算形式。除了新的设备和通信的机制,实现普适计算的关键技术是数据管理。数据是普适计算应用的核心,这些应用和环境又对数据管理技术提出了新的挑战。 在本文中,我尝试着从数据管理的前景来概述普适计算的关键的因素。这些方面归纳成三个方面: 1 )对移动性的支持, 2 )上下文感知, 3 )对协作的支持。我们检查每个因素来找出这些因素对数据管理提出的要求。适应性是这些因素提出的根本的要求。传统的数据管理技术在这种计算环境中被重新考虑。 我描述了两个正在进行的项目来检查数据管理中的几个关键的技术: DataRecharging 项目的目的是基于复杂的用户的特征提供与移动用户的高度相关的数据的同步和分发。 Telegraph 项目是开发动态数据流的处理引擎来高效地处理从网络资源到传感器的数据流。 当然,数据管理领域中还有很多本文中没有涉及到的问题。首先,多个应用和数据类型之间的协同,这取决于数据交换的标准、资源的发现、对象之间的通信。这个领域有了很大的进展,这些研究只是标准化过程中的一小部分。其次,另一个重要的领域是开发全球范围的、安全的、关于档案的信息存储应用。这种应用的例子是加州大学伯克利分校正在开发的 OceanStore 系统。 总的来说,在可以预见的未来,普适计算给数据管理带来了很多的机会和挑战。我们应当认识到,虽然现在很多关注在于通信的协议研究,但是在普适计算的开发中数据管理扮演着核心的角色。这个领域的进展最终取决于我们解决复杂的数据管理问题的能力。 (李彬编译)
个人分类: 学术动向|5347 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 17:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部