科学网

 找回密码
  注册

tag 标签: 科学数据

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

宿命论的科学依据
热度 11 jiangjiping 2017-8-26 20:45
宿命论的科学依据 蒋继平 2017年8月26日 网络上把宿命论定义为:宿命论又稱命運論、命定論,指人生中早已注定的遭遇,包括生死祸福、贫富贵贱等或者相信一切事情都是由人无法控制的力量所促成的。 相信宿命论的人认为人间发生的每一件事都是注定的,由上帝或上天预先安排,人无法改变。 网络上同样也有因果轮的热议。 许多网友把宿命论与因果论对立起来看待。相信因果论的人认为人生的命运是因果报应的结果, 是个人前世今生作为的报应。 有一个叫城市猎人的网友在回答你相信因果论还是宿命论的问题时提出了下列的看法: 相信因果论还是宿命论,与一个人的人生境遇与观察力密切相关: 一、人生比较倒霉的人倾向于宿命论,人生比较顺利的人倾向于因果论。那些觉得必须去算命的人往往是被命运在某方面折磨比较深的人,而不是比较顺遂的人。 二、所在行业比较靠机遇的人倾向于宿命论,所在行业主要靠硬实力的人倾向于因果论。官员、商人、演艺人员迷信的很多,数学家、程序员迷信的就少很多。 三、高开低走的人倾向于宿命论,其他类型(低开高走、高开高走、低开低走)的人倾向于因果论。所谓高开低走,是指当初大家都认为他很牛,但是结果他不牛,明明是北大毕业却沦落到小地方与大专生当同事,这种人你很难让他相信因果论。(我要补充一句,公允地说,高开低走的人一部分是情商与能力低,一部分也确实是运气差) 四、热衷于观察、对比周围形形色色人物命运的人倾向于宿命论,喜欢从统计学等大尺度看世界的人倾向于因果论。 五、心很软、同情心强的人可能会倾向于宿命论,心很硬、同情心很弱的人可能会倾向于因果论。心很硬的人的特征是过分执着于不让失败者找一个大家可以原谅他的理由,他们会过于执着的把一个人“混得不好”全盘归咎于当事人能力不行。 除了第三条外,我对他的说法比较认同。 我是一个科学家, 一生从事科学知识的学习和从事科学研究。 我的人生说来既是充满着艰难险阻又算是一路顺风。我从小生长在农村,青少年时期就承担了繁重的田间作业,在大学四年几乎是天天饿着肚子熬过来的。 到现在为此, 我已经三次进救命室, 四次手术, 五次住院,身上现在仍有一根断骨, 听力严重受损。我从高中毕业就参军入伍,那时中国的军人最吃香, 从部队回来立即考上了文革后的第一届大学生, 大学毕业被分配在风景秀丽的大城市的国家级研究所,在80年代中期被公费派往美国深造, 又获得国际知名的洛克菲勒奖学金, 在名牌院系获得博士学位后, 又获得一份理想的工作, 定居美国, 经常被美国的公司以专家的身份派往中国和其他国家检查工作,个人的资料也被英美两国的名人传记所载入科学界和世界名人的书册。 有的人会想, 一个科学家应该相信科学, 不应该相信宿命论或者因果论这样“迷信”的东西。 我必须告许大家, 我越是对科学知识的追求, 越是认为无论宿命论还是因果论, 他们都是符合科学原理的东西。 我一直认为, 人的命运从生来就决定了一大半, 后天的努力只能在小的方面对人生有一些改变。 这是我认可宿命论的依据。而我认为, 人生在那个家庭, 是前世就决定了的。 这是因果的结局。所以, 我认为, 因果论和宿命论是一个统一的两面体, 他们不是矛盾的论点。 现在我用科学的数据来论证我对宿命论认可的观点。 人生的命运受到时空的局限性。生活在清朝的人, 无论谁, 即使是皇帝也无法享受飞机和手机电脑的快捷方便。 生在非州贫穷国家的人,跟生在美国的人, 在物质生活上的显著差异不用多说。这些是决定人生命运的大格局, 是个人无法改变的。有的人会说, 生在非洲的人也可以通过移民到美国。 这话不错,但这个人必须经历一系列的个人努力才能达到这个目标。 此间的麻烦实在不少。 人生的命运跟性别和肤色密切相关。人的肤色和性别是生来决定了的。虽然现代科学可以采用变性手术来改变一个人的性别, 但是, 这种手术改变的只是外形, 而改变不了其本性。 换句话说,由男人经变性手术而成的女人, 是不能正常怀孕生孩子的。大家一定很清楚, 男人是男人的命, 女人是女人的命。男人不用怀孕生孩子, 但是, 在对付自然挑战时必须承担更多更大的责任。男人只能称为孙子, 儿子, 父亲等,而女人只能称为孙女,女儿, 母亲, 奶奶等。不管你个人如何努力, 你是改变不了这个命运的。一个人的肤色也是终生不能改变的大因素。黑人, 黄种人,白人给人的感觉一目了然。 我虽然可以通过后天的个人努力来改变国籍, 但是, 我是黄种人的本质永远也改变不了。 家庭背景对人生的影响是巨大的。家庭背景对人生的影响是多方面的。 其中最主要的是。 1. 遗传基因。 这个遗传基因决定一个人的智商和个性, 是决定一个人后天行为的内因。龙生龙, 凤生凤, 老鼠的儿子会打洞,说的就是这个道理。 2,家庭社会地位。生在皇室的人, 生来虽然吃穿不愁, 可以享受荣华富贵, 但是, 必须面对激烈的权力争斗, 甚至兄弟手足的相互残杀。 生在富贵家庭的人, 虽然物质生活相当富裕, 但是, 必须面对财富分配的争夺。生在贫穷家庭的人,虽然吃了上顿没有下顿, 但是他们为了生存, 团结一致,共同迎接自然的挑战。家庭社会地位不但决定一个人的荣华富贵和艰辛困苦的程度, 而且关系到一个人的社交范围。这个是大家都心知肚明的事。 3。家庭的受教育程度。将门出虎子, 书香门第出才子。 这是中国社会流行的一句俗语。 这个俗语道出了家庭对人生的重要影响。一个家庭的受教育程度对其后代的影响是巨大的。 教育程度高的家庭的孩子们的知识素养一般比没有文化知识的农村人要好一点。 当然, 这是指一个群体而言,不是以个体而论的。任何一个群体中都有差别的。我们不能拿一个群体中优秀的与一个群体中的平庸之辈作平等的比较。 以上三个方面谈及的是时空,肤色性别和家庭背景。 这三个方面是生来决定了的,是不能选择的, 也是个人后天不能改变的。 大家是否感觉到这三个方面对人生起着决定性的作用。 所以, 我觉得,从科学的方面来分析, 宿命论是有充分根据的。不过, 我的宿命论应该称为科学宿命论。
个人分类: 观点交流|14695 次阅读|42 个评论
《中国科学数据》、Science Data Bank
热度 2 terahertz 2016-2-22 19:47
《中国科学数据》是由中国科学院主管,中国科学院计算机网络信息中心主办,国内外公开发行的学术期刊。《中国科学数据》的新编国内统一连续出版物号 CN11-6035/N, 中英文,季刊,在国内外公开发行。致力于科学数据的快速出版与传播。 主页: http://www.nsdata.cn/index 。 SciDB(Science Data Bank)是一个在线通用存储库,面向科研期刊、重大项目(国家项目、部委项目、973项目或863项目等)、科研团队等用户群体,主要发布和科学研究密切相关的数据,使数据具备可发现性、可重用性和可引用性。 SciDB允许用户在非传统学术出版的模式下在线发布自己的科研成果,支持任何格式,如数据集、多媒体文件、论文、演示文稿和文件集等。 主页: http://www.scidb.cn/index 。
个人分类: 图书情报|5907 次阅读|4 个评论
未来采编系统之我见
热度 1 paperopen 2015-11-15 10:43
1. 支持 XML (或者 HTML ),包括图片、图表的自动转换等,要适应不同的排版软件。自动化是最重要。目前是需要人工来编辑 HTML (需要委托专业公司来外包)。 2. 全面支持 ORCID ,为审稿提供作者公开信息;和ORCID系统的对接,把发表论文直接关联到作者的ORCID上。 3. Issue by Issue 向 Paper by Paper 的过渡(和预发表不完全相同,参见 Arxiv )。 4. “微学术”的支持。 5. 审稿专家的自动发现和提供(第三方功能)。 6. Open Peer Review 机制的探索。 7. 和科研数据的关联提交、审核和展现。 8. 需要扩展网刊推送和订阅手段,如在 RSS 基础上,增加微信订阅号等。 9. 页面设计的手机页面和计算机页面自适应; 10. 手机 APP 和微信新型用户交互。 11. 需要一些 OAI 接口,和数据库、学术搜索系统对接,提高文章展现度,或者提升经济效益。 12. 支持广告插播,为期刊效益考虑。 13. 发表引用情况的自动收集(和引文分析系统的对接)。 14. 基金项目收集,为约稿提供数据基础。 15. 参考文献自动编校功能的对接。 16. 期刊参考文献格式插件的提供。 17. 审稿专家考评。
个人分类: 期刊网络化|3269 次阅读|1 个评论
文献阅读笔记(2)-科学数据共享
FangliXie 2014-5-14 18:28
主题: 科学数据共享 兴趣点: “数据挖掘”与“科学数据”结合起来的研究 阅读目的: 寻求研究点,为写 论文研究计划 作准备。 文献管理软件: CNKI E-lear ning 入手文献: 40+ 今日进展: 把过去两天下载下来的文献摘要通读了一遍,部分看了全文,用了一个小时左右(其余大部分时间注意力处于游离状态, 在漫无目的地浏览网页, 没有定下心来阅读,时间白白浪费了。不过自己好像也并不为此感到可惜 ̄□ ̄||)。发现自己所找的文献涉及的主题仍然很分散,有一些文献跟自己的兴趣点没有交叉或结合的地方。40多篇文献最后被我狠心删掉只剩下13篇。这些文献被分成了三类:数据共享、元数据、数据质量。目前仍然没有找到可以入手的研究点。 今日感想: 1.花大多时间用在文献搜索上,且在搜索之前并没有认真地思考我具体需要什么样的文献。我只是在拿关键词做一些技术性搜索的活儿,没有认识到其实做了很多的无用功。文献浩如烟海主题也琳琅满目,在搜寻的时候很容易迷失或者受到诱惑。应该从一个明确的问题点出发,比如带着这样的问题来找文献:“我想做科学数据和数据挖掘的研究,哪些文献对我以后的研究会有用呢?”这样说也许会有人笑话,本来就应该这样嘛!唉,说起来知道做起来的时候可能就忘了... 2.今天在阅读文献的时候冒出了研究“信息可视化”、“虚拟现实”等改旗易帜的想法,因为觉得手头的研究主题没意思。我的想法老是变来变去,看到有意思的东西就想去尝试一下。为此造成了很大的时间浪费,因为最后我还是回归到原来的主题,而花费在新事物上的时间都没有回报。我以后会是一个容易变心的人吧?呵呵!我应该学学用情专一的性格!没有哪个研究是容易的,不要奢想一下子就能做出显著的成果,要学会站在前人的肩膀上继往开来,少幻想空想,多务实积累。 3.花在文献阅读上的时间太少了,这样能读出个什么东西来呢?多花点时间比较好。
个人分类: 科研笔记|2089 次阅读|0 个评论
文献阅读笔记(1)-科学数据共享
FangliXie 2014-5-12 23:31
主题: 科学数据共享 兴趣点: “数据挖掘”与“科学数据”结合起来的研究 阅读目的: 寻求研究点,为写 论文研究计划 作准备。 工具: CNKI SCHOLAR(检索中文文献);WEB OF SCIENCE(检索英文文献) 检索词: “科学数据”;“DATA MINING” 入手文献: 19篇中文(第一部分10篇,第二部分9篇),4篇英文。(见附录) 今日进展: 通读第一部分的10篇文献。准确地说是大致浏览了一下,只有一个模糊的印象。 今日收获: 发现两个比较有用的关键词,科学数据的 “价值鉴定” , “数据质量” 。可以考虑用数据挖掘的方法来评价科学数据的价值或质量。有待进一步确认。 附录: 我国科学数据元数据研究综述 国外开放科学数据研究综述 国外科学数据共享研究综述 面向服务的区域性地震数据共享平台研究 基于林业科学数据的语义检索研究 基于大数据环境的科学数据共享模式研究 科学数据价值鉴定研究进展 科学数据价值鉴定研究 科学数据质量实践与若干思考 本体构建理论在林业科学数据共享中的应用研究 国外元数据研究前沿与热点可视化探讨 科学数据库元数据标准体系设计 XML和RDF在科学数据库元数据标准建设中的应用 实现科学数据共享的基石语言——XML的理论与应用 元数据技术在科学数据共享平台中的应用 农业科学数据共享中数据汇交与管理研究 科学数据库通用元数据管理工具的研究与实现 基于元数据的异构数据集整合方案 科学数据共享中的元数据技术研究 ECDS – A SWEDISH RESEARCH INFRASTRUCTURE FOR THE OPEN SHARING OF ENVIRONMENT AND CLIMATE DATA Theory and techniques of data mining in CGFbehavior modeling Three challenges in data mining A Survey on Visual Content-Based VideoIndexing and Retrieval
个人分类: 科研笔记|2200 次阅读|0 个评论
Nature将推出数据杂志开源期刊——Scientific Data
热度 9 lionbin 2013-10-16 20:29
大多科研人员从参与科学研究开始,就在不断产生数据,但随之而来的问题是, 许多研究人员在改换研究方向或者作为学生毕业后,大多数据也就消失了,即使保留在实验室,也因为缺乏很好的数据管理规范而名存 实亡, 因为他人可能无法看懂这些数据,更不用说重复利用了。 我在这方面的体会颇深,从1995年开始,曾经参与了中国科学院生物多样性数据库 方面的 开发工作,之后(2003年)在崇明东滩建立了碳通量观测站,开始接触了海量的微气象学和环境数据,也一度为众多的数据形式一筹莫展。特别在自己作为课题负责人领导一个团体一起工作的时候,更为数据的集成、归档和继承问题费尽了心思,一直渴望有一个标准的管理形式或地盘能很好地保存这些数据让他人能方便地利用。虽然从参与FLUXNET,Ameriflux和Asiaflux等国际通量网络中获得了一些认识,但一直并未从根本上解决众多生态学数据管理的问题。直到有一些数据杂志(Data Journal)相继推出,我才慢慢明白这种新型的数据管理方式与我曾经的渴望是那么一致。 谷歌的Peter Norvig说,“ 科学是收集事实和发展理论的结合,二者都不可能自己进步。在科学史上,费尽各种周折去积累事实是主要的模式,并非有什么新奇的 ”。每个人都希望用更好的方法来产生和研究现有数据,也希望能合法地使用他人产生的数据。但是要让数据得到广泛的重利用,科学家们需要知道数据是如何产生的,以及进行了何种针对数据质量控制的实验。他们需要访问有关数据输出、文件格式、样品标识和实验重复规范等方面的详细说明。实话说,这是一项极其艰苦的工作,一般也得不到什么回报,因此许多潜在有价值的数据并没有发表出来,或者没有完全向公众公布,或者没有足够的细节来描述如何对数据进行重新利用。 Wiley集团的副主席Mike Davis表示:“ 目前,有一种活动愈来愈受重视——支撑关键发现的数据被更多的人访问,从而使数据的进一步分析和结果的解释得到促进。与此同时,不论是研究者创建和获取大型新数据集的能力,还是他们在更大范围的数据仓库中存储和检索数据的能力,都在迅速增强。 因此,为了响应这一重要发展趋势,Wiley推出了新期刊Geoscience Data Journal(GDJ)。”该刊于2012年7月16日问世,是Wiley开放获取出版计划的一部分,其仅以在线方式发行,主要发表短篇的地球科学数据论文,这些论文则与存放在经认可的数据中心的数据集,并与数字对象识别(DOI)关联起来。具体而言,GDJ的数据文章需要对数据集进行描述,并详细给出数据来源、处理过程、使用的软件和数据文件类型等,其将涵盖从天气到气候、到海洋学、大气化学、地质学的多个主题。我还看到了 Biodiversity Data Journal (BDJ) 的出版。这份杂志在首页,以大字体显示旨在“解决生物多样性出版的瓶颈”。之后,有更多的数据杂志发行(参见网页: http://proj.badc.rl.ac.uk/preparde/blog/DataJournalsList )。 上周Nature周刊发布通告说, 自然出版集团将于2014年5月推出在线出版的开放获取杂志“科学数据”(Scientific Data,本文简称SD) 。 这个杂志要求作者针对数据集进行详细描述,旨在帮助科研人员发布、发现和重用研究数据,并对这个杂志提出了六个关键原则 :(1)信用(Credit):通过一个可被引用的出版物,储备和分享研究数据;(2)重用(Reuse):完整、组织化(curated)和标准化的描述,保证数据可被重用;(3)质量(Quality):严格以学术团体为基础的同行评审;(4)发现(Discovery):找到与研究相关的数据集;(5)开放(Open):在数据使用、重用和分布上促进和支持开放的科学原则,通过知识共享许可协议获取;(6)服务(Service):数据描述进行内部管理和快速同行评审。 SD 杂志中 一个新的重要文章类型是“数据描述”( Data Descriptor,本文简称DD)旨在描述有科学价值的数据集,文章将被收录到一些重要的索引服务中,从而让作者愿意与别人分享他们的数据。对广大观测人员来说,这个通告无疑是一个福音。可喜的是,SD已经开始征集稿件了(go.nature.com/1gnd1j)。 DD的文章将 采用非常成熟的同行评议,专注于数据收集过程的技术严谨性、数据完整性以及与现有共同标准的匹配度 。他们将检查数据是否确实值得共享,并特别要求审稿者不要以自己的感受,或者比较其他相关数据集的新颖性来进行评价。据称 SD 的编辑已经在小范围内对示范DD稿件进行了同行评议,发现科学家们能很快适应这不同视角的同行评议。 所有的DD将遵守创作共用许可制度(Creative Commons licence),允许研究人员重用,重新分配以及混合文章的内容等 。DD的格式包括“技术验证”(Technical Validation)和“用法说明”(Usage Notes)部分。这要求作者描述数据的质量,并对数据的重用提供有价值的信息,显然这样的介绍并不适合传统的研究论文格式。再者,与其他Nature子刊一样,方法(Methods)部分是没有长度限制的,给作者留足空间让他们提供详细的实验数据可重用性的描述。DD将链接到相关的期刊文章和数据存储库中的数据文件,帮助读者轻松地在研究、数据描述和实际的数据之间遨游。每个DD文章支持机器可读实验元数据,这有助于高级用户挖掘和查找SD的内容。元数据记录将由内部员工组织,这样确保一致性以及可提供有用的注释,并以目前流行的ISA-Tab格式发布。 DD定位是一个发布数据集的论坛,但不会成为一个原始数据集(primary dataset)存储库。原始数据及其相关的数据描述将存储在一个或多个外部数据存储库中。这种策略有助于杂志理出一个清晰的线索,来 帮助作者出版有科学价值和可重用性的数据集,而不是控制对数据的访问 。这是一个循序渐进的策略,要促进和配合现有的基础存储库,促进协作和数据整合,而不是碎片化(fragmentation)。 Nature-SD将与figshare和Dryad两个储存库合作,接受广泛的研究数据类型。figshare目前并非一个保存期刊数据的储存库,只是一个让科研人员进行自由分享的平台。其理念是可发现(discoverable),可共享(shareable)和可引用(citable)。其中一个特色是鼓励发布阴性数据(negative data)和图。 这是非常有用的,一方面可避免其他研究者无谓地重复这些工作,另一方面这些数据可能在别人的研究中得到佐证,或者进行合理解释,也可能这些阴性结果也被正式发表出来了,说不定还是非常有意义的重大源头发现呢 。Dryad则是建立在开源DSpace软件上的一个数据储存库管理系统。其数据格式灵活,同时也鼓励研究人员开发新的标准,通过管理确保文件和元数据的有效性。放在这个系统上的数据具有很强的可见性,数据内容可以通过人机接口进行索引、搜索和检索。内容可以自由下载,在重用中也没有法律障碍。 至少还有下面三个方面的特性,让Dryad已经为期刊投稿的工作奠定了基础 :1)提供期刊选择在同行评审期间的数据访问权限,数据与相应的出版物进行相互链接,也可在适当的时候链接到类似GenBank等专业数据存储库;2)为数据分配数字对象标识(DOI),使得研究者在数据分享总获得专业信誉;(3)发表文章的数据是需要长期保存的,但是投稿者也许在之后的研究中发现数据处理中的问题要进行更正,或者有新的数据需要添加到库中,如何同时更新和维护储存库中的数据文件呢?这显然不是简单地覆盖原始数据文件,因为那些数据集可能被其他文章链接,因此更新数据应提供新版本的数据文件。过时的老版本数据之后转化为常见的文件格式,通过与“受控多备份资源保存”(CLOCKSS)的合作来保证对其内容的访问是无限期的。目前,对DD稿件来说,整合的数据已经可以上传到figshare中,作者在提交稿件时,可将数据保存在这个存储库中。编辑和审稿人将通过figshare网站安全地获得一定权限访问数据文件,当DD论文发表时,数据将被公开。 与其他Nature子刊不同,Nature-SD不是一个发表新结论或假说分析的地方 , 编 辑还会特别要求作者在文中删除所有超出DD要求之外的内容。无疑,这将有助于DD出版能与研究类文章出版并行存在,DD只是研究类文章的补充。当然,作者也可发布还未在其他出版物中出现的数据集(称为独立DD),或者发布在其他杂志 已经 出版的数据集,但需要进行更深入的描述。考虑到潜在的发表和版权冲突问题,现在出版社编辑已经同意, DD的优先出版,并不会影响作者研究类论文的发表,但这些研究类文章应该超越对数据的描述性分析,并需要报道了更重要的科学发现。 公开可用的科学数据分布在众多不同的存储库中,这使得我们在找一些相关数据中碰到了许多麻烦(也就是常说的“数据竖井”的问题)。 DD将提供一个可搜索的出版平台,研究人员可藉此在许多不同的数据存储库中找到高质量的数据集。DD的出版物将与自然出版集团期刊和外部出版商的相关研究出版物连结起来,让科学家更容易在研究发现、丰富的数据描述和实际数据之间轻松驾驭探索的航船。已有的科学数据存储库在定义标准和促进数据共享中发挥着主导作用。对于许多数据类型、模式生物、疾病,或者研究领域来说,都建立了自己的学术团体存储库。特定杂志的数据存储库并非解决开放数据共享的好方案。研究类期刊其实已经在“补充材料”部分存储了各种范围广泛的数据集,这显然比不发布数据要好得多,但大家都认为在这些地方储存原始数据是非常可怕的。即使这些特定的存储库已经有了完善的数据类型,Nature也希望建立figshare和Dryad这两个存储库,并称之为“后备库”,至少有两个方面的好处:(1)其他的一些存储库可能不支持保密的同行评审,(2)其他存储库在维护时无法对外提供服务。其实,之前的自然子刊其实在这方面已经有相对比较好的政策了,这些杂志要求将数据放到标准的完善存储库中。 总之,按照这种策略, DD就是为了在期刊研究类文章和数据存储库之间补充信息。 DD将提供产生重要数据集的详细实验和过程描述,包括可让科学家评估数据技术质量的基本信息、数据再利用的关键方法或分析流程,以及最终重利用数据解决重要的研究问题。在SD上发表的每个出版物将由描述实验关键性能的元数据和结果数据来支持,这些元数据有助于数据挖掘,并将帮助科学家们找到和重用存储在多个数据存储库的高质量数据。 DD最初将关注生命、生物医学和环境科学等领域的数据,可能在适当的时候扩展到更多的学科。 参考资料: Nature 502, 142 (10 October 2013) doi:10.1038/502142a http://nature.com/scientificdata
个人分类: 一起读顶刊|41960 次阅读|18 个评论
大数据时代下科研数据的共享及处理
shawn360 2013-3-27 13:36
1 、大数据、云计算与科研数据 ² 什么是大数据? n 引发大数据热的几个因素(技术成熟、应用推动) n 大数据的特征( 4V 论 VS 周涛论) ² 大数据与云计算的关系 n 一个硬币的两面 n 大数据与云计算的“惺惺相惜” ² 大数据对科研范式的影响 n 微软的预言:第四范式 n 数据密集型科学的三个基本活动 n 大数据与科研数据关系 n 科研数据的困惑 2 、科研数据共享服务实践与挑战 ² 科研数据共享的意义 ² 科研数据共享的价值所在 ² 数据堂的科研数据共享实践 n 科研数据云计算 n 科研机构数据专区 n 科研数据直通车 n 数据挖掘竞赛 3 、科研数据 / 研发数据的处理应用 ² 大数据应用跑到了科研前面 ² 大数据处理一般流程 ² 科研数据处理应用案例 n 图片、视频、语音、文本等非结构化数据的处理 n 应用场景及学科相关 4 、结语 ² 大数据生态环境 ² 不仅仅是进化 报告于2013年3月25日中国科学院国家科学图书馆智慧信息中心
5008 次阅读|0 个评论
增强政府资助科学研究成果的获取-关于科学数据部分的解读
热度 1 tuic 2013-3-19 21:29
2 月 22 日, 科学技术政策办主任执行办公室 2013 年 2 月 22 日发布了题为“ 增强政府资助科学研究成果的获取 ”的文件,其 主任 John Holdren 宣布,凡年度研发支出超过 1 亿美元的所有联邦政府机构,都要在半年内拿出方案,谈谈本部门如何将联邦政府资助的研发项目所产生的科学论文和科学数据在发表后一年内通过机构知识库向公众免费开放( http://www.whitehouse.gov/sites/default/files/microsites/ostp/ostp_public_access_memo_2013.pdf )。 总体来看,美国OSTP通过与政府机构签订备忘录的形式,制定了研发项目成果开放获取的总体原则、目标、执行的大方向,总体感觉是非常明确的将科学数据纳入开放获取中,该备忘录中强调与私人企业的合作,肯定了出版商提供的服务对于保证出版物的质量的重要性,科学数据也需要引入私人企业来来提高数据的可用性和兼容性;科学数据要比科技论文复杂,在实际过程中需要界定其边界,文件中引用了OMB的定义,但还是一个比较抽象的定义,也无法穷尽所有的类型,需要各机构进行重新界定;同时科学数据的开放共享还需要平衡开放获取与知识产权保护以及国家竞争力的关系(出版物中没有提与国家竞争力的关系),在机制上要求制定数据管理计划,对数据进行分门别类,那些可以共享,那些不可以共享,如何共享都需要进行详细说明,其实这种工作并不是很轻松的事情(附件中有DMP的模板可以参考)需要机构做大量的调查、整理工作,但一个明确的数据管理计划将有力的促进共享,这应该是未来科学数据管理过程中的亮点。 该报告中的要点包括: 1. 政策原则:研发项目所产生的成果明确表示包括学术出版物和科学数据,数据的公开产生了许多新的创新活动, 出版商提供有价值的服务,包括协调同行评议,这些服务对于保证许多学术出版物的高质量和完整性是至关重要的。联邦政策为那些没有被联邦政府资助的研究人员提供了有利的机会去传播他们研究的分析报告或成果。 2. 机构公共获取计划:OSTP要求 凡年度研发支出超过1亿美元的所有联邦政府机构在半年内拿出方案,并指出了该计划必须要包含的要点 3. 公众获取科学出版物的目标: 将使用 12 个月后出版禁止期限(一年后通过机构知识库向公众免费开放) ,作为研究论文公开的指导原则。 4. 数字格式的科学数据公共或取的目标:对于本备忘录而言,与 OMB 通告 A-110 一致, 数据被定义为数字记录的事实材料 ,这个概念已经被科学界所接受,必要的时候验证研究成果。数据包括被用来支撑学术出版物的数据集,但是不包括实验室笔记,初步分析,科学论文草稿,未来研究计划,同行评议报告,同行之间的沟通,或者物理实体,比如实验室样本。 科学数据免费获取的同时但一定要保护机密和个人隐私 ,并识别所有人权益,避免对免对知识产权、创新和美国竞争力造成重大的负面影响,并要求机构 制定 数据管理计划(data management plan),在合适的时候,该计划描述了他们怎样提供长期保存,如何获取来自政府资助研究的数字格式的科学数据,或者解释为什么长期保存和获取不合理的原因; 鼓励私人企业合作来改善数据的可获取性和兼容性,并提供科学数据集的合适的署名。 5. 公共获取计划的实施: OSTP 将将通过与机构的会议来监督计划的执行情况。每个机构将 每年两次 提供计划执行的更新内容给 OSTP 和 OMB 的主管;这些更新内容将在机构最终计划有效期两年后每年的 1 月 1 日和 7 月 1 日提交。 6. 总则:本备忘录不应该被解释来损害或者影响一个执行部门、机构或者领导的职权;或者与预算、管理或者立法提案相关的 OMB 主管职能。 将科学数据部分的内容翻译如下, 1. 数字格式的科学数据公共或取的目标 到可行的程度并与使用的法律和政策一致;机构使命;资源限制;美国国家、国土和经济安全;以及以下列出的目标, 数字格式的科学数据,来源于全部或部分由政府资助的非保密科学研究,应该被存储和公共便捷的查询、检索和分析。 对于本备忘录而言,与 OMB 通告 A-110 一致,数据被定义为数字记录的事实材料,这个概念已经被科学界所接受,必要的时候验证研究成果。数据包括被用来支撑学术出版物的数据集,但是不包括实验室笔记,初步分析,科学论文草稿,未来研究计划,同行评议报告,同行之间的沟通,或者物理实体,比如实验室样本。 每个机构的公共获取计划将包括: a) 最大限度的使大众能够免费获取政府资助产生的数字格式的科学数据,当 i) 保护机密和个人隐私 ii) 识别所有权人的利益,商业机密信息,知识产权,避免对知识产权、创新和美国竞争力造成重大的负面影响。 iii) 维持长期保存和获取的相对值和相关的费用和管理责任之间的平衡。 b) 保证所有的获得政府资助和科学研究合同的外部研究人员和内部研究人员,制定数据管理计划,在合适的时候,该计划描述了他们怎样提供长期保存,如何获取来自政府资助研究的数字格式的科学数据,或者解释为什么长期保存和获取不合理的原因; c) 允许包含合适的数据管理费用和使用科学研究的政府资助计划。 d) 保证对提交的数据管理计划的有点的合理评估; e) 包括保证内部和外部研究者遵守数据管理计划和政策的机制; f) 促进数据存储在公共可获取的数据库,在可能的情况下; g) 鼓励与私人部门合作来改善数据的可获取性和兼容性,包括通过与基金会和其他研究资助机构形成公 - 私伙伴关系; h) 开发方法来识别和提供该计划下的科学数据集的合适的署名; i) 与其他部门和私营部门合作来支撑于数据管理、分析、存储、保藏相关的培训、教育和劳动力开发。 j) 提供对特定领域的科学数据长期保藏需求的评估,这些领域的机构支持和提供了开发的维持数字格式科学数据仓库,同时将公共和私有部门的工作考虑在内。
4906 次阅读|1 个评论
科学数据质量实践与若干思考
datasci 2012-9-26 14:30
科学数据质量实践与若干思考
数据质量问题及其研究均时日已久, 在大数据时代来临的当下, 其重要性已经比肩数据资源本身。文章回顾了国际数据质量研究与实践的进展, 重点介绍了中国科学院近年来在科学数据资源建设中提出的科学数据质量框架、科学数据质量成熟度模型、基于QFD的科学数据质量评价方法, 以及所开发的基于专家知识库的科学数据质量软件, 最后对大数据时代科学数据质量的新特点和新问题, 包括数据可信与溯源、数据质量云服务等内容, 进行了初步探讨。 部分内文截图见下,全文获取可见 http://escj.cnic.cn/CN/Y2012/V3/I2/10 》》》》》》 》》》》》》 》》》》》》 》》》》》》 》》》》》》 》》》》》》
个人分类: 数据质量|3762 次阅读|0 个评论
科学数据引用,我们在做
datasci 2012-9-7 17:07
科学数据引用,我们在做
涂勇 先生最近在其博客中连续发了几篇探讨“科学数据引用”的文章,题目分别是: 科学数据引用的基本格式 科学数据引用的推广思路 科学数据引用的对象和要求 总结了科学数据引用相关的很多内容,对这个方面的工作很有积极的意义。 和 涂勇 先生算相识多年的老朋友了,所以在这里呼应一下,也说说我们最近在这个方面的一些所作所为(这个词好像很不恰当哈)。 1.我们所定义的科学数据引用的基本格式与示例 2.科学数据引用的实现支持 如大家探讨的一样,单纯的规范科学数据引用格式等方面的内容,没有实现保证的话,其意义是打折扣的,为此我们在基础科学数据共享网的门户网站(www.nsdc.cn)上嵌入了对该规范实现的支持,主要包括:(1)所有数据集根据规则自动生成引用文字,用户copy后置于参考文献位置即可;(2)在网站上增加对给定URI实现资源定位的解析;如下两图。 实事求是的说,这里是我们开展的一项探索,虽然有了些进步,仍像大海中的一叶孤舟。 其实,就这个方面,还有很多问题值得探讨,这里就不说了,欢迎感兴趣的朋友拍砖出来,共同探讨。
3931 次阅读|0 个评论
科学数据引用的基本格式
热度 1 tuic 2012-8-29 19:34
科学数据引用格式将列出针对各种科学数据都通用的字段信息,通过这些信息来唯一确定该数据,并能够快速地链接和定位,为查询、核查该数据的准确性以及数据与观点的一致性提供一个可靠的渠道。 在描述科学数据的信息过程中,数据的生产者、生产时间、数据及名称、数据发布单位,以及该数据的唯一标识符是满足科学数据引用要求的信息。因此在科学数据的参考格式中应注明这些信息。 科学数据引用的基本格式描述如下: 数据生产者+数据生产时间+数据库(集)名称+数据发布单位+DOI标识码 西南大学(2006):海岛棉,国家自然科技资源e平台,doi:10.3416/db.ninr.2151C0001A00014341 我的合作伙伴中国科学院寒旱所的吴立宗博士根据西部数据中心的特点,对不同类型的科学数据引用进行了深入的探讨: (1)具有自主知识产权的或获得授权进行数据发布的数据,DOI由“西部数据中心”负责编码和注册,数据引用格式是: 数据作者.数据标题,数据发布地:数据发布机构,数据发布时间.doi编码 .加工后的数据标题.数据原始作者.数据原始标题.数据发布地:数据发布机构,数据原始发布时间.数据再分发地:数据再发布单位 ,数据再分发时间.(DOI编码) 车涛,晋锐,吴立宗等 .中国地区被动微SMMR亮度温度数据集.Knowles,K.W.,Eni Njoku,R.L.Armstrong,and M.J.Brodzik.Nimbus-7 SMMR Pathfinder Daily EASE-Grid Brightness Temperatures.Boulder,Colorado USA:National Snow and Ice Data Center.Digital Media,2002.兰州:中国西部环境与生态科学数据中心 .(DOI编码:) 徐祥德等,JICA中日气象灾害合作研究中心项目数据集.北京:中国气象科学研究院灾害天气国家重点实验室,2008.兰州:中国西部环境与生态科学数据中心【分发]. 具体内容可参考我们合作的论文:吴立宗,涂勇等.浅谈科学数据出版中的数字对象唯一标识符 .中国科技资源导刊.2009,42(5):22-29.
11118 次阅读|2 个评论
科学数据引用的推广思路
热度 1 tuic 2012-8-29 19:12
科学数据引用是促进科学数据规范使用的重要手段之一,虽然目前并没有有效地建立这种机制,但是从数据生产者、使用者、管理者和政府的角度进行分析,已经突显其推广价值。 1 )从数据生产者的角度:通过对其数据的引用情况进行标识,可以提高数据的引用程度,提高该机构在国内甚至国际上的知名度和权威地位。 2 )从数据使用者的角度:通过对数据引用情况的标识和说明,能够方便地链接到相关的数据,对结论和数据之间的联系进行核查,是一种很有效的研究手段和途径。 3 )从科学数据共享与管理者的角度:科学数据引用成为科学数据共享管理的重要内容,科学数据有效引用量是衡量科学数据共享效率的重要指标, 4 )从政府的角度看,在数字对象标识技术的基础上,需要不断完善科学数据引用的机制,通过出台鼓励政策,在使用数据的时候倡导一种标识所引用科学数据的习惯,增强科学数据知识产权保护的意识,根据上述参考数据基本格式规范,形成文献(数据)的参考数据体系,同时能通过技术的手段对引用情况进行跟踪和反馈,更有效地提升科学数据的价值,有利于构建科学数据的学术规范和科研诚信体系。 科学数据引用的研究还处在初期阶段,并需要在实践中进行应用和完善,综合考虑可行性和复杂程度的基础上,建议科学数据引用机制可以首先在如下领域中进行推广: 1 )在国家科技基础条件平台中建立科学数据引用的机制,为 863 、 973 等科技计划项目产生的科学数据赋予 DOI 号,将该项目产生的数据的引用情况作为衡量此项目共享情况的重要指标之一,同时在发表与项目相关的科技文献时必须按照科学数据的引用格式注明其参考数据的出处。 2 )在理工科学位论文中建立科学数据引用的机制,选择与科学数据使用密切相关的研究领域作为试点,将标注参考数据信息列入论文写作规范,在自然科学领域涉及到数据分析和应用的学位论文必须标注其所引用的数据,并将其作为论文写作规范与否的一种重要的评价指标,评审者可以通过数据的引用信息方便地链接到原始数据(适用于已共享的数据),并对所引用的数据进行核查,判断所引数据与结论之间的关联和匹配程度。 3 )建立科学数据中心与科技期刊的联盟,在期刊中建立科学数据引用试点,明确规定与科学数据使用密切相关的论文在发表的同时必须标注其参考数据,同时建立畅通的渠道,便于作者在研究过程中产生的有价值的数据或者首次发表的科学数据在相应的科学数据机构进行登记注册,为其赋予唯一标识符,扩大该数据的影响力,方便用户进行检索。
3564 次阅读|1 个评论
科学数据引用的对象和要求
tuic 2012-8-29 19:10
(1) 科学数据引用的对象 科学数据类型比较广,从数据管理的角度上说,其引用的对象包括: 数据库:人们为解决特定的任务,以一定的组织方式存储在一起的相关的数据集合 。 主题 ( 体 ) 数据库:按照特定应用组织起来的数据库,体现了数据库综合性的特点。 专业数据库:通常是主题数据库中的各专业领域数据库。 特色数据库(集):能体现数据中心特色,且数据质量较好的,从事该领域研究必备的数据资源集合。 数据集:由一个或者多个数据记录组成的数据集合。如中国西部环境与生态科学数据中心提供的长时间序列中国植被指数数据集等 数据产品:由原始数据为满足特定需要而加工的产品。如遥感数据中的 0-4 级数据产品。 数据记录:科学数据组织的最小单元,通常以一条记录来描述事物的特征,如自然科技资源数据。 (2) 科学数据引用的基本要求 根据科学数据特点,科学数据引用的基本要求主要包括: 1 )明确数据归属:应标明所引用科学数据的发布单位、时间等信息 2 )提供数据来源:标明所使用的数据来自于那个数据库,采用规范的数据集名称。 3 )数据真实准确:保证所引用的数据与发表成果(论点)匹配,其数据真实准确。 4 )数据权威性:最好引用具有权威性的数据,如国内该行业权威机构产生的数据,提高科研成果的可信程度。 5 )重视科学性:应选择具有科学研究性质的数据进行引用,这样才能体现数据的价值。
3310 次阅读|0 个评论
科学数据的出版
tuic 2012-8-29 18:50
对科学数据进行发表和引用并非新生事物,在化学、生物和晶体结构领域,很多期刊都要求在论文正式发表前必须将有关的数据公开发表。如在生物领域,很多期刊都要求作者在文章 正式发表前,将基因序列数据注册到 GenBank 数据库中,同时要求文章在引用相关数据时,提供该数据在 GenBank 数据库中的登录号 。 科学数据是一种研究资源,与学术论文和专利处于同等重要的战略位置,但长期以来,科学数据仅作为“原材料”来使用,没有形成完善的引用和评价机制,无法对其进行使用评价,且无法作为独立的科技信息资源进行追踪和统计,数据生产者、分发者和服务人员的权益得不到有效的保障, 极大地影响了科学家和数据生产单位开展数据共享的积极性。 科学数据出版将有助于作者对科学数据资源进行引用,出版商能进行链接,能够在发布系统中进行集成,图书馆员能够进行科学数据资源的编目,同时科学数据资源也能对其进行产出分析等,因此只有对科学数据进行出版,使其纳入正式的出版物体系,为科研人员及管理人员提供标准、经过认证的数据资源。 为科学数据资源赋予数字对象唯一标识( DOI )是进行科学数据出版的基础,只有对每一个数据对象进行唯一识别,才能有效的对其产权信息、质量信息进行认证, 有助于形成科学数据领域的评价体系。今后数据中心一部分职能将转向优质科学数据资源的出版,能否被这些数据中心收录成为数据质量的重要衡量指标之一。
3137 次阅读|0 个评论
科学数据的唯一标识和引用
tuic 2012-8-29 18:43
互联网环境下的科学数据存储地址也经常发生变更,也导致很难通过文献中提供的标识信息追溯数据被引用时的原始状态,因此需要一种技术来对数据的地址进行永久性的保存,只有这样对数据本身的引用才具有参考价值。数字对象唯一标识符( DOI )的出现为数字对象的永久保存和唯一标识提供了技术支持,可以用来实现对科学数据本身的引用。 DOI 在科学数据领域中的核心价值主要包括链接价值和引用价值。链接价值主要包括: DOI 是一种国际化的标识体系,有利于通过 DOI 技术建立资源间的国际化链接。科学数据 DOI 最大的价值在于建立了开放式参考数据链接系统,实现数据库 ( 集 ) 之间(或数据与文献之间)交叉参考链接(包括前向链接和后向链接)。科学数据 DOI 标识促进了数据生产者的数据流量,扩大了该科学数据集的影响面,进一步提高了数据的权威性。通过数据的引用链接,能对相关联的信息进行回溯,从而提供了获取和核查数据的可能性,这是良好科学工作的一个部分(科学理论、假设、科学结论等),能将结论与数据进行匹配,为学术成果审查提供一种渠道。引用价值包括: DOI 标识促进了科学数据的引用,通过进行科学数据引用统计得出的科学数据被引频率,是衡量科学数据价值的指标之一。通过 DOI 能形成数据引用的标准,以后在发表的文章后不仅要标注所参考的文献标识,同时也要标识所引用的科学数据。 2007 年 3 月,中国科学技术信息研究所经 IDF 授权成为中文信息资源领域 DOI 的注册代理机构,主要应用领域包括中国科技期刊链接服务和科学数据资源的管理。目前该中心已注册 92 万篇期刊论文, 1.5 万个数据集,注册量居世界第二位。 中文 DOI 注册中心联合中国科学院寒区旱区环境与工程研究所(西部数据中心)在科学数据 DOI 领域进行了有效的尝试,共同制定了西部数据中心 DOI 的命名规则,制定了该数据集的标准引用格式,并在其数据网站上建议用户进行使用,将有 207 个黑河遥感实验的数据在中文 DOI 平台上进行注册,用户可以 IDF 机构的任意节点进行查询和检索 。 DOI 命名:为该数据中心申请了独立的前缀 10.3972 ,在后缀部分用 water973 标识资助项目的名称, xxxx 为流水账号, ds 表示数据集 dataset (为了区别 database ),文档则用 doc 表示,元数据用 met 表示。 doi:10.3972/water973.xxxx.ds 数据的引用格式: 作者 ,数据标题, 数据发表单位 , 发布时间 , DOI. 从这种引文格式上看,主要体现的是作者和数据标题信息,避免了诸如课题信息,数据采集单位,数据发布单位等的信息,突出了重点,避免了信息过多产生的混淆。 盖迎春 , 舒乐乐 , 夏传福 , 周梦维 . 黑河综合遥感联合试验 : 盈科绿洲荒漠站机载激光雷达与 ASAR 传感器同步观测数据集 (2008 年 6 月 19 日 ), 中国西部环境与生态科学数据中心 ,2008.doi:10.3972/water973.xxxx.ds
3807 次阅读|0 个评论
Google时代的科学数据问题
热度 24 book 2012-2-23 13:14
Google 时代,或者叫搜索时代。在人人都搜索的时代,做研究当然也离不开 Google 。 没有做过调查统计,但好像中国的小学生中学生甚至大学生用百度搜索的会更多。记得有一次,看北京市中学生科技论文,论文中的很多引用来源都是百度百科。在大街上很多时候都能听见说,“百度一下嘛”。但我向来是说“ Google 一下嘛”。 找学习资料, Google ;找最新文献, Google ;找导师, Google ;找同行, Google ;懒得收藏网址, Google ;不管遇到啥问题,都来 Google 。前几天在 Powell's City of Books 看见一本书,名字叫《 Whoogles: Can a Dog Make a Woman Pregnant - And Hundreds of Other Searches That Make You Ask "Who Would Google That?" 》。大家确实不管什么问题都去 Google 。 说实话,在平时工作中,没有 Google ,我会觉得心里不踏实。所以国内很多时候连不上 Google ,总是忍不住骂几句。 但实际上,搜索时代一个很重要的问题是:(你所检索到的) 数据信息质量如何? 举一个专业相关的例子。有时候我们需要检索一个物种名,用 Google 检索之后会发现有很多条记录,前面几条最相关的记录往往来自一些物种名目数据库。比如,网页 A 指向维基百科,网页 B 指向一个欧洲的数据库,网页 C 指向生命之树( Tree of Life web project )网站,网页 D 指向生命大百科全书( Encyclopedia of Life ),网页 E 指向 Species2000 的全球物种名录( Catalogue of Life ),网页 F 指向一个由科学家个人时时更新的某个生物类群的物种名录数据库。 物种名字由分类学家所确定,并且随着时间随着对某个生物类群更多证据的了解,这些名字可能发生变化,比如原来的物种名 1 现在可能叫物种名 2 。所以要搞清楚一个物种的名字,很有必要了解其修订的历史。对于上面的例子,会发现维基百科( A )的参考文献是那个欧洲的数据库( B ),而欧洲数据库的参考文献是生命之树网站( C );生命大百科全书的网页( D )的参考文献是全球物种名录( E ),而全球物种名录的信息来源,指向那个科学家管理的网站( F )。经过分析,你还会发现生命之树网站上那个 1995 年创建的网页上面的物种名现在已经不成立了,因此 A 、 B 、 C 三处的信息应该过时了;并且你发现虽然生命大百科全书网页( D )物种名字信息正确,但其他相关信息显然没有更新,而最新的信息,体现在网站 F ,因为它是科学家时时更新的网站。对于上面的例子,如果把信息的有效性排序,应该是: A B C D E F 。 问题是,如果你只是信息的需求者,不是专门的分类学家,则很难去追踪物种名字的修订历史,有时候难免会使用了并没有及时更新的或者错误的信息(比如你引用了 A 、 B 、 C )。这只是一个例子,这样的例子在使用网络检索时很多很多。对于普通大众来说,如何来判断所检索到的信息的准确性呢。在 Google 时代,这确实是个挺大的问题。本来还想举一个我们国家的例子,想想还是算了,我们国家的很多数据库根本就进不去,一点击,告诉你“找不到文件”、“网页无法打开”。 对于与科学有关的数据库来说,我觉得至少应该做到的两点:一定要保持更新;二手三手的数据库一定要给信息使用者提供最直接的引用或者说数据来源(比如上面例子中的 F )。这样做一方面尊重原始的信息所有权,一方面减少二手三手甚至 N 手信息的传播。对于非原始信息使用者或传播者来说,也要尽量引用最原始的数据来源(但不知道多少能做到)。
个人分类: 科学那些事儿|8892 次阅读|47 个评论
何为科学数据?
热度 2 libseeker 2011-9-15 12:07
《中国图书馆学报》2011年第5期两篇文章涉及一个新概念——科学数据(Digital research data)。作者分别为张晓林和李晓辉。根据阅读两篇文献的参考文献,笔者认为这是一个引进的新概念,更加赞同翻译为“科学数据”。何为科学数据? 张文在论述“教育科研信息的内容形态变化”时提及科学数据:科学数据的数字化、网络化组织利用正在高速发展。数据(包括各种数值型、事实型和文字型数据)一直是科学研究的基础产出,是科学出版的重要内容(包括嵌入到论文、专著中的复杂数据),是科学研究与教育的基本信息资源。” 李文中篇名有科研数据,“科研数据管理与服务内涵”中有科研数据的定义:“科研数据(Research Data)是指数字形式的研究数据,包括在研究过程中产生的能存贮在计算机上的任何数据,也包括能转换成数字形式的非数字形式的数据。如传感器读取的数据、遥感勘测数据、调研结果、神经图像、实验数据及来自测试模型的仿真数据等。格式有文本的、数值型的、多媒体的、也包括模型和软件等。有效的科研数据管理具有保护数据免于丢失、提高数据曝光度,传播和出版成果、实现数据共享、对科学质疑公开、鼓励观点的多样性、节约科研成本、完成研究资助方的要求等诸多意义。” 李文定义的参考文献已不能访问,但可以访问其上级链接及相关文档(ANU DM Manual (PDF) )。ANU(The Australian National University)的定义是:“Digital Research Data is not just numbers stored in spreadsheets, but virtually anything that can be stored on a computer. For example: digital photographs, video, survey results, documentation, etcetera. All researchers have digital data. At the least, a researcher will have their publications and electronic copies of academic articles.”(图谋译:科学数据不是只是存储在电子表格中的数字,而是几乎任何可以存储在计算机里的信息。比如:数码照片、视频、调查结果、文档等等。所有研究人员均有数字数据。任何一个研究人员最起码拥有他自己的出版物及学术论文的电子稿。) 笔者认为“科学数据”与“机构库(Institutional Repository)”有密切的关联,而且似乎是一种颠覆式发展,属于“破坏性技术(Discruptive Technologies)”范畴。而且“科学数据”的理论与实践并非坦途,单单是对概念的认识与把握,可能同“机构库”一样没有统一的定义,甚至没有统一的“称谓”。即便如此,“科学数据”会是一个研究热点,是值得包括图书馆界内的社会各界研究与关注的。 参考文献 : 张晓林.颠覆数字图书馆的大趋势.中国图书馆学报,2011(5):4-12 李晓辉.图书馆科研数据管理与服务模式探讨.中国图书馆学报,2011(5):46-52 http://ilp.anu.edu.au/dm/ 相关资料 : 美国的科学数据网 http://www.data.gov/ 英国的科研与教育数据服务网 http://www.jisc.ac.uk/whatwedo/topics/dataservices.aspx Harvard-MIT Data center http://hmdc.harvard.edu/ ANU data management manual:Managing digital research data at the Australian National University. http://ilp.anu.edu.au/dm/ANU_DM_Manual_v10.09.17-63_2010-09-17.pdf Digital Research Data (Digital Research Data is not just numbers stored in spreadsheets, but virtually anything that can be stored on a computer. For example: digital photographs, video, survey results, documentation, etcetera. All researchers have digital data. At the least, a researcher will have their publications and electronic copies of academic articles.) Throughout this document, ‘data’ will refer to digital research data. Digital research data is any data that is created during research that can be stored on a computer. This includes field notes, analog recordings, and non-digital images as they can be converted to digital images. Physical data such as biological specimens, soil samples etc. are not considered. Digital research data can additionally include: ? Numerical data: instrument measurements, survey responses. ? Documentation: Publications, experimental methods, field notes, analytical methods, technical reports, dataset descriptions. ? Digital Images: photographs, diagrams, graphs. ? Digital Audio: Sound data, interviews, wildlife recordings, language recordings. ? Digital Video: High-speed recordings, interviews. ? Configuration Data: Configuration and optimization settings for simulation and in-silico experimentation.
个人分类: 学海泛舟|6014 次阅读|2 个评论
认识HDF
bluewind23 2010-12-27 09:58
HDF是用于存储和分发科学数据的一种自我描述、多对象文件格式。HDF是由美国国家超级计算应用中心(NCSA)创建的,以满足不同群体的科学家在不同工程项目领域之需要。HDF可以表示出科学数据存储和分布的许多必要条件。HDF被设计为: 自述性:对于一个HDF文件里的每一个数据对象,有关于该数据的综合信息(元数据)。在没有任何外部信息的情况下,HDF允许应用程序解释HDF文件的结构和内容。 通用性:许多数据类型都可以被嵌入在一个HDF文件里。例如,通过使用合适的HDF数据结构,符号、数字和图形数据可以同时存储在一个HDF文件里。 灵活性:HDF允许用户把相关的数据对象组合在一起,放到一个分层结构中,向数据对象添加描述和标签。它还允许用户把科学数据放到多个HDF文件里。 扩展性:HDF极易容纳将来新增加的数据模式,容易与其他标准格式兼容。 跨平台性:HDF是一个与平台无关的文件格式。HDF文件无需任何转换就可以在不同平台上使用。 HDF提供6种基本数据类型:光栅图像(RasterImage),调色板(Palette),科学数据集(ScientificDataSet),注解(Annotation),虚拟数据(Vdata)和虚拟组(Vgroup)。 RasterImage数据模型被设计成能为光栅图像数据的存储和描述提供一个灵活的方法,包括8比特和24比特光栅图像。 Palette作为颜色查找表提供图像的色谱。它是一个表格,其表中每列的数字表示特定颜色的数字。 ScientificDataSet模型是用来存储和描述科学数据的多维数组。 Vdata模式是用来存储和描述数据表格的结构。 HDF的Annotations是文本字符串,用来描述HDF文件,或HDF文件包含的HDF数据对象。 Vgroup结构模型被设计为与相关数据对象有关。一个Vgroup可以包含另一个Vgroup以及数据对象。任何HDF对象都可以包含在一个Vgroup中。 HDF库为每一个数据模型提供一个应用编程接口。 最好的办法是把HDF文件看成为一本有表格内容的多章节书。HDF文件是“数据书”,其中每章都包含一个不同类型的数据内容。正如书籍用一个目录表列出它的章节一样,HDF文件用“dataindex”(数据索引)列出其数据内容。 HDF文件结构包括一个fileid(文件号)、至少一个datadescriptor(数据描述符)、没有或多个dataelement(数据内容)数据内容。 fileid(文件号)是一个32比特的值,最多占用HDF文件的头4个字节。通过读取这个值,应用程序就知道此文件是否是一个HDF文件。 Datadescriptorblock(数据描述符块)包含一个数据描述符数值。所有的数据描述符都是12字节长,包含4个域,即一个16比特长的标签,一个16比特的引用字,一个32比特的数据偏移量和一个32比特的数据长度。 tag(标记)是数据描述符域,表示存于相应数据内容的数据类型。例如306是光栅图像对象的识别符。 Referencenumber(引用号)是一个16比特无符号整型数。HDF文件中的每一个对象,由HDF库和数据描述符中的标签确定一个唯一的引用字。在引用字确定的数据对象期间,标签和引用字不能改变。标签和引用字的结合可以唯一确定文件中对应的数据对象。 引用字没有必要连续指定,因此,在一个具有相同标签区分对象的方法后,不能假设引用字的值有任何意义。有时应用程序员也会发现在他们的程序中把一些另外的信息加到引用字中是很方便的,但必须强调的是,HDF库本身并不识别这些含义。 Dataoffsetfield(数据偏移量)是一个32比特无符号整型字。通过存储文件开始时的字节数和数据内容开始时的字节数,指明文件中数据内容的位置。 Lengthfield(长度域)是一个32比特无符号整型字。它表示整个数据内容的字节大小。数据内容增加,其长度也要增加。 Dataelement(数据成分)是数据对象的原始数据部分,包含每个象素的值。 HDF5被设计为改善HDF4的一些局限性。HDF4的某些局限性有:单个文件不能存放多于20000个对象,单个文件大小也不能大于2G字节。数据模式的兼容性不够好,有过多的对象类型,数据类型太严格。库函数过时和过于复杂,不能有效地支持并行口的I/O,很难用于线程应用中。 HDF5包含如下的改进: 被设计为一种新的格式用来改进HDF4.x,特别是每个文件可以存储更大的文件和更多的对象。 数据模式更简洁、更全面,它包含两个基本结构:多维数组记录结构,和分组结构。 更简洁、更利于工程库和应用编程接口,支持并行I/O,线程和其他一些现代系统和应用要求。 HDF文件的3层交互 HDF文件可以在几个交互层次中可视。在最底层,HDF是一个存储科学数据的物理文件格式。在它的最高层,HDF是集工具和应用于一体的数据文件,可以对HDF文件中的数据进行修改、显示和分析。在这两个层次之间,HDF是一个能提供高层和底层编程接口的软件库。 基本接口层,或称为底层的应用编程接口(API),是为软件开发者保留的。它是为数据流的直接文件I/O、错误处理、内存管理和物理存储而设计的。它是一个为有经验的HDF程序员提供的软件工具。比较目前从高层接口得到的功能,通过使用这些基本接口层,HDF程序员创建HDF文件时能够做更多的事。底层接口例程只提供C语言。 HDFAPIs(HDF应用编程接口)分为两类:多文档接口(用于新版本)和单文档接口(用于旧版本)。多文档接口是提供从一个应用中同时连接几个HDF文件的接口,这点很重要,但单文档接口并不支持这点。用户在开发新的接口和界面时,必须提醒他们是在一个改进了的新接口版本下开发的。为了向上兼容,旧版本仍然保留。 HDFAPIs包含几个独立的例程集,每个例程集是专门为简化一种数据类型的存储处理而设计的。这些接口作为单文件和多文件层。尽管每个接口都要求程序调用,但所有底层细节都可以忽略。大多数情况下,只须在正确的时间调用正确的函数,剩下的事就由接口程序处理。多数HDF接口例程都有FORTRAN-77和C语言。也有用于Java程序员访问HDF文件的JavaHDF接口程序。
个人分类: 高性能服务|6775 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 14:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部