博文

网络数据的归档问题精选

已有 12527 次阅读 2014-2-22 21:02 |个人分类:图书情报|系统分类:论文交流|关键词:学者

超过十年科研经历的人，都经历过痛苦的个人数据归档问题。从1998年开始至今，我（只指我自己一个人）用坏过2台台式机，3台笔记本，现在正在使用的有一台笔记本，两台一体机，一个IPAD，一部智能手机。在这期间，还用坏了多张三寸软盘，2个移动硬盘，数不清的U盘，一台打印机。那些下载的文献、收集的调查数据、发表的文章与书稿、还有数不清的草稿版本、拍摄的照片都还躺在一些旧的移动硬盘、光盘、U盘里，它们在哪里呀？它们还可读吗？

以前习惯于把资料都下在电脑里，结果发现下在电脑里既不方便移动使用，也不方便搜索。信息越来越多，记性越来越不好，根本记不清放在哪个文件夹里了。然后放在移动硬盘里，可以随时带走，但忽然有一天发现它读不了了，于是又转到电脑里，如此反复，最终是有些数据被遗忘了，有些被丢失了。

终于云时代来临了，把数据放在科学网上，竟然是一个好办法。已经在科学网注册整整五年了，它还在，那些数据还在，查找起来还不算麻烦，只可惜把大量中间数据放在网上还是不妥。甚至10年前放在中国经济网上的东西，也还静静地在那里。也许更进一步，根本不需要把资料下载到本地机上，用时直接到数据库里找就好了吧。但是谁能保证网络一直稳定呢？

个人研究数据的归档，既需要时间，又需要空间，还要面临格式过时、软件升级、介质老化、记忆力下降等诸多问题。怎么放才能更好呢？

而放在网络上的文章，写在科学网的博客，它们在10年、20年之后还在这里吗？会成为一代又一代科学家的集体记忆吗？会成为未来的科学家、文学家了解今天的科学家们科研工作与生存状态的一手资料吗？毕竟，网络数据正在呈指数增长，那么多的数据需要多大的数据中心呢？要费多少电呢？因为这个原因，GOOGLE、百度的数据中心都迁徙到了发电成本最低的地方。

网络数据的归档问题

王芳史海燕

互联网已经成为最重要的信息汇聚地与发散地。与此同时，网络信息届成为人类社会历史文化风貌的重要记录形式和宝贵的社会历史文化遗产。然而网络信息具有海量、异构、分布式管理、容易消失等特点，一旦消失将难以复原，可能给组织或社会信息资源的长久保存和历史传承造成难以挽回的损失。因此，探索网络信息资源的归档与保存策略，以满足当代及未来人们访问和使用的需求成为信息资源管理研究的迫切任务。目前，世界许多国家的政府、档案馆和图书馆都在积极进行网络信息资源归档保存的理论研究和实践探索，相关成果主要集中在Web Archive领域。

WebArchive（简称WA）在国内有多种翻译方法，如网络信息资源保存^[1]、网页信息存档^[2]、网页档案馆^[3]、网络信息档案馆^[4]等。这些翻译基本可以分为两类：一类侧重于归档保存的活动或行为，一类侧重于归档保存所形成的虚拟实体。相应地，对于WA的理解也可以划分为两类，一类认为WA是指有关主体有选择性地对具有长远保存价值的网络信息进行捕获、归档、存储等档案化管理的过程，其基本目标是通过网络信息资源的存档，更全面真实地反映和再现社会活动的本来面貌，并满足相关主体对网络信息的长远利用需求^[5]。这一观点是将WA作为归档保存活动或行为的典型代表；另一类则认为WA是建立在现代信息技术基础上，利用网络信息采集、整合、保存、发布等技术对网络信息资源进行管理，并通过网络存取的超大规模、分布式数字信息系统^[4]。“Archive”的含义包括存档（动词）、档案馆（名词），而存档这一过程国外通常采用“Archiving”^[6]。目前WA所关注的归档保存对象主要是是Web（万维网，主要采用HTTP协议）空间中的内容，如网站、网页以及从网站或网页中抽取的内容，对于其他网络应用形式（如FTP、Telnet）所承载的信息均较少涉及。

国外Web Archive的实践已有十多年的历史，涌现出了各类WA项目，如国家层面的PANDORA（澳大利亚国家图书馆）、联盟形式的互联网档案馆（Internet Archive，IA）、项目形式的“处于风险中的网络”（Web at Risk）等^[1]。Web Archive的研究和实践吸引了众多参与者，包括国家级的图书馆、档案馆、大学图书馆和研究机构、商业机构等，此外还创建了诸如国际互联网保存联盟（IIPC，the International Internet Preservation Consortium）一类的组织。

（1）国际互联网保存联盟（International Internet Preservation Consortium，IIPC，http://netpreserve.org/）。IIPC始建于2003年，是一个致力于推动国际合作与WA广泛访问和利用的成员组织，Internet Archive、InternetMemory、PANDORA、UK Web Archive、美国国会图书馆的WA等都是其成员。IIPC致力于改善网络归档的工具、标准和最佳实践，发展至今，已经推出WARC存档标准、Heritrix爬虫和WARC分析工具等，在网络信息归档保存实践中发挥着重要作用。

（2）Internet Archive（简称IA，互联网档案馆，http://archive.org/）。IA创建于1996年，其创建的目的是构建一个互联网图书馆，为研究人员、历史学家、学者、残疾人和普通大众提供永久访问。1999年，IA扩展了其信息采集的范围，目前的资源包括文本、音频、活动影像、软件以及存档的网页，其中网页的数量已超过20亿个。对于存档的网页，IA提供了回放机制（Wayback Machine），输入网页的URL地址，可以访问该网页由IA存档的不同时间点的历史页面。IA与美国国会图书馆合作开展了K12网络归档项目（K12 Web ArchivingProgram），该项目允许美国国内3至12年级的学生为未来的人们选择和保存网页。此外，IA提供了一项Archive-It的服务，允许机构构建和保存其数字内容，服务使用者可以采集、编目和存档其数字内容，并可进行查询和浏览。所有存档内容位于IA的数字中心，公众可进行全文查询访问。

（3）中国国家图书馆的WICP与“中国Web信息博物馆”。在全球网络信息归档保存研究与实践不断推进的背景下，中国国家图书馆于2003年初组成网络文献收集与保存试验小组，开始网络信息资源采集与保存试验项目（Web InformationCollection and Preservation，WICP)。WICP最初采集的对象为政府网站100家、电子期刊网站100家、大学网站100家、企业网站100家、其他（门户网站、媒体网站——报纸、电台、电视台网站等）100家，收集对象由人工确定，由网络机器人完成自动采集。“中国Web信息博物馆”是在国家973和985项目支持下，由北京大学网络实验室开发建设的中国网页历史信息存储与展示系统，用户可通过其网站（http://www.infomall.cn/）访问已存档的资源，网站上提供的服务包括网页回放、事件搜索和数据分享。网页回放类似于Wayback Machine，事件搜索是检索“中国Web信息博物馆”按专题整理的资源集合，如2008年北京奥运会和2010年上海世博会，数据共享是提供给科研人员的API接口，向科研人员提供研究用的数据集合。

本文前两段节选自“王芳,史海燕.国外Web Archive研究与实践进展.中国图书馆学报,2013,3,39(204):49-59.”

转载本文请联系原作者获取授权，同时请注明本文来自王芳科学网博客。
链接地址：https://m.sciencenet.cn/blog-38036-769990.html

上一篇：La vie en rose
下一篇：基于价值焦点思考的电子政府项目评价

收藏分享

思想的田园分享 http://blog.sciencenet.cn/u/wangfangnk

博文

网络数据的归档问题精选

该博文允许注册用户评论请点击登录评论 (55 个评论)

王芳

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

思想的田园分享 http://blog.sciencenet.cn/u/wangfangnk

博文

网络数据的归档问题 精选

该博文允许注册用户评论 请点击登录 评论 (55 个评论)

王芳

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

网络数据的归档问题精选

该博文允许注册用户评论请点击登录评论 (55 个评论)