科学网

 找回密码
  注册

tag 标签: 开放数据

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

如何用 Python 和 Pandas 分析犯罪记录开放数据?
wshuyi 2019-3-6 11:38
从开放数据中,你可以了解一个城市或者社区是否安全,并合理避险。 开放 3月2日,应主办方 TechMill 的邀请,我参加了在达拉斯公共图书馆举行的“达拉斯-沃斯堡开放数据日”(DFW Open Data Day)。 为了鼓励我 INFO 5731 课程的学生们积极参加这项活动,我还制定了加分政策。 不过因为加分策略偏于保守,来的学生没有预期那么多。 利用 NCTCOG 提供的新 Waze 数据,我改进了之前在 HackNTX 2018 做的深度学习模型,取得了不小的进展。 对我而言,另一项收获,是参加了这次活动的主题报告。 报告人是 Richard ,他给参会的部分人员讲解了开放数据的定义、用途和使用方法。 虽然从2013年开始,我就在课程中为学生们讲解开放数据。但是从他的报告中,我依然收获了很多东西。 例如说,美国联邦政府和地方当局为什么要在网站上开放这么多数据? 要知道,一旦数据开放出来,普通人是可以对数据进行组织、包装和再分发,甚至是可以赚取经济利益的。 Richard 告诉我们,如果许多人都要求提供某一项数据,公务人员就有很大的动力把数据直接发布出来。因为这样,可以避免数据请求的巨大压力。 我把 Richard 的报告幻灯放在了“延伸阅读”模块里。如果你感兴趣,可以在读过本文后访问浏览。 Richard 还当场带领大家,以 Denton 市的犯罪记录开放数据为例,用 Excel 加以分析。 虽然“犯罪记录”听上去很让人不安。但是这种数据的公开,可以让大众了解到某个城市或者地区的治安情况。对于人们择业、选房、投资,甚至是日常出行和活动等决策,都可以提供辅助参考。 从这个讲座中,我收获良多。 本文,我借鉴 Richard 的分析思路,换成用 Python 和数据分析包 Pandas 对该数据集进行分析和可视化。希望通过这个例子,让你了解开放数据的获取、整理、分析和可视化。 希望你举一反三,把这种能力,应用到更多的数据集上,获得对数据的洞见。 数据 首先,访问 Denton 开放数据主页,地址是 http://data.cityofdenton.com/ 。 首页就有搜索栏,我们可以输入“crime”(犯罪)进行查询。 这是返回的搜索结果。 结果不仅包含数据名称,还有数据类型。第一条是 csv 格式,最符合我们分析的需求,因此我们点击第一项链接。 在这个页面,我们点击右侧蓝色“explore”旁边的下拉按钮,可以看到“预览”和“下载”选项。我们可以直接下载数据集。但此处请你复制下载链接,放到笔记软件或者编辑器里面,备用。 环境 本文的配套源代码,我放在了 Github 项目中。请你点击 这个链接 ( http://t.cn/EIKS05O )访问。 如果你对我的教程满意,欢迎在页面右上方的 Star 上点击一下,帮我加一颗星。谢谢! 注意这个页面的中央,有个按钮,写着“在 Colab 打开”(Open in Colab)。请你点击它。 然后,Google Colab 就会自动开启。 Colab 为你提供了全套的运行环境。你只需要依次执行代码,就可以复现本教程的运行结果了。 如果你对 Google Colab 不熟悉,没关系。我 这里有一篇教程 ,专门讲解 Google Colab 的特点与使用方式。 为了你能够更为深入地学习与了解代码,我建议你在 Google Colab 中开启一个全新的 Notebook ,并且根据下文,依次输入代码并运行。在此过程中,充分理解代码的含义。 这种看似笨拙的方式,其实是学习的 有效路径 。 代码 首先,将我们前面获取到的数据下载地址,存入到 url 变量中。 url= http://data.cityofdenton.com/dataset/17695047-0aeb-46a2-a9db-66847743ed1c/resource/d356a409-6764-46d7-942d-4d5a7ffb1c28/download/crime_data_20190301.csv 然后,利用 wget 命令,把 csv 格式的数据下载到本地。 !wget{url} crime_data_20190301 100 % 9.22 M 8.22 MB/s in 1.1 s 2019 -03 -04 02 : 31 : 39 ( 8.22 MB/s)-‘crime_data_20190301.csv’saved 读入 Pandas 软件包。 import pandas as pd 用 Pandas 的 csv 数据格式读取功能,把数据读入,并且存入到 df 变量里面。 df=pd.read_csv( 'crime_data_20190301.csv' ) 让我们看看 df 的前几行。 df.head() 好的,数据已经成功读取。 下面我们来着重分析一下,都有哪些犯罪类型,每种类型下,又有多少记录。 这里我们使用的是 Pandas 中的 value_counts 函数。它可以帮助我们自动统计某一列中不同类别出现的次数,而且还自动进行排序。为了显示的方便,我们只要求展示前10项内容。 df.crime.value_counts().iloc 看来, Denton 最主要的犯罪类型,是“轻微人身攻击”(Simple Assault)。“酒醉”(Drunkenness)的次数也不少,排名第三位。 为了更直观查看数据统计结果,我们调用 Pandas 内置的绘图函数 plot ,并且指定绘图类型为“横向条状图”(barh)。 df.crime.value_counts().iloc .sort_values().plot(kind= 'barh' ) 这样看起来,一目了然。 下面,我们着重了解某一种犯罪的情况。因为犯罪类型五花八门,所以我们从中选择一种严重的暴力犯罪——抢劫(Robbery)。 这里,为了后续分析的便利。我们首先把抢劫类型的犯罪单独提炼出来,存储在 robbery 这样一个新的数据框里。 robbery=df ;robbery.head() 我们来看看 robbery 数据框的大小。 robbery.shape (660,6) 一共是660条记录,每条记录有6列。 我们查看一下“犯罪位置”(locname)类型,以及每种类型对应的记录条目数。 这次,我们使用 groupby 函数,先把犯罪位置进行分类,然后用 size 函数来查看条目统计。 这里,我们指定排序为从大到小。 robbery.groupby( 'locname' ).size().sort_values(ascending= False ) 作为练习,希望你可以用 value_counts 函数,自己改写上面的语句。 根据结果显示,入室抢劫次数最多,在学校、公交车上发生的次数最少。 下面还是用 plot 函数,把结果可视化呈现。 robbery.groupby( 'locname' ).size().sort_values(ascending= False ).head( 10 ).sort_values().plot(kind= 'barh' ) 下一步,我们尝试把分析的粒度做得更加细致——研究一下,哪些街区比较危险。 回顾上图中,地址信息都表示为类似“19XX BRINKER RD”这样的方式。把具体地址的后两位隐藏,是为了保护受害者的隐私。 我们如果要统计某一条街道的犯罪数量,就需要把前面的数字忽略,并且按照街道名称加总。 这个处理起来,并不困难,只要用正则表达式即可。 regex= r\\d+XX\\s(?Pstreet.*) subst= \\\\gstreet 这里,我们用括号把需要保留的内容,赋值为 street 分组。然后替换的时候,只保留这个分组的信息。于是前面的具体地址数字就忽略了。 调用 Pandas 的 str.replace 函数,我们可以让它自动将每一个地址都进行解析替换,并且把结果存入到了一个新的列名称,即 street 。 robbery =robbery.publicadress.str.replace(regex,subst) 看看此时新的 robbery 数据框样子。 robbery.head() 注意最后多出来的一列,确实已经变成了我们希望转换的形式。 依然按照前面的方法,我们分组统计每一条街道上的犯罪数量,并且进行排序。 robbery.groupby( 'street' ).size().sort_values(ascending= False ).head( 10 ) 看来,大学西道(W University DR)抢劫频发,没事儿最好少去瞎转悠。我住的街道还好,没有出现在前10名的范畴。 注意,我们其实是在分析10年的犯罪信息汇总。如果更进一步,想要利用时间数据,进行切分,我们就得把日期信息做一下转换处理。 这里,请你安装一个特别好用的时间分析软件包 python-dateutil 。我第一次使用的时候,立即决定弃用 datetime 包了。 !pipinstallpython-dateutil 我们从 dateutil 里面的 parser 模块,载入全部内容。 from dateutil.parser import * 下面,我们抽取年度信息。因为目前的日期时间列(incidentdatetime)是个字符串,因此我们可以直接用 parse 函数解析它,并且抽取其中的年份(year)项。 robbery =robbery.incidentdatetime.apply( lambda x:parse(x).year) 以此类推,我们抽取“月”和“小时”的信息。 robbery =robbery.incidentdatetime.apply( lambda x:parse(x).month) robbery =robbery.incidentdatetime.apply( lambda x:parse(x).hour) 好了,来看看此时的 robbery 数据框。 robbery.head() 注意后三列是我们刚刚生成的。 我们先按照年度来看看抢劫犯罪数量的变化趋势。 robbery.groupby( 'year' ).size() 注意这里,数量最少的是 2019 年。看似是很喜人的变化。可惜我们分析数据的时候,一定要留心这种细节。 我们读取的数据,统计时间截止到 2019 年的 3 月初。因此,2019年数据并不全。 所以,比较稳妥的方法,是干脆去掉所有2019年的条目。 robbery=robbery 去除后,看看此时的 robbery 数据框。 robbery.shape (643,10) 数量没错,恰好少了 17 行。 好了,我们来绘制一下抢劫犯罪数量变化趋势折线图。 Pandas 的 plot 函数,默认状态下,就是绘制折线图。因此我们不需要加入参数。 robbery.groupby( 'year' ).size().plot() 看来,从 2013 到 2016 年的抢劫犯罪形成了一个低谷。近两年的数据,又有上行的趋势。 但是,我们能否就此得出结论,说 Denton 这两年的治安,越来越差了呢? 还不行。 因为考虑犯罪,不能只看绝对数值,还要看相对比例。我这里给你提供一个 数据源 ,请你参考它,进行比例数值计算,修正上面的折线图。 下面,我们比较一下,不同月份之间,是否有明显的抢劫犯罪发生数量差别。 robbery.groupby( 'month' ).size().plot(kind= 'bar' ) 从上图中,可以看到,从 2010 到 2018 年,10月和12月犯罪数量较多,2月和7月相对好一些。 但是,我们可能更加关心近年的情况。因为扔掉了2019年的不完整数据,此时我们能使用的最近年份,是2018. 我们就把2018年的月份犯罪记录统计做可视化。 robbery .groupby( 'month' ).size().plot(kind= 'bar' ) 2018年的10月,犯罪数量相对不算高,但12月看来确实是需要注意安全的。 下面我们来看看,抢劫一般发生在什么时间。这次我们用的,是小时(hour)数据。 robbery.groupby( 'hour' ).size().plot(kind= 'bar' ) 从总体数据看来,每天早上8点,你是不用太担心抢劫的;晚上23点嘛…… 我们再看看2018年的情况。 robbery .groupby( 'hour' ).size().plot(kind= 'bar' ) 8点依然比较安全。但是最危险的时段,变成了晚上8点多。莫非劫匪们也打算早点儿休息? 如果我们更加小心谨慎,还可以根据不同月份,来查看不同时段的抢劫案件发生数量。 这里,我们把 groupby 里面的单一变量,换成一个列表。于是 Pandas 就会按照列表中指定的顺序,先按照月份分组,再按照小时分组。 robbery .groupby( ).size() 但是这样的统计结果,无法直接绘制。我们需要做一个变换。这里用的是 Pandas 中的 unstack 函数,把内侧的分组索引(hour)转换到列上。 robbery .groupby( ).size().unstack( 0 ) 因为许多时间段,本来就没有抢劫案件发生,所以这个表中,出现了许多空值(NaN)。我们根据具体情况,采用0来填充。Pandas 中数据填充的函数是 fillna 。 robbery .groupby( ).size().unstack( 0 ).fillna( 0 ) 好了,这下就可以可视化了。 我们希望绘制的,不是一张图,而是 12 张。分别代表 12 个月。这种图形,有个专门的名称,叫做“分面图”(facet plot)。 Pandas 的 plot 函数有一个非常方便的参数,叫做 subplots ,可以帮助我们轻松达成目标。 每张图,我们依然采用柱状图的方式。因为默认方式绘制的图像,尺寸可能不符合我们的预期。因此我们显式指定图片的长宽。 robbery .groupby( ).size().unstack( 0 ).fillna( 0 ).plot(subplots= True ,kind= 'bar' ,figsize=( 5 , 30 )) 你看了这张图以后,作何感想? 我觉得,每个月份,这张图对于哪个时段最好不要出门,都具备比较高的指导意义。因此……可以当成黄历来使用。 开个玩笑啦,别当真。 如果你对于图像的品质有追求,我建议你学用 Matplotlib 或者 seaborn 来重绘上图。这也作为今天的最后一道练习题,留给你解决。欢迎你把答案用留言的方式和大家分享。 小结 通过本文的学习,希望你已掌握了以下内容: 如何检索、浏览和获取开放数据; 如何用 Python 和 Pandas 做数据分类统计; 如何在 Pandas 中做数据变换,以及缺失值补充; 如何用 Pandas 中的 plot 函数做折线图、柱状图,以及分面图(facet plot)。 祝 Python 编程愉快(和 出入平安 )! 延伸阅读 你可能也会对以下话题感兴趣。点击链接就可以查看。 学 Python ,能提升你的竞争力吗? 如何高效学 Python ? 《文科生数据科学上手指南》分享 Richard 在 DFW Open Data Day 的分享幻灯 喜欢请点赞和打赏。还可以微信关注和置顶我的公众号 “玉树芝兰”(nkwangshuyi) 。 如果你对 Python 与数据科学感兴趣,不妨阅读我的系列教程索引贴《 如何高效入门数据科学? 》,里面还有更多的有趣问题及解法。
3040 次阅读|0 个评论
国外数据治理模型比较
terahertz 2018-11-26 14:06
(本文发表于《图书馆论坛》2018年第11期) 摘要: 文章深入探析国外数据治理模型的构成要素、治理特点、优势与不足等,为我国数据治理模型的构建提供参考。文章采用文献调研和网络调查法,对比分析国外4个典型数据治理模型,总结其优劣之处。研究发现国外数据治理模型各具特色。结合对比分析的结果,遵循由明确治理模型的原则与目的到理论回归实践的逻辑思路,文章从数据治理原则与目的、数据治理利益相关者、数据治理技术与系统、数据治理要素关系四个视角提出建议。 关键词:数据治理;数据管理;科研数据;数据科学;开放数据
个人分类: 发表论文|2207 次阅读|0 个评论
为什么数据发表不容忽视
热度 2 AJE2017 2018-9-5 08:41
大数据的时代势不可挡的已经到来。地球大数据、生物大数据和医学大数据频频在耳边出现。对于任何一个科研人员而言,数据( Data ),其实就是科学研究的生命线。科学研究中的一个关键的环节就是为你的学术论点寻求并提供有力的证据。早在 700 多年前,被称为“万能博士”的罗杰 • 培根就在他的学术著作中明确指出,没有感官数据、实验数据及可靠数据支撑的任何学术理论都是站不住脚的。再激烈的学术争论没有通过实践来证实都是没用的。可见,数据对于我们的研究工作和学术论文而言就是一个核心的灵魂。 事实上,一篇论文是否可以被同行认可、被期刊接受发表,一篇论文的结论或新发现是否会引起其他研究人员的兴趣而被引用或利用来重复试验或开展新研究,在很大程度上取决于为这些研究提供支持的数据的可获取性和可靠性。根据一项对科研人员关于数据共享途径的调查结果显示,目前科研人员获取和分享数据的最主要途径是根据需要直接联系,其次是通过访问已有数据库。但是,即便一篇新近发表的论文,其中的数据最多也只有 30% 多(如图 1 所示)可以被保存和重复利用。随着时间的推移, 20 年后,一篇论文的数据保留比例可能几乎为“零”(图 1 )。这样的调查统计结果可能会令科学家自己都感觉诧异和遗憾。因为,这意味着,科学家们千辛万苦、夜以继日的在实验室工作产生的大量一手数据最终都以“被淹没”终结他们的生命。科研人员都很清楚,为了让一篇论文看上去或深究起来是一个完整的无懈可击的故事,庞大的第一手原始数据中只有很小比例的一部分数据被筛选出用以佐证我们的论点。大部分的数据最终都成为了黑箱数据“ Dark Data ”。 图 1. 图片来自 Vines et al . Current Biology (2014) doi:10.1016/j.cub.2013.11.014 越来越多的学科领域正大量产生各种大数据,如遥感影像、基因序列、观测的气象、水文、环境等要素信息、临床医学病例数据、社会调查数据等等,围绕大数据产生了众多应用学科的研究领域。科学研究问题本身对庞大数据的需要必然导致科学家们对数据共享的迫切需求。因而数据开放( Data Open )和数据共享( Data Sharing )早已不是一个新的概念。很多交叉学科事实上就是在不断的有效的数据开放和共享过程中形成的。比如,宏观经济学就是在政府和经济学家的数据共享中诞生的。全球气候及气象数据的共享历史已经超过了 100 年。正因为蛋白质结构和基因序列的数据共享才形成了生物信息学这门学科。科学家们越来越意识到数据共享的重要性。因而,相比论文发表而言,数据发表( Data publishing )其实对促进科学本身的发展显得更为重要。这就需要科研工作者在研究工作中不仅仅以讲故事、发表论文为导向,而是如实的记录下研究过程中产生的相关有用数据,并将这些数据的产生和内容及相关技术信息跟同行研究者们分享。因而,任何一项研究工作产生的不论是看似失败“ Negative ”的数据还是很成功“ Posative ”的数据都是有价值并值得发表的。事实上,正因为大量不成功的实验数据才促成了最终解决科学问题的成功数据的诞生。所有数据本身对推进科学发展都存在着潜在的不可估量的创造价值。由于意识到这一关键问题,科学界、出版界及政府管理层正在全球范围内积极推进数据的存储、共享与发表。 与论文发表本质不同的地方在于,数据发表强调对数据本身的记录和详尽描述。拿一个测试样本来说,在什么地方获取,什么样本,进行了什么处理和测试,数据结果存储在什么地方,是让别人有效获取数据的关键信息。因而,关于数据的表述,数据论文( Data Paper )或者更确切的说数据描述文稿( Data Descriptor )便是作者提供的详尽的关于数据描述的文稿,这样的文稿在公开发表之后是可以被科学引用的(如自然 • 科研旗下的期刊 Scientific Data )。与此同时, Data 要求被存储在全球已有的涉及众多学科领域的专业数据库,大概 90 多个( http:// www.nature.com/sdata/policies/repositories )。在 Data paper 正式发表的同时,这些数据被要求在 CCBY 开放获取协议下可以免费下载、修改和重复利用。有了这样的公开发表和获取的期刊平台,科研人员可以将不足以作为论文发表的大量数据以数据论文的形式公开发表,告诉同行做了什么,怎么做的,获得了什么,可以分享什么。从而可以使数据本身得到最大限度的引用、使用和为未来创新研究提供基础贡献,使某项研究得到更广泛的传播,更好的发挥数据的重复使用价值,不至于最终被“湮没”。数据发表的另一个特点在于,由于数据量的庞大,数据的结构、标准或形式对于数据的有效获取显得尤为重要。为了方便作者发表数据,某些期刊也为作者提供了数据格式的编辑支持。 AJE 也为作者提供了关于数据和论文格式编辑的服务 https://www.aje.cn/services/formatting/ 。 需要强调的是,数据发表也是有严格的同行评议过程的。而且,有价值的不成功数据也是可以发表的。当然,每个科研人员对自己创造的数据会持有自己的关于开放获取的观点,很多人可能还不太愿意或者事实上也存在宁可毁灭数据也不愿跟公众分享数据的情况。但当这个大数据共享时代悄然来临的时候,你觉得自己是在那儿守着自己仅有的一点数据能创造更多价值呢?还是在互惠互利的数据共享中获得更多价值呢?相信仁者见仁的科学家们应该会仔细斟酌从而获得答案的。
个人分类: AJE 学术博文|9231 次阅读|2 个评论
美国高校图书馆数据管理与服务
terahertz 2017-11-14 08:28
2017 年 11 月 13 日下午,美国伊利诺伊大学阮炼教授来图书馆做报告, 报告的题目是:“美国高校图书馆数据管理与服务”。 报告首先由研究数据管理概念、数据管理计划、数据生命周期等引出,主要讲述了 3 个方面的问题。一是高等教育和高校图书馆的发展动态,回答了为什么图书馆要开展数据管理服务的问题;二是研究数据管理和服务概论,回答了研究数据管理服务内容的问题;三是研究数据管理和服务的案例,选取了伊利诺伊大学、哥伦比亚大学、耶鲁大学、加州大学伯克利分校四个典型案例,系统回答了图书馆怎样更好的开展研究数据管理服务的问题。 在报告提问环节,就机构知识库、数据馆员培训、数字人文等当前热点问题与师生进行了互动交流。 阮炼,伊利诺州消防服务培训学院图书馆馆长 / 教授。研究专长:数据管理。伊利诺伊大学厄巴那-香槟分校图书信息学博士,美国华人图书馆员协会主席,美国华人图书馆员协会执行董事长,国际图联信息素养委员会成员。现任伊利诺州消防服务培训学院图书馆馆长和该院中国国际合作项目负责人,伊利诺伊大学图书信息学院兼职教授。
个人分类: 图书情报|2402 次阅读|0 个评论
国内外数据治理研究进展:内涵、要素、模型与框架
terahertz 2017-11-7 08:51
(本文发表于《图书情报工作》2017年21期P 137-144 ) 摘要: 深入探析国外数据治理内涵、要素、模型与框架等,为我国数据治理的全面发展提供更为具体的建议和更为明晰的规划。 采用文献调研和网络调查相结合的方法,全面梳理国内外数据治理的研究现状。 国外数据治理研究主要集中在理论探索、模型框架以及实践应用三个方面;国内研究侧重于理论分析,尚且缺乏模型与框架等应用研究。结合已有研究,从数据治理的内涵、要素、模型与框架出发,分析已有数据治理模型的类型、特点、问题、挑战与机遇,提出开展数据治理活动的对策建议。 关键词: 数据治理 , 数据管理 , 开放数据 , 科研数据 , 数据科学 网络链接: http://www.lis.ac.cn/CN/abstract/abstract21938.shtml
个人分类: 发表论文|4422 次阅读|0 个评论
国外科研数据管理研究综述
terahertz 2017-10-13 08:41
(本文发表于《情报理论与实践》2017年第10期P130-134) 摘要 : 深入探析国外科研数据管理研究热点,能够为我国科研数据管理提供更为清晰的发展规划和更具针对性的建议。 通过网络调研和文献调研对国外科研数据管理的文献进行概念辨析和热点探讨。 国外科研数据管理研究热点主要集中在数据生命周期理论和科研数据管理服务。文章从科研数据管理政策、数据生命周期理论和科研数据管理服务体系构建3个角度提出我国开展科研数据管理活动的对策建议。 关键词 : 数据科学;科研数据;数据管理;开放数据
个人分类: 发表论文|2858 次阅读|0 个评论
美国高校科研数据管理实践个案研究
terahertz 2017-1-18 09:07
(本文发表于《图书情报研究》2016年第4期P24-34) 摘要: 在调研国内外科研数据管理典型案例的基础上,选取伊利诺伊大学香槟分校(UIUC)为个案,采用网络调查和实地考察相结合的方法,从科研数据管理服务阶段、科研数据管理服务体系和科研数据管理教育实践三个方面对UIUC的科研数据管理实践进行详细介绍和分析。研究结果表明,美国伊利诺伊大学香槟分校形成了“以用户为中心”的科研数据管理服务体系和“四位一体”的科研数据管理教育体系。从长期积累、多方合作、体系构建三个方面总结其对我国高校数据管理的启示。 关键词: 数据科学;;科研数据;;数据管理;;数据服务;;数据保存;;伊利诺伊大学香槟分校
个人分类: 发表论文|2342 次阅读|0 个评论
克莱蒙:记参加上海图书馆开放数据开发比赛培训
libseeker 2016-4-2 06:20
记参加上海图书馆开放数据开发比赛培训 作者:克莱蒙 今天上午9点半,我作为参赛队伍的代表到上海图书馆参加了培训。一直听说上图优秀的服务理念和服务效益,今日终于缘得一见,同时还感受到了上图馆员的专业性和读者的热情。 3月16日,上海图书馆启动了开放数据开发比赛的报名。据我所知,这是国内业界的一次,同时也代表了国内图书馆界对规范的关联数据的贡献。根据今天公布的情况, 这次比赛一共有58个队伍参加,参加人数共137人,比上图的预期要高。这次比赛采用的数据是上图最具特色的家谱数据。这些数据规范的关联数据格式来描述,并提供了测试性的开放。 上午9点15分一进入会场,已经发现会场快坐满了人。通过和其它队伍的交流,我了解到选手队伍出自民间各界,有在校学生、家谱开发的企业职工、程序员、还有热衷于寻根并具备足够编程技能的“散客”。来参加今天培训的队伍基本以上海附近地区的为主,但是上图提供了培训内容的直播,所以异地的选手也可以观看这次培训。 随后培训开始。刘炜副馆长还有几位专业的馆员开始就这次竞赛和相关的知识进行讲解。这次比赛主要强调要利用图书馆的数据接口,融合其它合法的数据,来深化和拓宽家谱数据的开发。刘炜馆长强调了这次比赛在图书馆界的重要性,以及上海图书馆通过竞赛来向民间借鉴力量、完善家谱数据服务的决心。夏翠娟(“夏草草”)老师解释了关联数据的描述规范,其中包括RDF和本体的描述方式,以及家谱数据的核心数据模型,即作品(work)-实例(instance)-单件(item)的三层结构。陈涛老师讲了用于知识库查询的SPARQL语言,以及关联数据的整合和混搭。最后,陈尚松老师解释了家谱API的调用方法和JSON-LD格式数据的处理。其中夏老师的内容是让我感到收获最大的。整体而言,就我的体会,图书馆似乎希望选手们在两点上作出努力,一个是信息组织,即对家谱数据(如地理、年代、谱系表)的更精准的组织和描述,另一个是数字人文,即通过有意义的数据整合,来展现家谱数据的历史人文价值。 没有想到在之后的答疑时间大家如此地活跃。选手们不仅关注比赛本身,还询问起了图书馆在未来数据服务的计划,也对图书馆的数字服务提出了技术性的建议。有的选手关心图书馆OPAC的版本。有的选手询问图书馆今后是否计划深入整理家谱中难以用机器识别的谱系表。这些读者很少有图书馆界的,但他们却非常关注数字服务的发展。这一点让我挺有感触。 此次是我第一次来上海图书馆,于是培训结束后免费办了个阅览证,参观了古籍展览、家谱阅览室、工具书阅览室、综合阅览室和新阅读体验阅览室。上海图书馆虽然已经有一些年岁了,不过里面的设施都非常先进,环境也很舒适。从阅览室功能的组织和各种宣传册中,我感受到很细致的服务。馆内的布置摆放和色彩都很美观。表示上图是我目前感觉最满意的公共图书馆,以后有机会我会再来的。 图为:刘炜 讲解 延伸阅读: 记参加上海图书馆开放数据开发比赛培训 http://blog.sina.cn/dpool/blog/s/blog_637077640102wks5.html?wm=3049_a111 此儿附作者上海图书馆参观照片。
个人分类: 圕人堂|3564 次阅读|0 个评论
开放数据对农业和营养有所影响
dsc70 2015-10-1 14:38
引用本文请注明出处: 詹姆斯 · 道格拉斯 著;吴亚鑫译 王莹超校译. http://www.stm-publishing.com/new-%20research-shows-the-impact-of-open-data-on-%20agriculture-and-nutrition/ 近 日,作为农业与生物科学研究中心(简称 CABI, The Centre for Agriculture and Biosciences International )创始人之一的全球农业与营养开放数据协会(以下简称“ GODAN ”)与数据开放协会(简称 ODI, Open Data Institute )共同发布了名为《怎样利用数据开放来改善农业、食物与营养》的研究报告。该研究表明,数据开放可以在更大的范围内帮助人们作出更为有效的决策,亦可推动创新并转变组织工作的方式,使工作更加透明。这将有助于经营小型农场的农民获取精确的天气预报信息以及市场信息,从而有计划的经营农场,以获得最优产量和最佳价格。而消费者对精确信息的需求也愈加强烈,他们需要据此选择最佳食物,达到健康饮食。 GODAN 意在使人们更加清晰的了解数据开放如何帮助解决全球在粮食供应安全以及获取更优营养方面所面对的挑战。未来基于数据开放的系统有潜力提供可持续生产的食物,而这需要通过有效利用土地、减少浪费、防治害虫和疾病得以实现。及时获取天气和市场数据对农民做出种什么以及何时收货的决策尤为重要。 在人口不断增长、气候不稳定以及市场动荡等众多压力之下,全球食物体系正苦苦挣扎。 至 2050 年,全球人口将增加到 90 亿,全球对粮食需求、饲料和纤维的预测几乎翻倍,越来越多的人面临饥饿以及营养不良的风险,进而对土地和环境提出了前所未有的要求。同时难以预测的气候对作物种植与耕种的选择带来更多困难。 为实现粮食安全和食品安全,数据开放将有效地解决农业和营养方面的问题,如干旱、害虫、疾病等。每天都会产生大量的数据,这些数据的利用价值未被完全理解,然而其潜力是巨大的。问题的关键是,这些数据若想为政策制定者、农民和消费者提供切实可行的解决方案,数据必须以一种可用的形式呈现,方便被所有人获取。 据 GODAN 项目经理 Martin Parr 称:“世界食物资源面临的挑战可能会增加,而利用科技手段提供创新性解决方案将会发挥重要作用。农业与营养的数据革命正在进行, GODAN 网络已增长到超过 120 个合伙人,该网络中的所有人都正致力于促进开放数据与大众接触的机会。” 开放数据如今在世界上有些地区已经发挥作用,该研究选取以下实例说明: 1. 帮助农民预测天气的 APP : AWhere 不断变化的温度、湿度以及降雨量等信息对庄稼收成十分重要。在发展中国家,许多农民使用手机作为主要交流工具。加纳的一个组织就与商业公司 AWhere 一起研发了一款短信传送及语音信箱 APP 。这款 APP 以低价向农民们提供丰富的天气数据,用来帮助他们决定种植时间以及种植面积等。 2. 利用智能气候工具在旱灾中减少 360 万美元的损失:哥伦比亚国际热带农业中心(简称 CIAT , International Centre for Tropical Agriculture ) 过去 5 年的气候变化已影响农业产量,使哥伦比亚大米产量从每公顷 6 吨降至每公顷 5 吨。 CIAT 利用开放数据分析出该现状出现复杂问题的原因,从而促进了新型智能气候农业决策工具的发展。该工具可以为农民何时播种大米才会有更好收成提供建议。 2014 年该工具帮助哥伦比亚农民减少了约 360 万美元的损失。 3. 改善食品安全及顾客选择: LIVES ( LocalInspector Value-Entry Specification 本地输入值规范监测系统 ) 在加利福尼亚,开放数据可以帮助顾客在就餐时选择具有最佳卫生条件的餐馆以降低食物引发疾病的风险。 LIVES 是由旧金山美国密码公司、 Socrata 公司以及 Yelp 公司合作研发,旨在公开发布餐厅检查评级的数据。 开放数据的下一步策略 如今 GODAN 正努力寻求现实世界具有挑战的案例,这些案例可以利用开放数据解决,而且这些展示如何利用开放数据的案例研究扩大了未来解决实际问题的范围。
个人分类: 科学交流|2622 次阅读|0 个评论
UIUC图书情报研究生院(GSLIS)学术报告:开放数据与开放获取
terahertz 2015-4-25 07:15
当地时间2015年4月24日下午4时,地点位于美国伊利诺伊大学香槟分校图书情报研究生院的131报告厅。学术报告“开放数据与开放出版的挑战与机遇”。演讲嘉宾是Edward Seidel。 互联网的发展使得数据及其信息共享的规模和速度盛况空前。数据及学术作品的开放获取在技术上成为可能,对高校的学术活动、知识传播、出版产业以及经济发展产生巨大意义。首先介绍了国家超级计算中心的研究团队、研究方向及研究课题等概况,然后介绍了开放获取5个方面的益处。讨论的主题包括:支持开放数据和开放获取的网络基础设施与数据服务,以及可能的解决方案。特别要介绍一个概念,我们称之为“有利环境”(Enabling Environment),指的是高校、基金组织与出版社之间形成的一种新的商业模式,能够提供“黄金”开放获取出版的可行路径,以及当数据及其出版物公开共享时费用可控。
个人分类: 出国留学|2459 次阅读|0 个评论
开放获取期刊科学数据政策调研(以植物学领域为例)
OPENRESOURCES 2015-2-11 17:43
表 1 植物学领域部分开放获取期刊数据存档政策情况表 序号 期刊题名 数据存档政策状态 影响因子(五年) 推荐存档方式 存档数据类型 1 AOB Plant 强制 1.722 第三方存储 新颖蛋白质结构的任何细节均需提前提交至 data bank ,如 protein data bank 2 Applications in Plant Sciences 强制 - 第三方存储 新一代测序技术中产生的所有序列数据 3 International Journal of Plant Genomics 强制 - 第三方存储 - 4 Studies in Mycology 鼓励 8.683 第三方存储 - 5 Frontiers in Plant Science 鼓励 3.645 第三方存储 - 6 PhytoKeys 鼓励 - 第三方存储 提交时随文章上传所有数据 7 BMC Plant Biology 鼓励 4.758 期刊仓储 - 8 Plant Methods 鼓励 3.36 期刊存储(若作者提供可随最终出版文章一起下载) 化学结构资料、地理数据资料 9 Journal of Plant Interactions 建议 0.837 第三方存储 原始数据 10 MycoKeys 建议 - 可随文章下载也可链接至数据仓储 - 从表 1 中可以看出,多数期刊( 7 种)鼓励或建议对科研数据进行存储,有影响因子的期刊多采用鼓励存档的政策,推荐存档方式多为第三方存储。所要求提交的数据涉及多种类型,如原始数据、试验过程中产生的蛋白质结构数据、序列数据等。 在这 10 种期刊中,有的期刊会对具体的提交数据做出详细的要求,如期刊《 AOB Plant 》要求蛋白质和核苷酸新序列出版前,须将数据提交至一个主要的数据库;期刊《 Frontiers in Plant Science 》要求将小分子晶体学数据存入 Cambridge Structural Database ,大分子晶体学数据 (DNA 、 RNA 、蛋白质、复合物 ) 存入 Protein Data Bank 。有的要求以附件形式进行提交,如期刊《 Plant Methods 》。
个人分类: 新闻类|2482 次阅读|0 个评论
RECODE发布新的开放科研数据政策建议
OPENRESOURCES 2015-2-11 17:42
来源系统 / 资源 / 机构: DCC URL : http://www.dcc.ac.uk/news/new-policy-recommendations-open-access-research-data 欧盟 FP-7 项目 RECODE ( PolicyRECommendations for Open Access to Research Data in Europe )上周在雅典举行最后一次会议,发布简要手册,针对科研数据开放获取领域的案例调研结果,提供许多针对关键利益相关者(包括科研资助者、科研机构、数据管理者和出版商)的具体建议,现将重要建议总结为以下十点: 1. 发展一致、全面的科研数据开放获取政策 2. 确保适当的开放数据研究资金 3. 制定为提供高质量数据开放获取的研究人员给予奖励的政策和计划 4. 识别重要的利益相关者、相关网络,促进之间的合作,共同实现科研数据开放获取的可持续生态系统 5. 制定长期、可持续的开放获取数据管理和保存计划 6. 制定全面协作的技术和基础设施解决方案,提供高质量科研数据的开放和长期保存 7. 制定科研数据的技术质量标准 8. 需要使用统一的开放许可协议框架 9. 系统地解决科研数据开放获取所引起的法律和伦理问题 10. 支持通过课程开发和培训向开放科研数据过渡
个人分类: 新闻类|2274 次阅读|0 个评论
CERN创建数据共享门户
OPENRESOURCES 2015-2-11 17:38
来源系统 / 资源 / 机构: Datacite URL : https://www.datacite.org/news/cern-launches-data-sharing-portal.html 2014 年 11 月 20 日,欧洲粒子物理实验室( CERN )首次在 OpenData.cern.ch 上公开大型强子对撞机( Large Hadron Collider , LHC )实验的第一批数据。该数据在 CC0 协议下可用,被赋予了 DOI ,可供科学论文引用。 OpenData.cern.ch 也支持在开源软件中阅读和分析数据,连同相应的文档及被 DateCite DOI 标识的数据。未来, CERN 开放数据门户将整合来自于 ALICE, ATLAS 和 LHCb 的其他 CERN 实验数据。
个人分类: 新闻类|2507 次阅读|0 个评论
[转载]White House Open Data Executive Order
rbwxy197301 2013-7-10 08:55
White House Open Data Executive Order Echoes USACM Recommendations By DAVID B. | Published: MAY 29, 2013 In early May the White House issued an Executive Order outlining a policy to make open and machine readable the ‘default’ for new and ‘modernized’ government information. This Open Data Policy would be implemented for federal agencies over the next few months, with quarterly progress reports following the initial rollout. While the Administration rightly notes that the Open Data Policy is part of an ongoing Open Government Initiative (involving several other executive orders and policies dating to 2009), it also echoes recommendations made by many groups, including USACM. In 2009, as the Administration was dealing with the stimulus legislation, USACM issued recommendations on the government release of data: Data published by the government should be in formats and approaches that promote analysis and reuse of that data. Data republished by the government that has been received or stored in a machine-readable format (such as online regulatory filings) should preserve the machine-readability of that data. Information should be posted so as to also be accessible to citizens with limitations and disabilities. Citizens should be able to download complete datasets of regulatory, legislative or other information, or appropriately chosen subsets of that information, when it is published by government. Citizens should be able to directly access government-published datasets using standard methods such as queries via an API (Application Programming Interface). Government bodies publishing data online should always seek to publish using data formats that do not include executable content. Published content should be digitally signed or include attestation of publication/creation date, authenticity, and integrity. As the Office of Management and Budget, the Chief Technology Officer, and the Chief Information Officer help agencies implement the new default setting for government information, the additional details should demonstrate how closely this effort aligns with the USACM recommendations. Early signs are encouraging. This entry was posted in Digital Government . Bookmark the permalink . Comments are closed, but you can leave a trackback: Trackback URL . Senate Hearing on Making Movies and Inflight Entertainment Accessible USACM Statement on House Ways and Means Subcommittee Hearing on U.S.-EU Transatlantic Trade and Investment Partnership Negotiations 转自: http://techpolicy.acm.org/blog/?p=2700
个人分类: 文章转载|1754 次阅读|0 个评论
世界银行开放数据
rbwxy197301 2011-12-28 18:53
最近在查找资料的过程中,发现一个数据源:世界银行的开放数据( http://data.worldbank.org.cn/?display=default ) 我们可以按国家或专题查找相关数据。 世界银行的开放数据举措意在使所有用户都能有机会得到世界银行的数据。数据目录是一份现有世界银行数据集的列表,其中包括数据库、没有格式化的表格和报告。每个条目都包括对该数据集的描述以及数据集的直接链接方式。在可能的情况下,数据库被直接链接到一个选择屏,用户可以在这里选择他们想要搜索的国家、指标和年份。搜索结果可以以不同的格式导出。用户还可以选择直接从这个目录下载整个数据库。 试着查询了一下的高科技出口的数据(下表只摘出了一部分,详细通过链接可以查询)。我国高科技出口(现价美元)排名世界第一, 高科技出口(占制成品出口的百分比)2010年排名世界第七。 高科技出口产品是指具有高研发强度的产品,例如航空航天、计算机、医药、科学仪器、电气机械。 高科技出口(现价美元) 联合国商品贸易统计 (Comtrade) 数据库 http://data.worldbank.org.cn/indicator/TX.VAL.TECH.CD?display=default 表1高科技出口(现价美元)100亿以上的国家 国家名称 2006 2007 2008 2009 中国 271169677651 337006166831 381344642493 348294572714 德国 159012227000 155921793000 162421139000 142449233000 美国 219179330135 228654832989 231126189384 141518550520 大韩民国 92944734551 110633391306 112486523868 103400416199 日本 126618183514 121424935102 123732654770 99209829828 新加坡 124136907743 105549451749 120345273825 97207444744 法国 80525057959 80464533592 93209237841 83826519243 荷兰 68577779534 74369385904 67056181940 58449778506 英国 115464022253 63065596823 61776770581 57177877845 马来西亚 63410667185 65107409942 42764059573 51559754556 瑞士 29260778548 33655320932 41110803367 38556463738 墨西哥 35732396687 33314033104 41200643487 37353528539 比利时 22644245332 25177851511 29162522223 29676410589 泰国 26952632151 30924891433 32369592496 28654786297 意大利 25147517304 27982362819 30026990013 25988021694 加拿大 26987194327 29592364451 29385103930 25079579806 爱尔兰 31652804506 28858459569 28615976673 24738476359 菲律宾 27625618563 29507842699 26875222366 21530782893 匈牙利 14915263000 19349248000 20989547000 17443607000 瑞典 18077711330 20519516712 21875888442 17059028846 捷克共和国 11897395755 15410251016 18200020474 15200299703 奥地利 14048724899 14565590792 15230243362 12096525549 丹麦 11195634440 11128130524 11485891703 10742868961 以色列 5564750000 3088348000 9238833000 10267546000 印度 4015283842 4944113015 6497236723 10143486816 注:有些国家没有2009年数据,如西班牙等。 高科技出口(占制成品出口的百分比) http://data.worldbank.org.cn/indicator/TX.VAL.TECH.MF.ZS?display=default 表2高科技出口 (占制成品出口的百分比=10%) 国家名称 2006 2007 2008 2009 2010 菲律宾 68 69 66 66 68 马耳他 58 52 50 48 60 新加坡 58 45 49 48 50 马来西亚 54 52 40 47 45 哥斯达黎加 45 45 39 44 40 塞浦路斯 23 29 30 31 37 中国 31 27 26 28 28 法国 21 18 20 23 25 瑞士 23 23 24 26 25 匈牙利 24 24 23 25 24 泰国 27 26 25 25 24 冰岛 47 61 41 31 21 爱尔兰 35 27 26 24 21 英国 34 19 19 22 21 荷兰 29 23 19 21 21 美国 30 27 26 21 20 日本 22 18 17 19 18 墨西哥 19 17 16 18 17 中国香港特别行政区 11 12 11 15 16 挪威 17 15 15 16 16 以色列 15 7 11 18 15 德国 17 14 13 15 15 捷克共和国 14 13 14 15 15 丹麦 20 17 16 18 14 加拿大 13 13 14 16 14 圣多美和普林西比 1 0 0 16 14 瑞典 16 12 11 13 14 黎巴嫩 3 2 2 5 13 奥地利 13 11 11 12 12 巴巴多斯 18 10 4 10 12 澳大利亚 12 10 11 12 12 苏里南 6 9 5 14 12 印度尼西亚 13 11 11 13 11 巴西 12 12 12 13 11 立陶宛 8 11 11 10 11 罗马尼亚 5 3 7 9 11 芬兰 22 18 17 14 11 希腊 11 7 9 11 10 比利时 8 7 8 10 10
个人分类: 信息检索|4143 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-24 03:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部