wwh1295的个人博客分享 http://blog.sciencenet.cn/u/wwh1295

博文

大数据的价值以及空间数据挖掘的思考

已有 9614 次阅读 2013-8-1 15:14 |系统分类:科研笔记|关键词:学者| 大数据, 价值, 空间数据挖掘

大数据时代的来临及其价值体现

IBM规模性(Volume)多样性(Variety)、高速性(Velocity)和真实性(Veracity)的“4V理论”来定义大数据。

据著名咨询公司IDC(International Data Corporation)发布的研究报告,全球被创建和被复制的数据总量为1.8ZB,预计到2020年,人类产生的数据总量将达到40ZB,人均数据预计将达5,247GB,中国将产生21%的数据。数字宇宙膨胀的主要原因是机器生成的数据量的增长,在这个数字宇宙中33%的数据将包含有价值的信息。根据中国权威ICT研究咨询机构计世资讯(CCW Research)研究数据,2012年中国大数据市场规模为4.5亿元,2013年预计增长到11.2亿元,且此后将保持每年超过100%的增长率,到2016年,中国大数据市场规模将达93.9亿元。

20107月,联合国发布了《大数据促发展:挑战与机遇》白皮书,指出大数据对于全世界是一个历史性的机遇,可以利用大数据造福人类。20123月,美国政府发布了《大数据研究和发展倡议》,此项带有2亿美元推动资金的倡议,旨在通过推动和改善与大数据相关的收集、组织和分析工具及技术,提升从海量和复杂的数据集中获取知识和洞察分析能力。美国将大数据作为国家级的战略,在其经济社会发展中占有重要地位。Ps:201211月《时代》杂志撰文指出奥巴马总统连任成功背后的秘密,其中的关键是对过去两年来相关网络数据的搜集分析和挖掘。

2013年被认为是大数据时代元年,大数据的科学价值和社会价值正在逐渐体现,数据的作用正在被迅速而充分地释放,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。大数据正以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。2011年,世界经济论坛(World Economic Forum)称大数据为新财富。2012年,瑞士达沃斯论坛的《BigData,Big Impact》把数据当作货币或黄金一样的经济资产类别。美国政府认为大数据关系到国家的经济结构调整和产业升级,是“未来的新石油”。

       大数据正在改变我们的生活以及理解世界的方式,甚至它比我们自己更了解自己,当然这需要庞大的数据资源、数据挖掘算法以及数据处理能力作为支撑,我们也变成了数据的创造者,我们的行为、位置、社交关系,甚至生理数据都可能被记录并成为分析和处理的数据源。

数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。而大数据时代的这种聆听手段主要体现在数据挖掘上,它可以接受数据一定程度上的不精确和不完美,但能够更好地理解这个世界,并能够更好地进行预测;它注重数据本身,让数据发声,聆听到以前从未意识到的联系的存在,即相关关系,而不是一味地得到明确的因果关系。因此谷歌可以预测季节性流感在时间和空间上的传播、Farecast可以预测机票的价格走势、亚马逊可以帮助我们推荐想要的书、Facebook等社交平台可以帮助我们找到可能认识或者感兴趣的人、甚至我们使用的Microsoft Word可以帮助我们检查拼写和语法错误。

 

空间数据挖掘的主要方法

世界本身构成了世界上最基础的信息,人类活动所涉及的信息中也有80%与地理信息有关,对于空间数据的认知与挖掘让我们更好地理解、展现与改变我们的世界,这也正是近三年Esri用户大会的主题所体现的("GIS-UnderstandingOur World",2011/"GIS-Opening our world",2012/"GIS-Transforming our World",2013)

Google Ngram Viewer,利用Google所拥有的所有数字图书数据作为数据源,我们分析了"GIS"历年使用的次数,这从一定程度上体现了学科发展的趋势。可以很明显地看到从60年代的起步、巩固到80年代的技术大发展和90年代以来的应用普及这样一个趋势。如果把网络大数据也纳入数据源,我想后期的变化趋势会更加明显,空间数据挖掘与知识发现也成为近年来GIS理论与方法的关注热点之一。

不断增加的遥感卫星、雷达等传感器和各种固定或移动的终端设备使得空间数据的规模和复杂性飞快增长,已经超过了人类所能解释的能力。出现了“空间数据爆炸但知识贫乏”的问题,因此我们需要从空间数据库中自动或半自动地挖掘事先未知却潜在有用的空间模式的方法——空间数据挖掘和知识发现(SDMKD, spatialdata mining and knowledge discovery),不同于普通的DMKD(data mining and knowledge discovery)它的对象是空间数据库或空间数据仓库,有别于常规的事务型数据库,比一般数据挖掘的发现状态空间理论增加了尺度维(scale)。国内较早提出这一概念的是李德仁院士,他认为SDMKD挖掘的空间知识主要包括空间的关联、特征、分类和聚类等规则及例外。一般表现为一组概念、规则、法则、规律、模式、方程和约束等形式的集合, 是对数据库中数据属性、模式、频度和对象簇集等的描述。他指出,与传统的地学数据分析相比,SDMKD更强调在隐含未知情形下对空间数据本身分析上的规律挖掘, 空间知识分析工具获取的信息更加概括、精练。

       关于SDMKD,主要有以下一些理论和方法:

概率论(pobability theory)根据随机概率挖掘含有不确定性的空间数据库,发现的知识被表示成给定条件下某一假设为真的条件概率,常用作背景知识。

证据理论(evidence theory)将实体分为确定部分和不确定部分,可以用于基于不确定性的空间数据挖掘。利用证据理论的结合规则,可以根据多个带有不确定性的属性进行决策挖掘。

空间统计学(spatial statistics)是依靠有序的模型描述无序事件,根据不确定性和有限信息分析、评价和预测空间数据。空间统计学是基本的数据挖掘技术,特别是多元统计分析(如判别分析、主成分分析、因子分析、相关分析、多元回归分析等)

规则归纳(rulesinduction)是在一定的知识背景下,对数据进行概括和综合,在空间数据库或空间数据仓库中搜索和挖掘以往不知道的规则和规律,得到以概念树形式(GIS的属性概念树和空间关系概念树)给出的高层次的模式或特征。

聚类分析(clustering analysis)主要是根据实体的特征对其进行聚类或分类,按一定的距离或相似测度在大型多维空间数据集中标识出聚类或稠密分布的区域,将数据分成一系列相互区分的组,以期从中发现数据集的整个空间分布规律和典型模式。

空间分析(spatial analysis)是利用一定的理论和技术对空间的拓扑结构、叠置、图像、空间缓冲区和距离等进行分析的方法总称,目的在于发现有用的空间模式。探测性的数据分析(exploratory data analysis, EDA)采用动态统计图形和动态链接技术显示数据及其统计特征,发现数据中非直观的数据特征和异常数据。

模糊集(fuzzy sets)用隶属函数确定的隶属度描述不精确的属性数据,重在处理不精确的概率。模糊性是客观的存在,系统的复杂性愈高,对它的精确化能力就愈低,模糊性愈强。在空间数据挖掘中,模糊集可用作模糊评判、模糊决策、模糊模式识别、模糊聚类分析、合成证据和计算置信度等。

云理论(cloud theory)是一个分析不确定信息的新理论,由云模型、不确定性推理和云变换三部分构成。云理论把定性分析和定量计算结合起来,可以用于处理GIS中融随机性和模糊性为一体的属性不确定性。

粗集(rough sets)由上近似集和下近似集组成,是一种处理不精确、不确定和不完备信息的智能数据决策分析工具。较适于基于属性不确定性的空间数据挖掘。

神经网络(neural network)是由大量神经元通过极其丰富和完善的连接而构成的自适应非线性动态系统,并具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自适应等功能。神经网络具有鲜明的“具体问题具体分析”特点,其收敛性、稳定性、局部最小值以及参数调整等问题尚待更深入的研究,尤其对于输入变量多、系统复杂且非线性程度大等情况。

遗传算法(genetic algorithms)是模拟生物进化过程,利用复制(选择)、交叉(重组)和变异(突变)三个基本算子优化求解的技术。在空间数据挖掘中,把数据挖掘任务表达为一种搜索问题,利用遗传算法的空间搜索能力,经过若干代的遗传,就能求得满足适应值的最优解规则。

可视化(visualization)通过研制计算机工具、技术和系统,把实验或数值计算获得的大量空间抽像数据(如信息模式、数据的关联或趋势等)转换为人的视觉可以直接感受的具体计算机图形图像,以供数据挖掘和分析。SDMKD涉及复杂的数学方法和信息技术,可视化是空间数据的视觉表达与分析,借助图形、图像、动画等可视化手段对于形象地指导操作、定位重要的数据、引导挖掘、表达结果和评价模式的质量等具有现实意义。

决策树(decision tree)根据不同的特征,以树型结构表示分类或决策集合,产生规则和发现规律。在空间数据挖掘中,首先利用训练空间实体集生成测试函数;其次根据不同取值建立树的分支,在每个分支子集中重复建立下层结点和分支,形成决策树;然后对决策树进行剪枝处理,把决策树转化为据以对新实体进行分类的规则。

空间在线数据挖掘(spatial online analytical mining, SOLAM)建立在多维视图基础之上,是基于网络的验证型空间数据挖掘和分析工具。它强调执行效率和对用户命令的及时响应,直接数据源一般是空间数据仓库。网络是巨大的分布式并行信息空间和极具价值的信息源,但因网络所固有的开放性、动态性与异构性,又使得用户很难准确、快捷地从网络上获取所需信息。空间在线数据挖掘的目的就在于解决如何利用分散的异构环境数据源,及时得到准确的信息和知识。它突破了局部限制,发现的知识也更有普遍意义。

 

空间数据挖掘与GIS集成模式

将地理信息系统与数据挖掘有效集成,主要问题是如何利用数据挖掘技术提取潜藏在空间数据库中空间数据所蕴含的知识和规则,而关键问题是数据挖掘算法如何获取空间数据库中的数据,也就是空间数据库中数据共享方式问题。按照数据挖掘算法利用空间数据库中数据方式的不同,地理信息系统与数据挖掘集成的模式主要分为两种方式:

1、外部空间数据挖掘模式

这种模式将数据挖掘系统和地理信息系统看成是两个独立的系统,地理信息系统与数据挖掘系统之间通过数据通信的方式进行联接,通过第三方软件或计算机高级语言实现数据交换。外部空间数据挖掘模式结构松散,因此又称为松散耦合式集成模式,具有灵活度高的优点。

 

2、内部空间数据挖掘模式

这种模式将数据挖掘与地理信息系统集成为一个整体的系统,将数据挖掘内嵌到地理信息系统中,利用地理信息系统提供的时空査询、时空分析等模块从空间数据库中提取所需的挖掘样本数据,将数据挖掘看作地理信息系统的子模块。内部空间数据挖掘模式是以地理信息系统为主而建立的一个整体系统,数据挖掘是内嵌入系统的,因此又称为嵌入式耦合模式,具有开发效率高的优点。

此外,还有混合模式的集成模式,就是将内部挖掘模式和外部挖掘模式进行结合,既能发挥外部数据挖掘模式灵活的特点,又保持了系统的集中性和整体性,减少用户自己编写程序的工作量和难度。

 

在大数据时代,将空间数据挖掘技术和传统GIS技术方法集成,充分发挥GIS在时空数据的输入、存储、管理、查询和显示等方面的优势,突出空间数据挖掘技术在分析和处理海量时空数据时的强大功能,对于发现大量时空数据中的潜在有价值信息,提高数据的使用效率有着十分重要的作用,为智慧城市建设所涉及的各领域输送生生不息的血液,帮助我们更好地理解、展现与改变我们的世界。

 

参考资料:

[1]  李德仁,王树良,李德毅,.论空间数据挖掘和知识发现的理论与方法[J].武汉大学学报(信息科学版),2002,27(3):221-233.

[2]  李德仁,眭海刚,单杰.论地理国情监测的技术支撑[J].武汉大学学报(信息科学版),2012,37(5):505-512+502.

[3]  李德仁,姚远,邵振峰.智慧地球时代测绘地理信息学的新使命[J].测绘科学,2012,37(6):5-8.

[4]  黄铧焕,薛丽芳.大数据,大政务,新网络——大数据时代电子政务网络的发展方向[J].电子政务,2012(5):104-109.

[5]  王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138.

[6]  王树良,丁刚毅,钟鸣.大数据下的空间数据挖掘思考[J].中国电子科学研究院学报,2013,8(1):8-17.

[7]  乔朝飞.大数据及其对测绘地理信息工作的启示[J].测绘通报,2013(1):107-109.

[8]  FaisalKamiran, Toon Calders.Datapreprocessing techniques for classification without discrimination [J].Knowledgeand Information Systems,2012,33(1):1-33.

[9] Nikolaj Tatti, Jilles Vreeken.Comparingapples and oranges: measuring differences between exploratory data mining results [J].Data Mining and Knowledge Discovery,2012,25(2):173-207.

[10] 张颖.基于地理信息系统的气象数据时空挖掘研究[D].大连:大连理工大学,2012.

[11] 袁峻.数据挖掘在电子政务办公系统中的应用[D].上海:华东师范大学,2010.

[12] MckinseyGlobal Institute.BigData: TheNext Frontier for Innovation, Competition, and Productivity [R].2011.

[13] UnitedNations Global Pulse.BigData for Development: Challenges & Opportunities [R].2012.

[14] 维克托·迈尔·舍恩伯格,肯尼思·库克耶.大数据时代: 生活工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2012.

[15] Pang-NingTan, Michael Steinbach, Vipin Kumar.数据挖掘导论(完整版)[M].范明,范宏建,等译.北京:人民邮电出版社,2011.

 



https://m.sciencenet.cn/blog-769953-713182.html


下一篇:初识Hadoop

3 黄富强 杨华磊 孙亮

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-1 15:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部