科学网

 找回密码
  注册

tag 标签: 空间数据挖掘

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

人脸识别是怎么回事?图解人脸表情分析与识别
热度 9 sciencepress 2015-10-21 08:54
图像是空间数据挖掘的重要内容之一,本文用图片形象地解读如何使用云模型和数据场进行人脸表情分析和识别。 一、 基于云模型的人脸表情分析 实验的原始数据取自JAFFE(Japanese Female Facial Expression)数据库(Lyonsetal., 1998)。JAFFE 数据库是一个开放的人脸表情图像数据库,包括KA、KL、KM、KR、MK、NA、NM、TM、UY、YM共10个不同的日本女性,每个人有AN、DI、FE、HA、NE、SA、SU共7种不同表情的人脸图像,分别为愤怒、厌恶、害怕、快乐、无表情、悲哀、惊讶,每种表情有3、4 张样本图像,总数是213张表情图像。原始图像为256×256 像素。 基于云模型的JAFFE人脸表情分析。 不同人的相同表情分析。 作为输入的原始图像的图像云滴,反映的是1种表情在10个人表现的不同个性特征。在{Ex,En,He}图像中,Ex 揭示的是1种表情的基本共性,为其标准表情,可以反映表情的平均状态;En 揭示的是10个不同人对1种标准表情的偏离程度,可以反映10个不同人对1 种表情的表现程度,即受个人性格、环境影响的程度;He 揭示的是10个不同人对1种标准表情的偏离程度的离散度,可以反映10个不同人对1种表情的表现程度的差异,即个人性格、环境等因素对不同人的影响程度。 相同人的不同表情分析。 作为输入的原始图像的图像云滴,反映1个人的7种表情的不同个性特征。在{Ex,En,He}图像中,Ex 揭示的是1个人的基本共性,为其标准人脸的正常表情,可以反映1个人心平气和的状态;En 揭示的是1个人的不同表情对标准人脸的偏离程度,可以反映1个人在内外因素影响下的情绪波动的程度,即受环境影响的程度;He 揭示的是1个人的不同表情对标准人脸的偏离程度的离散度,可以反映1个人在内外因素影响下的情绪波动的程度的差异,即心理素质的稳定性。 不同人的不同表情分析。 输入的原始图像,反映的是不同人不同表情的个性特征,输出的数字特征{Ex,En,He}图像,反映的是不同人不同表情的共同共性特征,尽管输入的图片是不同人的不同表情图像,但这些输入的图像是在共同共性特征基础上添加了不同的个性特征。在{Ex,En,He}图像中,Ex 揭示的是人与表情的基本共性,为其标准人脸表情,可以反映人脸表情的平均状态;En 揭示的是不同人不同表情对这种标准人脸表情的偏离程度,可以反映不同人不同表情对这种标准人脸表情的表现程度,即受个人性格、环境影响的程度;He 揭示的是不同人不同表情对这种标准人脸表情的偏离程度的离散度,可以反映不同人不同表情对这种标准人脸表情的表现程度的差异,即个人性格、环境等因素对人脸表情的影响程度。 把人脸图像的每个像素点看作二维空间中的数据对象,把每个像素点的灰度归一标准化到 区间,并视为数据对象的质量,那么在1幅图像中,每个像素点都向周围辐射能量,所有像素点的相互作用构成数据场。 二、 基于数据场的人脸表情识别 基于人脸图像数据场的面部识别具体流程图。 预处理后的标准人脸图像。 基于人脸图像数据场的面部表情识别,首先对原始人脸图像进行尺度归一化,具体来说,就是以原始人脸图像的左、右两眼中心为基准,对图像进行旋转、切割和缩放,并结合椭圆掩模消除头发和背景的影响,最终得到32×32 像素的标准化人脸图像 人脸图像数据场的等势线分布。 对JAFFE 数据库中213张人脸图像进行统一处理,并采用基于数据力场的聚类算法对“特征脸”空间中的投影数据进行聚类划分,图为影响因子σ=0.05时相应的人脸图解像数据场的等势线分布。 显然,代表不同面部表情的简化人脸图像在二维“特征脸”空间中具有相对较好的可分性。最终的识别结果如上表所示,该方法具有良好的正确识别率。 基于特征点的简化人脸图像。 对标准化人脸图像进行灰度变换,采用基于人脸图像数据场的特征提取方法提取每幅人脸图像的重要特征点,形成简化人脸图像; 对简化人脸图像集合进行K-L变换得到的 前6个主特征向量所对应的“特征脸”图像 。对简化人脸图像集合进行K-L变换,计算总体离差矩阵的特征向量,构成公共“特征脸”空间。 测试人脸图像在“特征脸”空间的二维投影。 将简化人脸图像投影到公共“特征脸”空间中 ,得到的前两个主特征向量张成的二维“特征脸”空间中投影数据分布 ,以相应的投影系数作为人脸图像的逻辑特征 。 最后,根据逻辑特征,所有人脸图像在新的特征空间中形成二次数据场,根据数据间的相互作用和自组织聚集性实现人脸图像的聚类识别。 具体地,再从JAFFE 数据库中 选出10 幅不同表情的正面人脸灰度图像 ,其中7 幅图像来自同一个人,另外3幅来自3个陌生人。 生成人脸数据场: 可以得到自然聚类的人脸拓扑结构: 基于数据场的自然聚类。 显然3个陌生人I、H、J的聚类速度最慢。 本文由 刘四旦 摘编自 李德仁、王树良、李德毅 著 《 空间数据挖掘理论与应用(第二版) 》 一书。 面向大数据, 《 地球观测与导航技术丛书:空间数据挖掘理论与应用(第2版) 》提出数据场、云模型、地学粗空间和空间数据挖掘视角,构建空间数据挖掘金字塔,给出挖掘机理,介绍概念格,总结空间数据源,导出清理空间观测数据的选权迭代法。 面向地理信息系统数据研究空间的关联规则、分布规则、概化规则和聚类规则的挖掘,从图像中发现指导图像分类、特征提取、表情识别的空间知识,以及时空分布的视频数据挖掘。这些理论,在滑坡监测、车轮形变、银行选址、土地利用、人脸识别、公共安全等实际领域,获得了有价值的应用成果,自主研制了空间数据挖掘原型系统GISDB Miner和RSImage Miner。 用您的手指点亮科学! 欢迎转发分享朋友圈, 您的鼓励是我们前进的动力! 点击文中 书名、作者、封面 可购买本书
个人分类: 科学书摘|19422 次阅读|15 个评论
时空视频数据挖掘:让罪犯无所遁迹
热度 1 sciencepress 2015-1-12 08:13
职业犯罪行为普遍存在着行为时空跨度大和伪装、隐蔽水平高的特点。如果能够从城市视频监控系统PB级别的视频监控数据中成功检测出罪犯的异常行为,并由此检测出由一系列异常行为组成的异常事件,将对视频监控的预警起到重要作用。 数字城市中地理空间数据的数据量达到TB级,而智慧城市中视频数据量可望达到PB级,两者的结合使人们能实现对城市的四维时空监测。 基于GIS的视频数据挖掘,其目的不仅是进行智能的数据处理和信息提取,更重要的是要通过时空分布的视频数据挖掘,自动区分出正常行为人、车、物和异常行为人、车、物,从而可大量删除与人们正常活动有关的、需要保护的隐私活动的大量视频数据,只留下那些可疑行为人、车、物和需照顾人(如痴呆老人、弱智儿童等)的相关数据。 这项工作属于 视频数据挖掘 的范畴。 图1 监控云存储示意图。云存储是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。 视频数据的“查不准” 人工从大量的视频数据中查找出所需要的有用数据是一件十分困难的事。实验表明,一名专业监控人员同时查看两台视频监控器的情况下,22min之后将会错过95%的应监视目标。 近20年来,国际犯罪行为最重要的变化之一就是跨区域流动作案成为犯罪行为的主要方式。由于涉案区域的不断扩大,需要检索的视频数据快速增长。 一旦案件发生,侦查人员采用人工浏览的方式来逐个排查嫌疑目标,既低效费力又容易错过最佳的破案时机。 为了高效地利用视频监控数据,提高破案效率,如何利用视频检索技术,在海量的视频数据中快速检索出所需要的资料就显得至关重要。 图2 我国刑事案件未破案率一直维持在较高水平(数据来源:中国法律年鉴) 一、基于内容的视频数据检索 基于内容的视频检索是根据视频的内容和上下文关系,对大规模视频数据进行检索的技术。它在没有人工参与的情况下,自动提取并描述视频的特征和内容,是一种监控视频中常用的视频检索技术。 图3 视频的基本结构图。 视频作为一种表达信息的媒体,它有着自己独立的结构。一般地,一段视频由一些描述独立故事单元的场景构成;一个场景由一些语义相关的镜头组成;而每个镜头是由一些连续的帧构成,它可由一个或多个关键帧表示。 基于内容的视频检索技术,首先将视频分割成各个镜头,并实现对各个镜头的特征提取,得到一个尽可能充分反映镜头内容的特征空间,这个特征空间将作为视频聚类和检索的依据。其中, 特征提取包括关键帧中的视觉特征和镜头的运动特征的提取。 所谓关键帧,即指从视频数据中抽取出来的、能概括镜头内容的一些静态图像。通过一定算法,实现对这些静态图像的视觉特征提取,主要从颜色、纹理、形状等几个角度来进行。镜头运动特性提取通过对镜头的运动分析(主要针对镜头运动的变化、运动目标的大小变化,视频目标的运动轨迹等)来进行,方法主要有基于光流方程的方法、基于块的方法、像素递归方法和贝叶斯方法等。 然后,根据提取的关于镜头的动态特性和关键帧的一些静态特性进行索引。最终,用户可以通过一种简单方便的方法浏览和检索视频。 二、时空视频数据挖掘 虽然基于内容的视频检索,能在一定程度上解决查不准问题,但是由于涉案区域的不断扩大,需要检索的视频数据快速增长。小范围数据搜索输出的检索结果尚可通过人工甄别、剔除其输出的虚警数据,但规模急剧增长的大范围涉案视频数据导致系统检索效率和输出的虚警数据规模均超越人工处理的极限 。 为了解决上述问题,可以采用时空数据挖掘的方法,利用其时空信息,过滤无效的视频数据,达到降低虚警数据规模的目的。 时空数据挖掘是指从时空数据库中提取用户感兴趣的时空模式与特征、时空与非时空数据的普遍关系及其他一些隐含在数据库中的普遍的数据特征。 时空数据挖掘的方法丰富多彩,主要有数学统计方法、归纳方法、聚类方法、Rough集方法和云理论。以上方法不是孤立应用的,为了发现某类知识常常要综合应用这些方法。知识发现方法还要与常规的数据库技术充分结合,如在时空数据库中挖掘空间演变规则时,首先可利用空间数据库的叠置分析等方法提取出变化了的数据,再综合统计方法和归纳方法得到空间演变规则。 1、时空视频数据挖掘的难度 社会安全事件 全生命周期一般包括起因、策划、实施、发生、逃逸五个阶段,职业犯罪行为普遍存在着行为时空跨度大和伪装、隐蔽水平高的特点。虽然犯罪准备期行为有迹可循,但国内现有技术只能针对现有局部数据进行简单的分析和判断,难以从多尺度多类型的媒体数据中检测社会安全前期时空行为异常事件。而国际上一些先进的犯罪预测软件,能够一定程度上检测罪犯的异常行为,对犯罪预防起到重大作用。例如,在洛杉矶,使用一套名为“PredPol”的犯罪预测软件(图4)的地区,其犯罪率降低了13%,而同一时间段内,全市的犯罪率增长了0.4%。 目前,我国600多个城市建成的视频监控系统每天获取PB级别的视频监控数据,但对城市犯罪行为完全没有发挥预警作用。如果能够成功检测出罪犯的异常行为,并由此检测出由一系列异常行为组成的异常事件,将对视频监控的预警起到重要作用。 行为分析和事件检测是监控视频异常行为检测和预测的基础技术。 图4 PredPol犯罪预测软件系统界面 2、行为分析 视频目标的行为分析是事件检测的基础,是指在对视频进行前期图像处理的基础上,对视频场景中感兴趣目标的时间和空间数据(有时还包括其与背景物体的关系)进行研究,最终得出对视频目标在特定时间段内所做行为的理解或解释,从而辅助决策系统作出相应的反应。 从数据处理的角度上来看,由于视频目标的轨迹信息序列是以时间为顺序的,故可以简单理解为多维时间信号,于是对视频目标的行为进行分析理解即是对时间序列进行合理分段(有时还需计算各时间段与背景目标的空间关系),并将其与模型库中的典型行为元素模型进行匹配,从而完成分类辨识。目前存在的视频目标的行为分析方法主要有累积模板技术的行为分析方法、贝叶斯网络的行为分析方法、有限状态机方法、陈述性模型(基于逻辑的方法)以及基于Petri网的方法等。 图5 异常行为自动挖掘 通过视频数据挖掘软件,自动获取视频录像中人体行为的关键信息,如聚集、跑动、翻墙、徘徊等(图5),有利于刑侦人员聚焦观测和分析嫌疑对象。美国波士顿爆炸案就是从视频图像中发现了在爆炸后作案人的逆人潮的异动行为而破案的。 3、基于时空视频序列的事件检测 视频语义事件是指时空分布视频序列中具有一定语义信息的某种行为或者是一系列行为,而行为是指视频序列中一系列具有一定语义和时间延续性的动作。因此, 事件检测是指在视频中发现感兴趣的或者明显与众不同的事件,并对其包含的行为作出适当的分析 (图6)。 图6 时空分布视频数据的事件检测 语义事件的检测主要分为三类,分别是基于预定义事件模型的事件检测方法、基于训练数据学习事件模型的事件检测方法、基于聚类分析的事件检测方法。 基于预定义事件模型的事件检测方法是使用预定义规则或限制条件来构建事件模型,由于需要相关环境的先验知识,只能用于特定领域下的事件检测,因而具有很大局限性。基于训练数据学习事件模型的事件检测方法在提取特征之后,采用隐Markov模型或者动态贝叶斯网络等方法来分析各个关键帧特征值之间的关系,进而挖掘各个镜头之间的语义关系并检测出一些典型的事件。基于聚类分析的事件检测方法包括时空衍生和协同嵌入式原型等,都是通过对权重矩阵进行谱图分割来检测出事件片断,权重矩阵通过计算视频片断之间的相似性来确定。 三、基于地理信息空间分布的视频时空数据挖掘系统 将视频与GIS相结合,通过连续的视频数据自动挖掘得到连续的信息,再由GIS得到空间的信息,两者结合可进行有意义的时空关联分析和异常行为分析 (图7)。基于地理空间信息分布的视频时空关联异常分析是研究视频信息与地理空间信息的综合与交互应用。 图7 时空关联分析和异常行为分析 但是,随着高清视频信息的普及,带来了两个新问题: (1)高清视频比标清的视频数据多占用几倍的存储量,海量视频数据的存储难以长期存放,缺少一种快速有效的视频检索机制查找有意义的视频信息。 (2)高清视频的信息量大,对计算速度也提出了更高的要求。 1、应用需求 传统地理信息分析由人工检索目标,费时、费力且不稳定, 基于地理空间信息分布的视频时空分析具有普适化、人性化和智能化等特点,可以实现静态空间背景数据和人、车、物的连续数据的实时分析和挖掘。 它可广泛应用在自动安防、应急响应、公路养护、河流整治、城市管理、移动监控、旅游观光等领域。 图8 在交通中的应用。为GIS客户端将地理数据通过地图引擎显示在客户端的地图上面。对地理数据与视频信息进行时空分析,在电子地图上显示固定监控点、移动监控车辆位置,并且提示告警信息,用户可以纵观监控系统中所有监控摄像机的工作状态,直观、快速地查看各个监控现场的地理信息。根据情况,快速切换到相应摄像机的监控区域,为远程指挥提供科学的依据。 2、时空数据挖掘内容 国家多级联网监控工程即将基本建成(图9)。 图9 国家多级联网监控工程 视频数据挖掘需要攻关的主要研究内容如下: (1)运动轨迹异常分析。 ①提取线性轨迹及其特征,求其特征加以辨识分类;②解决轨迹交叉分离等问题;③解决多目标重叠异常分析。 图10 视频运动轨迹异常分析 (2)基于混合模型的目标分析。 其中,包括色彩模型分析、形状模型分析、特征区块或特征点分析(如基于Hog算子的行人分类,见图11)。 图11 基于Hog算子的行人分类 (3)结合模式识别的分类。 如SVM、Ann、Boost快速分类技术对运动目标进行分类识别。 (4)多摄像头时空分析。 对于同一时段目标,因摄像头摆放位置固定,目标出现的时间顺序相互关联,借助这种关联信息,结合图像目标匹配技术实现时空关联分析。 (5)不同时期摄像头视频分析。 提取不依赖于环境光照、对比度等与时间有关的信息的图像特征,对于不同时期出现的行人或车辆的自动检索辨认。 本文由 刘四旦 摘编自 李德仁、王树良、李德毅 著 《 地球观测与导航技术丛书: 空间数据挖掘理论与应用(第2版) 》 一书,本书被《科学通报》誉其为“ 空间数据挖掘的里程碑式力作 ”。面向大数据, 《 地球观测与导航技术丛书:空间数据挖掘理论与应用(第2版) 》提出数据场、云模型、地学粗空间和空间数据挖掘视角,构建空间数据挖掘金字塔,给出挖掘机理,介绍概念格,总结空间数据源,导出清理空间观测数据的选权迭代法。 面向地理信息系统数据研究空间的关联规则、分布规则、概化规则和聚类规则的挖掘,从图像中发现指导图像分类、特征提取、表情识别的空间知识,以及时空分布的视频数据挖掘。这些理论,在滑坡监测、车轮形变、银行选址、土地利用、人脸识别、公共安全等实际领域,获得了有价值的应用成果,自主研制了空间数据挖掘原型系统GISDB Miner和RSImage Miner。 热烈祝贺 以李德仁先生为第一带头人的武汉大学对地观测与导航技术创新团队获得 2014年度国家科学技术进步奖(创新团队) 。李德仁先生是我国摄影测量与遥感领域的著名专家,是横跨中科院、工程院的“两院院士”,是国家出版基金项目、地球观测与导航技术丛书的主编。 敬请关注科学出版社,搜索微信ID: sciencepress-cspm 或 “ 科学出版社 ” 公众号
个人分类: 科学书摘|6856 次阅读|0 个评论
ArcGIS,Python,网络数据集中查询两点最短路径
Jeppeyu 2013-11-27 17:27
阅读该文章你需要理解References中的如何利用路径网络分析工具进行网络路径分析。 如果你想通过Python Scripts 跟ArcGIS进行交互,通过网络数据集,完成查询交通地图中任意两点之间的最短路径 (从点A到点B的最短距离,对应于真实交通网络最短路径) 的任务的话,那你就来对地方了。 ArcGIS是有Ersi公司开发的一款专门用于处理地理数据的集成软件。ArcGIS集成了好几个工具,经常被用到了主要有ArcMap和ArcCatalog。ArcMap主要用于可视化的路网分析,ArcCatalog (以我的理解) 主要是充当数据库的角色。 ArcMap提供了很多地理分析工具,不同的工具都需要特定的输入数据,其中我们将会用到Network Analyst工具需要输入网络数据集。网络数据集 (如右图所示)非常适合于构建运输网。它们通过源要素创建,其中可以包括简单要素(线和点)和转弯要素并存储源要素的连通性。 使用 ArcGIS 网络分析执行分析时,该分析始终在网络数据集中进行。如下图所示,NA提供了平面几何网络的路径分析工具,其实ArcGIS还提供了 表面分析的工具 ,可以点击左侧的超链接,可以在ArcGIS的帮助里面找到更加形象的理解。至于我们该如何利用NA进行地图中任意两点之间的最短路径分析流程,可以参考下面的References,我就不一步一步的介绍了。篇幅有限,我们直奔主题,如何通过Python与ArcGIS进行交互进行两点之间的最短路径进行分析。PS : 最好在Windows环境下计算两点之间的最短路径。 为了便于大家理解贴上来的代码,我简单介绍下计算两点之间的最短路径分的步骤 1. 利用你手头上的路网数据通过ArcCatalog生成一份 Network dataset, 保存在你自己设定好的工作路径下 2. 为你生成这份网络数据集新建一个网络分析工具 (Network Analyst), NA 包括了好几个组件,其中的 Stops 和 Route 对于路径分析来说是非常重要的组件。 3. Stop 译为停靠点,是网络路径分析工具的分析对象,来自于ArcCatalog中的Shapefile表。在这里就是我们要进行路径分析的GPS点。在NA中,Stop会实例化为 Point类型的对象,所以我们先要有创建一张包含有两个shape类型的Points。随机初始化两个包含有 #shape, #longitude, #latitude 属性的Points,以后每有一次计算两个GPS点,就更新一次该Shapefile。 4. Route 会保存 NA 的分析结果。需要注意的是,NA会根据你所选择的衡量指标得到不同的最优路径结果。比如,你选择距离作为寻找最优路径的指标的话,NA 会返回距离最短的路径信息,如果你选择时间作为最优路径指标的话,NA 会返回花费时间最短的路径信息。 5. 如果你得到了你需要计算最短路径的两个GPS点,首先更新3中提到的Shapefile,然后将该Shapefile作为输入,传递给 Network Analyst,调用NA对象的 solve 函数就能得到返回结果,单位为 km python code : http://vdisk.weibo.com/s/DmLYNa9y7Oj8 References: 路径网络分析流程 路径分析网络的网络分析对象 也就对应于你将要查询的两个点 Network Analyst Tool/Module RouteSolverProperties (arcpy.na) Fusion Center Blogs - Python GIS Create Shapefile with Python Based on arcpy Geospatial Python 这个需要翻墙,但是里面的脚本真的非常有用,尤其是对 Shapefile 的讲解 Edit and Create Shapefile in ArcMap Cursor : Editing shapefile in Python ArcGIS 10 Desktop Resource Center Feature Class Geodatabase VS Shape File
个人分类: 地理信息系统|15083 次阅读|0 个评论
大数据的价值以及空间数据挖掘的思考
wwh1295 2013-8-1 15:14
大数据时代的来临及其价值体现 IBM 用 规模性 (Volume) 、 多样性 (Variety) 、高速性 (Velocity) 和真实性 (Veracity) 的“ 4V 理论”来定义大数据。 据著名咨询公司 IDC (International Data Corporation ) 发布的研究报告,全球被创建和被复制的数据总量为 1.8ZB ,预计到 2020 年,人类产生的数据总量将达到 40ZB ,人均数据预计将达 5,247GB ,中国将产生 21% 的数据。数字宇宙膨胀的主要原因是机器生成的数据量的增长,在这个数字宇宙中 33% 的数据将包含有价值的信息。根据中国权威 ICT 研究咨询机构计世资讯 ( CCW Research ) 研究数据, 2012 年中国大数据市场规模为 4.5 亿元, 2013 年预计增长到 11.2 亿元,且此后将保持每年超过 100% 的增长率,到 2016 年,中国大数据市场规模将达 93.9 亿元。 2010 年 7 月,联合国发布了《大数据促发展:挑战与机遇》白皮书,指出大数据对于全世界是一个历史性的机遇,可以利用大数据造福人类。 2012 年 3 月,美国政府发布了《大数据研究和发展倡议》,此项带有 2 亿美元推动资金的倡议,旨在通过推动和改善与大数据相关的收集、组织和分析工具及技术,提升从海量和复杂的数据集中获取知识和洞察分析能力。美国将大数据作为国家级的战略,在其经济社会发展中占有重要地位。 Ps: 2012 年 11 月《时代》杂志撰文指出奥巴马总统连任成功背后的秘密,其中的关键是对过去两年来相关网络数据的搜集分析和挖掘。 2013 年被认为是大数据时代元年,大数据的科学价值和社会价值正在逐渐体现,数据的作用正在被迅速而充分地释放,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。大数据正以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。 2011 年,世界经济论坛 ( World Economic Forum ) 称大数据为新财富。 2012 年,瑞士达沃斯论坛的《 BigData, Big Impact 》把数据当作货币或黄金一样的经济资产类别。美国政府认为大数据关系到国家的经济结构调整和产业升级,是“未来的新石油”。 大数据正在改变我们的生活以及理解世界的方式,甚至它比我们自己更了解自己,当然这需要庞大的数据资源、数据挖掘算法以及数据处理能力作为支撑,我们也变成了数据的创造者,我们的行为、位置、社交关系,甚至生理数据都可能被记录并成为分析和处理的数据源。 数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。 而大数据时代的这种聆听手段主要体现在数据挖掘上,它可以接受数据一定程度上的不精确和不完美,但能够更好地理解这个世界,并能够更好地进行预测;它注重数据本身,让数据发声,聆听到以前从未意识到的联系的存在,即相关关系,而不是一味地得到明确的因果关系。因此谷歌可以预测季节性流感在时间和空间上的传播、 Farecast 可以预测机票的价格走势、亚马逊可以帮助我们推荐想要的书、 Facebook 等社交平台可以帮助我们找到可能认识或者感兴趣的人、甚至我们使用的 Microsoft Word 可以帮助我们检查拼写和语法错误。 空间数据挖掘的主要方法 世界本身构成了世界上最基础的信息,人类活动所涉及的信息中也有 80% 与地理信息有关,对于空间数据的认知与挖掘让我们更好地理解、展现与改变我们的世界,这也正是近三年 Esri 用户大会的主题所体现的 ( "GIS-UnderstandingOur World",2011/"GIS-Opening our world",2012/"GIS-Transforming our World",2013) 。 在 Google Ngram Viewer ,利用 Google 所拥有的所有数字图书数据作为数据源,我们分析了 "GIS" 历年使用的次数,这从一定程度上体现了学科发展的趋势。可以很明显地看到从 60 年代的起步、巩固到 80 年代的技术大发展和 90 年代以来的应用普及这样一个趋势。如果把网络大数据也纳入数据源,我想后期的变化趋势会更加明显,空间数据挖掘与知识发现也成为近年来 GIS 理论与方法的关注热点之一。 不断增加的遥感卫星、雷达等传感器和各种固定或移动的终端设备使得空间数据的规模和复杂性飞快增长,已经超过了人类所能解释的能力。出现了“ 空间数据爆炸但知识贫乏 ”的问题,因此我们需要从空间数据库中自动或半自动地挖掘事先未知却潜在有用的空间模式的方法 —— 空间数据挖掘和知识发现 (SDMKD, spatialdata mining and knowledge discovery) ,不同于普通的 DMKD (data mining and knowledge discovery) 它的对象是 空间数据库或空间数据仓库 ,有别于常规的事务型数据库,比一般数据挖掘的发现状态空间理论增加了尺度维 (scale) 。国内较早提出这一概念的是李德仁院士,他认为 SDMKD 挖掘的空间知识主要包括空间的关联、特征、分类和聚类等规则及例外。一般表现为一组概念、规则、法则、规律、模式、方程和约束等形式的集合 , 是对数据库中数据属性、模式、频度和对象簇集等的描述。他指出,与传统的地学数据分析相比, SDMKD 更强调在隐含未知情形下对空间数据本身分析上的规律挖掘 , 空间知识分析工具获取的信息更加概括、精练。 关于 SDMKD ,主要有以下一些理论和方法: ◆ 概率论 (pobability theory) : 根据随机概率挖掘含有不确定性的空间数据库,发现的知识被表示成给定条件下某一假设为真的条件概率,常用作背景知识。 ◆ 证据理论 (evidence theory) : 将实体分为确定部分和不确定部分,可以用于基于不确定性的空间数据挖掘。利用证据理论的结合规则,可以根据多个带有不确定性的属性进行决策挖掘。 ◆ 空间统计学 (spatial statistics) : 是依靠有序的模型描述无序事件,根据不确定性和有限信息分析、评价和预测空间数据。空间统计学是基本的数据挖掘技术,特别是多元统计分析 ( 如判别分析、主成分分析、因子分析、相关分析、多元回归分析等 ) 。 ◆ 规则归纳 (rulesinduction) : 是在一定的知识背景下,对数据进行概括和综合,在空间数据库或空间数据仓库中搜索和挖掘以往不知道的规则和规律,得到以概念树形式 ( 如 GIS 的属性概念树和空间关系概念树 ) 给出的高层次的模式或特征。 ◆ 聚类分析 (clustering analysis) : 主要是根据实体的特征对其进行聚类或分类,按一定的距离或相似测度在大型多维空间数据集中标识出聚类或稠密分布的区域,将数据分成一系列相互区分的组,以期从中发现数据集的整个空间分布规律和典型模式。 ◆ 空间分析 (spatial analysis) : 是利用一定的理论和技术对空间的拓扑结构、叠置、图像、空间缓冲区和距离等进行分析的方法总称,目的在于发现有用的空间模式。探测性的数据分析 (exploratory data analysis, EDA) 采用动态统计图形和动态链接技术显示数据及其统计特征,发现数据中非直观的数据特征和异常数据。 ◆ 模糊集 (fuzzy sets) : 用隶属函数确定的隶属度描述不精确的属性数据,重在处理不精确的概率。模糊性是客观的存在,系统的复杂性愈高,对它的精确化能力就愈低,模糊性愈强。在空间数据挖掘中,模糊集可用作模糊评判、模糊决策、模糊模式识别、模糊聚类分析、合成证据和计算置信度等。 ◆ 云理论 (cloud theory) : 是一个分析不确定信息的新理论,由云模型、不确定性推理和云变换三部分构成。云理论把定性分析和定量计算结合起来,可以用于处理 GIS 中融随机性和模糊性为一体的属性不确定性。 ◆ 粗集 (rough sets) : 由上近似集和下近似集组成,是一种处理不精确、不确定和不完备信息的智能数据决策分析工具。较适于基于属性不确定性的空间数据挖掘。 ◆ 神经网络 (neural network) : 是由大量神经元通过极其丰富和完善的连接而构成的自适应非线性动态系统,并具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自适应等功能。神经网络具有鲜明的“具体问题具体分析”特点,其收敛性、稳定性、局部最小值以及参数调整等问题尚待更深入的研究,尤其对于输入变量多、系统复杂且非线性程度大等情况。 ◆ 遗传算法 (genetic algorithms) : 是模拟生物进化过程,利用复制 ( 选择 ) 、交叉 ( 重组 ) 和变异 ( 突变 ) 三个基本算子优化求解的技术。在空间数据挖掘中,把数据挖掘任务表达为一种搜索问题,利用遗传算法的空间搜索能力,经过若干代的遗传,就能求得满足适应值的最优解规则。 ◆ 可视化 (visualization) : 通过研制计算机工具、技术和系统,把实验或数值计算获得的大量空间抽像数据 ( 如信息模式、数据的关联或趋势等 ) 转换为人的视觉可以直接感受的具体计算机图形图像,以供数据挖掘和分析。 SDMKD 涉及复杂的数学方法和信息技术,可视化是空间数据的视觉表达与分析,借助图形、图像、动画等可视化手段对于形象地指导操作、定位重要的数据、引导挖掘、表达结果和评价模式的质量等具有现实意义。 ◆ 决策树 (decision tree) : 根据不同的特征,以树型结构表示分类或决策集合,产生规则和发现规律。在空间数据挖掘中,首先利用训练空间实体集生成测试函数;其次根据不同取值建立树的分支,在每个分支子集中重复建立下层结点和分支,形成决策树;然后对决策树进行剪枝处理,把决策树转化为据以对新实体进行分类的规则。 ◆ 空间在线数据挖掘 (spatial online analytical mining, SOLAM) : 建立在多维视图基础之上,是基于网络的验证型空间数据挖掘和分析工具。它强调执行效率和对用户命令的及时响应,直接数据源一般是空间数据仓库。网络是巨大的分布式并行信息空间和极具价值的信息源,但因网络所固有的开放性、动态性与异构性,又使得用户很难准确、快捷地从网络上获取所需信息。空间在线数据挖掘的目的就在于解决如何利用分散的异构环境数据源,及时得到准确的信息和知识。它突破了局部限制,发现的知识也更有普遍意义。 空间数据挖掘与 GIS 集成模式 将地理信息系统与数据挖掘有效集成,主要问题是如何利用数据挖掘技术提取潜藏在空间数据库中空间数据所蕴含的知识和规则,而关键问题是数据挖掘算法如何获取空间数据库中的数据,也就是空间数据库中数据共享方式问题。按照数据挖掘算法利用空间数据库中数据方式的不同,地理信息系统与数据挖掘集成的模式主要分为两种方式: 1 、外部空间数据挖掘模式 这种模式将数据挖掘系统和地理信息系统看成是两个独立的系统,地理信息系统与数据挖掘系统之间通过数据通信的方式进行联接,通过第三方软件或计算机高级语言实现数据交换。外部空间数据挖掘模式结构松散,因此又称为松散耦合式集成模式,具有灵活度高的优点。 2 、内部空间数据挖掘模式 这种模式将数据挖掘与地理信息系统集成为一个整体的系统,将数据挖掘内嵌到地理信息系统中,利用地理信息系统提供的时空査询、时空分析等模块从空间数据库中提取所需的挖掘样本数据,将数据挖掘看作地理信息系统的子模块。内部空间数据挖掘模式是以地理信息系统为主而建立的一个整体系统,数据挖掘是内嵌入系统的,因此又称为嵌入式耦合模式,具有开发效率高的优点。 此外,还有混合模式的集成模式,就是将内部挖掘模式和外部挖掘模式进行结合,既能发挥外部数据挖掘模式灵活的特点,又保持了系统的集中性和整体性,减少用户自己编写程序的工作量和难度。 在大数据时代,将空间数据挖掘技术和传统 GIS 技术方法集成,充分发挥 GIS 在时空数据的输入、存储、管理、查询和显示等方面的优势,突出空间数据挖掘技术在分析和处理海量时空数据时的强大功能,对于发现大量时空数据中的潜在有价值信息,提高数据的使用效率有着十分重要的作用,为智慧城市建设所涉及的各领域输送生生不息的血液,帮助我们更好地理解、展现与改变我们的世界。 参考资料: 李德仁 , 王树良 , 李德毅 , 等 . 论空间数据挖掘和知识发现的理论与方法 . 武汉大学学报 ( 信息科学版 ) ,2002,27(3) : 221-233. 李德仁 , 眭海刚 , 单杰 . 论地理国情监测的技术支撑 . 武汉大学学报 ( 信息科学版 ) ,2012 , 37(5) : 505-512+502. 李德仁 , 姚远 , 邵振峰 . 智慧地球时代测绘地理信息学的新使命 . 测绘科学 ,2012,37(6) : 5-8. 黄铧焕 , 薛丽芳 . 大数据 , 大政务 , 新网络——大数据时代电子政务网络的发展方向 . 电子政务 ,2012(5) : 104-109. 王元卓 , 靳小龙 , 程学旗 . 网络大数据 : 现状与展望 . 计算机学报 ,2013,36(6) : 1125-1138. 王树良 , 丁刚毅 , 钟鸣 . 大数据下的空间数据挖掘思考 . 中国电子科学研究院学报 ,2013,8(1) : 8-17. 乔朝飞 . 大数据及其对测绘地理信息工作的启示 . 测绘通报 ,2013(1) : 107-109. FaisalKamiran, Toon Calders. Datapreprocessing techniques for classification without discrimination . Knowledgeand Information Systems,2012,33(1) : 1-33. Nikolaj Tatti, Jilles Vreeken. Comparingapples and oranges: measuring differences between exploratory data mining results . Data Mining and Knowledge Discovery,2012,25(2) : 173-207. 张颖 . 基于地理信息系统的气象数据时空挖掘研究 . 大连: 大连理工大学 ,2012. 袁峻 . 数据挖掘在电子政务办公系统中的应用 . 上海: 华东师范大学 ,2010. MckinseyGlobal Institute. BigData : TheNext Frontier for Innovation, Competition, and Productivity .2011. UnitedNations Global Pulse. BigData for Development: Challenges Opportunities .2012. 维克托·迈尔·舍恩伯格 , 肯尼思·库克耶 . 大数据时代 : 生活工作与思维的大变革 . 盛杨燕,周涛,译 . 杭州:浙江人民出版社 ,2012. Pang-NingTan, Michael Steinbach, Vipin Kumar. 数据挖掘导论(完整版) . 范明,范宏建,等译 . 北京:人民邮电出版社 ,2011.
9618 次阅读|0 个评论
空间数据挖掘与GIS集成及应用研究
热度 1 maokebiao 2009-5-28 08:42
摘 要: 阐明空间数据挖掘与GIS集成的优越性,分析空间数据挖掘与关系数据库系统的区别,介绍面向对象技术对空间数据挖掘和空间数据挖掘的常用算法.在此基础上介绍地理信息系统与空间数据挖掘工具及应用。 1. 毛克彪 , 覃志豪 , 李昕 , 李海涛 , 空间数据挖掘与 GIS 集成及应用研究 , 测绘与空间地理信息 , 2004, 27(1):14-18. pdf 下载: 空间数据挖掘与GIS集成及应用研究
个人分类: 星星点灯|4040 次阅读|3 个评论
空间数据挖掘技术方法及应用
热度 1 maokebiao 2009-5-28 08:34
摘 要: 着重阐述了通用控间数据挖掘体系结构,空间数据的关联特性,几种主要的空间数据控制方法。最后对一实例进行了应用分析。 1. 毛克彪 , 田庆久 , 空间数据挖掘技术及应用研究 , 遥感技术与应用 ,2002, (4):198-206. pdf 下载: 空间数据挖掘技术及应用研究
个人分类: 星星点灯|4029 次阅读|1 个评论
基于空间数据仓库的空间数据挖掘研究
热度 1 maokebiao 2009-5-28 08:32
摘 要: 分析了空间数据仓库的特点和体系结构,在空间数据仓库的基础上提出了一种空间数据挖掘的模型结构,介绍了一些常用空间数据挖掘算法,并展望了其广阔的应用前景。 1. 毛克彪 , 覃志豪 , 李海涛,周若鸿 , 基于空间数据仓库的空间数据挖掘研究 , 遥感信息 , 2002 , 68(4):19-26.  pdf 下载: 基于空间数据仓库的空间数据挖掘研究 ,
个人分类: 星星点灯|3589 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-3 01:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部