yy360的个人博客分享 http://blog.sciencenet.cn/u/yy360

博文

大数据杂谈

已有 3976 次阅读 2014-3-9 21:05 |个人分类:大数据|系统分类:论文交流|关键词:学者

大数据的杂谈

    说到大数据,就感觉这个词一夜之间在全世界火了,政府在研究它,以它制定科学计划;学者研究它,视它为革命创新的第一步;公司研究它,视它为未来的领军,谁错过,谁就落后时代。大数据的火热并不意味着对于大数据的了解深入,反而表明大数据存在过度的炒作危险,如云计算。好了,那么神奇的东西是什么,又能做些什么,下面就是我对大数据的一些理解,不对的,不好的请指出。

    首先来说说它的概念吧!网络上有很多关于它的描述,比较多的是指无法在一定时间内用常规机器和软硬件工具对其进行感知、获取、管理、处理、和服务的数据集合(一般的量要达到PT级别)。看概念的描述应该很好理解。

    在来说说大数据的一些历史来源。貌似很多新的东西,新的技术,新的想法都是从美国开始,这次也不例外。美国早在克林顿政府时,就宣布实施“国家信息基础设施计划”,这个计划是由通信网、计算机网、数据网和消费类电子产品组成的信息网络,传送图像、语言、文字到各个机构和家庭。并在之后又在国防部上发布NCW计划,并逐年发展。在上述背景下,2012329日,美国政府宣布了“大数据研究和发展倡议(BDR DI)”,意在推进大量、复杂的数据集合中获取知识和洞见能力。而到了奥巴马政府,它出台了“大数据研究和发展倡议”,于是大数据时代开始了,美国乃至全球掀起了大数据研究热潮。

    在来说大数据的一些特性,这是介绍大数据资料一般都要说的,那我也讲讲。主要概括起来是4v。即:规模性(volume,多样性(variety)和快速性(velocity+真实性(veracity)或价值性(value)。规模化其实就是数据量的规模,比如美国股市每天的成交量为70亿股,谷歌每天处理的数据量是24PB…这些数据的规模是以前无法想象的。多样性即说明数据类型的多样性,包括:图片,文字,视频,数字,。。。就是由于数据类型的多样性使得大数据的分析成为困难。快速性是数据量增长的速度。但为什么第四个有两个定义,其实是观点不同而已,一个是IDC公司认为大数据是由价值性,一个是IBM认为大数据必然具有真实性。

   既然想研究大数据就应该有一些思维的改变,主要有以下三种:(1)可以分析更多数据,与之相关联的所以数据都可以分析,而不再是依赖采样。(2)不再追求精确度。当拥有海量即时数据时,绝对的精确不再是追求的主要目标,适当忽略微观层面上的精度,会在宏观层面拥有更好的洞察力。(3)不再热衷于寻找事物间的因果关系,而是相互之间的相关关系。相关关系也行不能准确地说明一个社会现象发生的原因,但是它会揭示其发展过程。或许这就是跟以前传统数据挖掘的差别。有一个形象的比喻,以前的数据挖掘时池塘捕鱼,到大数据时就是大海捕鱼,以前的分析是朝着自己预订的目标方向去挖掘,而大数据时代则是不知道有什么结果,或许什么都没有,所以就像大海捕鱼。非常有名的例子是啤酒和尿布的关系,之前人们是不知道这两者有关系的,但通过大数据的分析,得到了它们的相关关系。

    最后,想谈谈大数据的一些应用方面。先记住大数据分析的核心价值。全样本,消除信息噪音的影响,提高准确率,因为高效,弥补精确性。虽然传统的抽样统计得出的信息也许更精确,但往往滞后,这种滞后有时候是致命性的。大数据时代与社会计算的结合,大数据时代的交通工程,大数据时代的只能电网实现,大数据分析与营销手段的变化等很多方面都可以应用。




https://m.sciencenet.cn/blog-1257957-774530.html

上一篇:PCA与KPCA
下一篇:电子政务顶层设计

7 郑小康 刘桂锋 薛宇 李大斌 姚小鸥 刘钢 吕乃基

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-11 15:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部