科学网

 找回密码
  注册

tag 标签: 大数据

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]预测未来大数据的十大趋势
rbwxy197301 2012-8-14 20:22
预测未来大数据的十大趋势 http://www.enet.com.cn/networks/ 2012年07月30日10:41 来源:中关村在线 !--字号:小 | 大 【文章摘要】目前的大数据技术主要应用于GooGle、Facebook、腾讯、百度、中移动、中联通这样的互联网或通信运营巨头,但周震刚表示,用户将逐步了解大数据并不仅仅指处理网络数据,而行业对大数据处理的需求也会增加,包括数据流监测和分析。 在近日英特尔举行的“大数据论坛”上,IDC分析师对大数据十大的未来给出以下十大预测。   1、 Hadoop迈向商业化   2、 部分早期的Hadoop项目面临挑战   3、 开源软件带来更多相关市场机会   开源软件提供了很多解决问题的技术思路,并且完全免费使用,成本优势十分明显,但周震刚做了一个比喻:水是免费的,但为何很多人买瓶装水呢?   4、 大数据推动软件公司间的并购   没有任何企业可以包容整个市场,大公司为了增强实力必然并购新生的小公司。   5、 针对大数据的Appliance市场迅速增长   包括Data Warehouse Appliance,NoSQL Appliance,和多种技术结合的Appliance.   6、 大数据由网络数据处理走向企业级应用   目前的大数据技术主要应用于GooGle、Facebook、腾讯、百度、中移动、中联通这样的互联网或通信运营巨头,但周震刚表示,用户将逐步了解大数据并不仅仅指处理网络数据,而行业对大数据处理的需求也会增加,包括数据流监测和分析。   7、 大数据创造新的细分市场   包括:数据分析作为服务产品提交;数据代理这样的高级数据服务;整合多种信息管理,访问和分析组建的统一的信息访问和分析产品;社交分析;大数据培训市场。   8、 打包的大数据行业分析应用出现   在行业方面,将出现打包的分析应用,特定行业和业务流程分析应用等,将为大数据技术提供商打开新的实测,这些应用程序内容将包含行业专业知识。   9、 大数据推动基础架构向Scale-out发展   大数据需要分布式的方式更加有效地处理,传统的向上扩展架构更加适合处理结构化数据和关系型数据库,大数据的处理需要横向扩展的基础架构。   10、 中国成为全球最重要的大数据市场之一 转自: http://www.enet.com.cn/article/2012/0730/A20120730142958.shtml
个人分类: 文章转载|3117 次阅读|0 个评论
大数据为什么热门?(120814)
热度 9 ymin 2012-8-14 08:19
大数据为什么热门?( 120814 ) 闵应骅 最近,“大数据”不仅是科研的热门课题,也是产业界的热门,更受到其他各界的密切关注,例如环境保护、健康医疗、生命科学等许多方面。 8 月 7-9 日参加了在黄山召开的中美环境监测保护、公共健康及灾害恢复研讨会。这个会并不是专谈计算机,或者信息技术,而是谈计算机和信息技术的应用,中美双方都有环境监测保护、公共健康及灾害恢复方面的专家参加。不过这是由澳门大学牵头组织的,不是政府组织的。会上一个热门话题就是大数据。本文企图通俗地介绍一下这个问题。本人也是新学,欢迎批评指正。 数据为什么还有大小?大数据过去叫海量数据。 1990 年度,数据仓库之父 Bill Inmon 就开始关注 Big Data 。 2008 年 9 月自然杂志发表“ Big Data: Science in the petabyte era ”,这个词就算正式提出来了。大数据处理除了数据量非常大以外,就是动态性明显,随时都在变,在不断增加,而数据源多种多样,数据格式非常不同,数据集的大小也非常不同。不过,它们无非是由 0 , 1 组成的向量序列。 大数据为什么会热门呢?有了互联网,照相、摄像、录音设备的普及,和广泛的网上交流,使得数据产生很便宜、很方便,数据量就爆炸性的增长,到 2010 年,全球进入所谓 ZB 时代。 1TB=1024GB ,而 1ZB 却等于 10 亿 TB 。而且,这些数据有的是文本,有的是图形、图像、声音、影视,每一类又有不同的文件格式。这样的大数据涌上来,原来的数据库、数据仓库管理系统都已经不能胜任了。所以,产业界、学术界都热衷于这个问题的解决。 Hadoop 就是一种解决方案。其实,各个公司都在搞,学术研究也在热烈进行。 要想获取、存储、处理、检索、使用大数据,首先应该科学地来理解全球大数据的特性。 1947 年哈佛大学物理学教授齐普夫( G.K.Zipf )说:英文单词的出现频率服从 幂律型尾部的分布,即所谓重尾分布,而不是指数型的轻尾分布。随着高速存取和极大的存储空间,大数据 有研究说 并不服从 齐普夫定律,并不是 80% 的处理都集中在 20% 的数据集上,而是长尾下降很慢,分布平缓得多。所以,有人提出了所谓延伸的指数分布。不过,有统计说 80% 的保健收入用在了 20% 的人身上, 80% 的 Web 请求是存取 20% 的网页。可能不同的流有不同的分布。大数据的管理和分析,以及各种算法的设计都应该以可扩展性作为第一要务。目前,许多大公司都推出了大数据分析产品。而对科研人员来说,光用公司的工具可能还是不够或者有欠缺的。 有兴趣的读者建议参考斯坦福大学 J.D.Ullman 教授等人 2011 年出版的新书: Mining of Massive Datasets, 341 pages 。该书可以在网上下载。
个人分类: 网络|10510 次阅读|24 个评论
[转载]SIGKDD发展历程及“数据挖掘”术语起源
shawn360 2012-8-13 08:55
Gregory Piatetsky-Shapiro(ACM SIGKDD 前任主席) Usama Fayyad ACM SIGKDD(现任主席) 编者按: ACM SIGKDD 2012 (简称KDD ’ 12) 于2012年8月12至16日在北京召开。这是KDD年会首次在亚洲召开。为介绍这一盛会,我们特意邀请了ACM 知识发现与数据挖掘专业委员会SIGKDD 前任主席Gregory Piatetsky-Shapiro博士和ACM SIGKDD 现任主席Usama Fayyad博士为我们撰写了一篇关于ACM SIGKDD发展历程以及 “ 数据挖掘 ” 这一术语起源(参见本文的小贴士)的短文。 希望能帮助读者更好地了解这一国际科学协会,以及积极参加明年8月份的会议。 —— 杨强(香港科技大学),王建勇(清华大学), 2011-11-18 我们生活在一个大数据的时代 —— 这是人类文明史上自工业革命以来的第二场大革命。 大数据的挖掘显现在我们生活和商业的各个方面,例如:帮助提高销售能力,减少客户流失,推荐客户、电影和音乐,发现并防止欺诈和犯罪,以及发现新药、开发个性化医药、了解气候变化等。 ACM SIGKDD ( http://www.kdd.org) ,即 ACM 知识发现与数据挖掘专业委员会,一直专注于知识发现与数据挖掘 (也称作预测分析与数据科学 ) 领域 , 是领导这场伟大革命的一流专业协会。 KDD-2012 (http://www.kdd.org/kdd2012) 将在北京向世界展示在这一领域最新的研究和应用成果。 ACM SIGKDD 的创建可以追溯到从 1989 年开始由 Gregory Piatetsky-Shapiro (http://www.kdnuggets.com/gps.html) 组织的一系列关于知识发现及数据挖掘 (KDD) 的研讨会。这些讨论会逐渐发展成为在 1995 年举办的第一次 KDD 会议,由 Usama Fayyad and Ramasamy Uthurusamy 主持。这促使 ACM SIGKDD 专业委员会在 1998 年正式成立,并成为拥有 120000 会员的、计算领域的最大学会 ——ACM 学会的一个重要组成部分。 SIGKDD 致力于为知识发现与数据挖掘这一 “ 科学领域 ” 的发展与应用提供一个重要的论坛平台。 SIGKDD 的主要活动是组织 KDD 年会。该会议始办于 1995 年,据微软亚洲研究院( MSRA )相关统计, KDD 年会是数据挖掘领域公认的国际顶级会议。 2011 年在美国加州圣地亚哥举办的 KDD-2011 会议是世界上规模最大的数据挖掘会议,吸引了超过 1 100 名专家学者参会。 KDD-2012 (http://www.kdd.org/kdd2012) 是第十八届知识发现与数据挖掘国际年会。 自 1997 年开始, SIGKDD 组织年度 KDD Cup 比赛。 KDD Cup 涵盖了许多主题,包括产品直销、网络入侵检测、点击流分析、社交网络分析、文本挖掘、推荐系统、医学成像分析以及学生学习效果预测等。 KDD Cup 挑战赛的成功引发了许多其他知名的挑战赛,例如 Netflix 公司悬赏 100 万美金以及 Heritage Health 悬赏 300 万美金的比赛。同时, KDD Cup 促进了一些与数据挖掘及分析相关的竞赛以及基于这些竞赛的相关产业(例如 Kaggle )的发展。 SIGKDD 设有年度最佳创新奖和最佳服务奖(被誉为数据挖掘界的 “ 诺贝尔 ” 奖)。最佳创新奖授予那些在知识发现和数据挖掘领域中具有持久影响力、对该领域的理论发展和工业应用做出杰出技术性贡献的研究者。历届的获奖者有: Dr. J. Ross Quinlan, Dr. Christos Faloutsos, Dr. Padhraic Smyth, Dr. Raghu Ramakrishnan, Dr. Usama M. Fayyad, Dr. Ramakrishnan Srikant, Dr. Leo Breiman, Dr. Jiawei Han, Dr. Heikki Manilla, Dr. Jerome H. Friedman 以及 Dr. Rakesh Agrawal. SIGKDD 的最佳服务奖授予那些在知识发现和数据挖掘领域有过突出服务贡献的学者。历届的获奖者有: Dr. Bharat Rao, Prof. Osmar R. Za ane, Dr. Sunita Sarawagi, Dr. Robert Grossman, Dr. Won Kim, The Weka team, Dr. Xindong Wu, Dr. Usama Fayyad, Dr. Ramasamy Uthurusa my 以及 Dr. Gregory Piatetsky-Shapiro. SIGKDD 设有最佳博士论文奖和最佳学生论文奖以促进相关教育事业的发展,并于 2006 年公布了一份针对下一代学生的数据挖掘相关推荐课程。 此外, SIGKDD 还出版一本专注于数据挖掘和知识发现的刊物 ——“SIGKDD Exlorations” (http://www.kdd.org/explorations) 。这一刊物的创刊主编为 Usama Fayyad, 之后的主编包括 Sunita Sarawagi 和 Osmar Zaiane 。目前由 Bart Goethals 担任主编。 “SIGKDD Explorations” 是 ACM SIGKDD 的官方刊物,每年出版两次,并在合适的情况下出版特刊( special issues) 。 SIGKDD 的现任主席是 Dr. Usama Fayyad ,秘书 / 财务主管是 Dr. Osmar R. Zaiane ,理事会包括: Johannes Gehrke, Robert Grossman, David Jensen, Raghu Ramakrishnan, Sunita Sarawagi, Ramakrishnan Srikant 和 Gregory Piatetsky-Shapiro ( 前任主席 ). 这一学会已有超过 1200 人的会员。 一直以来, KDD 年会是在数据挖掘、数据分析和知识发现领域质量最高、最有代表性的会议。 KDD 2011 提交的研究论文数超过了 714 篇。 其中,有 126 篇文章被录取,包括研究论文长文(极难得到录用)和墙报论文。另外, KDD 会议设有一个工业及政府应用的主题分会(要求提交并报告一个完整的同行评审的论文)和一个工业实践展示会(包括一些参与部署具有很高影响力应用的、来自工业界的嘉宾的特邀报告)。 我们期待着 KDD 2012 在中国北京举行。我们希望这次会议不仅能在参会人数和质量上创新高,并且继续为促进预测分析、数据科学、大规模数据、数据挖掘和知识发现的研究和实践作出贡献。 小贴士 : “ 数据挖掘 ” 最初是作为贬义词出现于上世纪60年代,当时指的意思是从数据中搜索没有先验假设的关联 (correlations without an apriori hypothesis)。 另一个当时常用的名词叫 “ 数据捕捞 ” (data dredging)。 在上世纪80年代, “ 数据库挖掘 ” (database mining)这一词汇开始出现。 在1989年组织第一个数据挖掘研讨会的时候,Gregory Piatetsky-Shapiro博士首先使用了 “ 知识发现 ” 这一词汇, 全称是 “ 数据中的知识发现 ” (Knoweldge Discovery in Data), 简称KDD。但是,很多媒体都倾向于用 “ 数据挖掘 ” 这一词汇。究其原因主要是人们认识到人类拥有了超出我们精力和人力以形成假设的更多的数据。 当数据不论是在量还是维度上变得更大时,数据挖掘变成了能够更加准确地描述企业所正在做的一件事情(即从数据中获取价值)的一个词汇,尽管当时传统的方法由于可扩展性太差而无法胜任此项工作。然而当时的统计学界却继续排斥 “ 数据挖掘 ” 这一概念。例如,在1997年Usama Fayyad博士和当时供职于贝尔实验室、现供职于谷歌的统计学家Daryl Pregibon曾经参加在美国加州举办的统计学联合会,在该会议上,他们组织了一个数据挖掘分会以试图改变统计学界的这一错误观念。尽管在场的每个人都从理论上反对 “ 数据挖掘 ” 这一概念,该分会却吸引了数百位统计学家,其中很多人是站在走廊里听完报告的。大约在五六年之后统计学界最终接受了 “ 数据挖掘 ” 这一概念。其中,统计工具的最大提供商SAS和SPSS功不可没。它们率先采纳、生产数据挖掘产品,并以 “ 数据挖掘 ” 的名义进行销售。 现在 “ 数据挖掘 ” 已被拓展到文本挖掘、图像挖掘等领域。谷歌(Google)则大力宣传文本挖掘和万维网挖掘。 “ 数据挖掘 ” 目前已经成为一个标准术语,包括文本挖掘、图像挖掘、万维网挖掘、预测分析,以及处理海量数据(现在被广泛称为大数据)等技术的众多内容。2006年左右,谷歌推出Google Analytics 的产品。 这使得 “ analytics ” 这一词汇的使用变得比 “ 数据挖掘 ” 更为流行。 (编者:我们可以把data analytics翻译成 “ 数据统析 ” , 即数据的统计与分析。) 而在2011年, “ 数据学 ” (data science)成为这一领域的一个热门词汇。然而, 不管用什么词汇来描述这一领域, 其本质总是从大量的数据中发现新的、有用的知识。 原文来自 :中国人工智能学会
6054 次阅读|0 个评论
信息安全形势到底紧张不紧张?(120711)
热度 3 ymin 2012-7-11 09:18
信息安全形势到底紧张不紧张?( 120711 ) 闵应骅 书接上回。上一篇我们谈到隐私和信息安全。在国内,前些年,关于信息安全问题的呼声甚嚣尘上,炒得火热,似乎要压倒一切。近年来,情况有所改变,成立单位,潜心研究,冷静多了。原因何在呢?也许是上方有旨;也许是政府认识到:有比信息安全更加重要的国家安全问题,而且还不少;也许是下述一些事件教育了我们:搞信息安全的公司自己制造病毒,让人家治理不了,以为自己做广告;而另一些公司却在举办黑客培训班;有些公司出卖个人信息赚钱; ATM 机多次出现故障,谁知道银行、金融部门还有多少故障是广大顾客所无法得知的;网络谣言和各种消息;如此等等。这些问题都不是发个文件、加强管理、依靠某些公司和单位就能解决的。需要静下心来,做脚踏实地的研究,和国内各方面的形势统一起来考虑,才能逐步缓解的。越吵吵,反而越紧张。 信息安全与社会网络紧密相关。 Social network (社会网络)有人翻成社交网络。本来, Social 既可以翻成社会的,也可以翻成社交的,但是,社会的含义比社交要广泛得多了。如果未来的网络要是能够使每一个人、每一个物件任何时间在什么地方、做什么事都能被外人知道的话,其实问题就大了。首先是允许谁知道?允许政府的某些机关知道,也会有潜在的危险。其次,据说,本 . 拉登不用电话、不用因特网,你想知道他的行踪反而很困难。再次,这样的大数据量如何处理?我以前的博文中曾经谈到,伦敦市装了那么多摄像头,花了大把的银子,要找一个特定的犯罪分子的影像却很困难。所以,现在大数据的收集和处理成为一个很尖端的科学问题。大数据的收集和开放不但对政府,而且对个人都要开放,这就必须有控制。但是,如何控制?对不同的国家体制影响不同,这都是头痛的问题。这就必须建立信息犯罪的法律和全世界的标准。所以,我一直觉得,信息安全决不只是密码学的问题,密码学属于数学,而网络信息安全与社会联系在一起,比这个要复杂得多。 总之,信息安全的问题随着技术的发展,要研究的问题很多。但是,现在信息安全的形势,比起其他的安全问题来,并不是那么紧张得不得了。虽然,安全社会的建立和和谐世界一样,是一个很长远的目标,不可能一蹴而就的。
个人分类: 网络|3952 次阅读|9 个评论
[转载]大数据成为信息科技新关注点
郭崇慧 2012-7-8 15:54
最近,在信息科技领域,继云计算之后,“大数据”一词成为媒体争相追逐的焦点。对此,中国工程院院士、中科院计算技术研究所首席科学家李国杰接受《中国科学报》记者采访时说:“科技界应高度关注大数据研究这一新的发展方向,从大数据应用中发现挑战性的科学问题,推动以大数据为基础的第四科学范式,促进形成新型交叉学科:网络数据科学。” 信息社会的变化 “60年前数字计算机使得信息可读,20年前因特网使得信息可获得,10年前搜索引擎爬虫将互联网变成一个数据库,现在Google及类似公司处理海量语料库如同一个人类社会实验室。”在近日召开的香山科学会议第424次学术讨论会上,李国杰引用美国《连线》杂志主编安德森的一段话作为他演讲的开场白。 维基百科定义:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”“大数据”具有数据量大、种类多和速度快等特点,涉及互联网、经济、生物、医学、天文、气象、物理等众多领域。 国际数据公司(IDC)的数字宇宙研究报告称,2011年全球被创建和被复制的数据总量为1.8ZB,并预测到2020年,全球将拥有35ZB的数据量。 “数据成本下降促使数据量急剧增长,而新的数据源和数据采集技术的出现使数据类型增多,” 李国杰告诉记者,“各种非结构化的数据又增加了大数据的复杂性。” 2012年3月29日,美国政府拨款2亿美元启动“大数据研究和发展倡议”计划。李国杰认为,这是一个标志性事件,说明继集成电路和互联网之后,大数据已成为信息科技关注的重点。 重视大数据提出的技术挑战 针对美国有关大数据研究的计划,李国杰对记者说,这项大数据计划最为重视的是数据工程而非数据科学,主要考虑大数据分析算法和系统的效率。对我国而言,大数据工程的技术挑战也应当得到重视。 几百年来,科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”。李国杰认为,现在要做的则是“从厚到薄”,要把“大数据”变成“小数据”。“许多数据是重复的或者没有价值的,未来,我们的任务不是获取越来越多的数据,而是数据的去冗分类、去粗取精。”他说。 他进一步指出,现有数据中心技术难以满足大数据的应用需求,整个IT架构的革命性重构势在必行。首先,存储能力的增长远远赶不上数据的增长,设计最合理的分层存储架构已成为信息系统的关键。其次,数据的移动已成为信息系统最大的开销,信息系统需要从数据围着处理器转改变为处理能力围着数据转。此外,高扩展高可用的数据分析技术、新的数据表示方法、高通量计算机等都是亟待解决的技术问题。 基本科学问题仍未达成共识 尽管学术界已注意到大数据带来的科学挑战,但对一些基本的科学问题仍未形成共识。 许多学者认为,计算机科学是关于算法的科学,数据科学是关于数据的科学。有些学者试图将“数据”当成一个“自然体”来研究,即“数据界”。 然而,在李国杰看来,脱离各个领域的“物理世界”,作为客观事物间接存在形式的“数据界”的共性问题还不清楚。 他认为,不同于数据挖掘和统计学,从事大数据研究的学者应当更重视统计分布背后的知识和规律。 “大数据”的复杂性主要来自个体之间的联系。“数据背后是网络,网络背后是人,研究网络数据实际上是研究人组成的社会网络。”李国杰指出,“‘网络数据科学’应是从整体上研究社会的一门科学,其重点是研究数据背后的社会网络。” 因此,大数据已成为联系人类社会、物理世界和信息空间的纽带,需要构建融合人、机、物三元世界的统一的信息系统。 李国杰呼吁,大数据研究正在形成热潮,学术界需保持清醒。“首先要明确大数据研究最有价值的应用领域,理清楚数据科学的边界和研究对象。只有明确了要研究的科学问题,网络数据科学才会走上良性发展的轨道。”他说。 《中国科学报》 (2012-06-27 A1 要闻) 记者: 甘晓
9447 次阅读|0 个评论
[转载]李国杰院士:大数据成为信息科技新关注点
xiangfasong 2012-7-3 18:32
转载地址( http://www.cas.cn/xw/zjsd/201206/t20120627_3605350.shtml ) 最近,在信息科技领域,继云计算之后,“大数据”一词成为媒体争相追逐的焦点。对此,中国工程院院士、中科院计算技术研究所首席科学家李国杰接受《中国科学报》记者采访时说:“科技界应高度关注大数据研究这一新的发展方向,从大数据应用中发现挑战性的科学问题,推动以大数据为基础的第四科学范式,促进形成新型交叉学科:网络数据科学。” 信息社会的变化 “60年前数字计算机使得信息可读,20年前因特网使得信息可获得,10年前搜索引擎爬虫将互联网变成一个数据库,现在Google及类似公司处理海量语料库如同一个人类社会实验室。”在近日召开的香山科学会议第424次学术讨论会上,李国杰引用美国《连线》杂志主编安德森的一段话作为他演讲的开场白。 维基百科定义:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”“大数据”具有数据量大、种类多和速度快等特点,涉及互联网、经济、生物、医学、天文、气象、物理等众多领域。 国际数据公司(IDC)的数字宇宙研究报告称,2011年全球被创建和被复制的数据总量为1.8ZB,并预测到2020年,全球将拥有35ZB的数据量。 “数据成本下降促使数据量急剧增长,而新的数据源和数据采集技术的出现使数据类型增多,” 李国杰告诉记者,“各种非结构化的数据又增加了大数据的复杂性。” 2012年3月29日,美国政府拨款2亿美元启动“大数据研究和发展倡议”计划。李国杰认为,这是一个标志性事件,说明继集成电路和互联网之后,大数据已成为信息科技关注的重点。 重视大数据提出的技术挑战 针对美国有关大数据研究的计划,李国杰对记者说,这项大数据计划最为重视的是数据工程而非数据科学,主要考虑大数据分析算法和系统的效率。对我国而言,大数据工程的技术挑战也应当得到重视。 几百年来,科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”。李国杰认为,现在要做的则是“从厚到薄”,要把“大数据”变成“小数据”。“许多数据是重复的或者没有价值的,未来,我们的任务不是获取越来越多的数据,而是数据的去冗分类、去粗取精。”他说。 他进一步指出,现有数据中心技术难以满足大数据的应用需求,整个IT架构的革命性重构势在必行。首先,存储能力的增长远远赶不上数据的增长,设计最合理的分层存储架构已成为信息系统的关键。其次,数据的移动已成为信息系统最大的开销,信息系统需要从数据围着处理器转改变为处理能力围着数据转。此外,高扩展高可用的数据分析技术、新的数据表示方法、高通量计算机等都是亟待解决的技术问题。 基本科学问题仍未达成共识 尽管学术界已注意到大数据带来的科学挑战,但对一些基本的科学问题仍未形成共识。 许多学者认为,计算机科学是关于算法的科学,数据科学是关于数据的科学。有些学者试图将“数据”当成一个“自然体”来研究,即“数据界”。 然而,在李国杰看来,脱离各个领域的“物理世界”,作为客观事物间接存在形式的“数据界”的共性问题还不清楚。 他认为,不同于数据挖掘和统计学,从事大数据研究的学者应当更重视统计分布背后的知识和规律。 “大数据”的复杂性主要来自个体之间的联系。“数据背后是网络,网络背后是人,研究网络数据实际上是研究人组成的社会网络。”李国杰指出,“‘网络数据科学’应是从整体上研究社会的一门科学,其重点是研究数据背后的社会网络。” 因此,大数据已成为联系人类社会、物理世界和信息空间的纽带,需要构建融合人、机、物三元世界的统一的信息系统。 李国杰呼吁,大数据研究正在形成热潮,学术界需保持清醒。“首先要明确大数据研究最有价值的应用领域,理清楚数据科学的边界和研究对象。只有明确了要研究的科学问题,网络数据科学才会走上良性发展的轨道。”他说。
个人分类: 博文转载|1970 次阅读|0 个评论
“大数据”--长期趋势还是暂时现象
热度 1 shanbowei 2012-7-1 08:25
本期(2012年6期)的《中国计算机学会通讯》 http://www.ccf.org.cn/sites/ccf/jsjtbbd.jsp?contentId=2679929345796 探讨的主题是: 大数据(big data)。 可以说,既 物联网、云计算之后,2012年最受计算机业界关注的问题就是“大数据” 了。“大数据”:是指由于 迅速涌现 出的 海量数据 所带来的众多复杂问题,且该问题已使得现有的工具或算法在可容忍的时间限度内无法处理(来自: http://en.wikipedia.org/wiki/Big_data )。 其实脱开专业解释,从我们日常的生活中也同样会感受到“大数据”现象铺面而来。上谷歌,上百度,任何一条搜索请求都会在瞬间带来成几百万条搜索结果的呈现;上淘宝,上当当,上京东买东西,呈现给顾客的产品信息量远远超过任何一座大商场百万倍;而至于在社交网站上,如QQ空间,人人网,新浪微博上,每秒钟的刷新都会带给用户大量新的信息。 下面是一组“大数据”现象的典型例子: 大型强子对撞机(LHC)在2010年总计产生了13Petabytes的数据; 沃尔玛超市每小时处理超过1百万的用户业务,这些数据被导入数据库后将包含2.5Pdtabytes的数据量,是美国国会图书馆数据量的167倍 Facebook从其用户端处理400亿张图片 全球公司的商业数据量,每1.2年翻一倍 对人类基因进行解码,最初需要10年,而现在仅需要一周时间 这期《通讯》的专题文章共有7篇,分别是: 数据密集业务的挑战和机遇——“大数据”在工业界 海量数据技术在电信业务内应用 大数据的魔力 推荐引擎:信息暗海的领航员 有容乃大——大规模数据云端存储 应对生命科学的大数据挑战 基于云计算的数据密集业务应用 文章作者都是大企业,业界以及学术届的重量级人物。 这些文章讲述的很多事实对我们还是很有指导意义的。因为在互联网普及之前,其实我们一直都处在信息匮乏的时代( 依稀记得我小时候,要在电报上发出一个字,就需要掏1毛钱,那可是两根冰棍的价钱啊! ),想要获得信息是困难的,而需要处理的信息也是极其有限的,所以始终是将主要的精力放在如何获取信息上。而在互联网时代,海量数据可以瞬间获得,所以问题已经发生了转化,现在我们已经处于一个信息爆炸的时代,我们更重要的问题是 如何把海量数据中对我们最有用,对我们最重要的信息提取出来 。 学术界应该和企业界不相同,我们更应带从长期的发展来考虑,“大数据”到底是一个长期的发展趋势还是一个暂时现象,只有能够确切证实“大数据”是一个长期的发展趋势了,其实才真正值得从事基础研究工作的人们进入从而开展工作。
4302 次阅读|1 个评论
[转载]【转载】李国杰院士:大数据成为信息科技新关注点
graceguan 2012-6-28 17:04
作者:甘晓 来源: 中国科学报 发布时间:2012-6-27 8:39:18 http://news.sciencenet.cn/htmlnews/2012/6/266091.shtm 李国杰院士:大数据成为信息科技新关注点 ■本报记者 甘晓 最近,在信息科技领域,继云计算之后,“大数据”一词成为媒体争相追逐的焦点。对此,中国工程院院士、中科院计算技术研究所首席科学家李国杰接受《中国科学报》记者采访时说:“科技界应高度关注大数据研究这一新的发展方向,从大数据应用中发现挑战性的科学问题,推动以大数据为基础的第四科学范式,促进形成新型交叉学科:网络数据科学。” 信息社会的变化 “60年前数字计算机使得信息可读,20年前因特网使得信息可获得,10年前搜索引擎爬虫将互联网变成一个数据库,现在Google及类似公司处理海量语料库如同一个人类社会实验室。”在近日召开的香山科学会议第424次学术讨论会上,李国杰引用美国《连线》杂志主编安德森的一段话作为他演讲的开场白。 维基百科定义:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”“大数据”具有数据量大、种类多和速度快等特点,涉及互联网、经济、生物、医学、天文、气象、物理等众多领域。 国际数据公司(IDC)的数字宇宙研究报告称,2011年全球被创建和被复制的数据总量为1.8ZB,并预测到2020年,全球将拥有35ZB的数据量。 “数据成本下降促使数据量急剧增长,而新的数据源和数据采集技术的出现使数据类型增多,” 李国杰告诉记者,“各种非结构化的数据又增加了大数据的复杂性。” 2012年3月29日,美国政府拨款2亿美元启动“大数据研究和发展倡议”计划。李国杰认为,这是一个标志性事件,说明继集成电路和互联网之后,大数据已成为信息科技关注的重点。 重视大数据提出的技术挑战 针对美国有关大数据研究的计划,李国杰对记者说,这项大数据计划最为重视的是数据工程而非数据科学,主要考虑大数据分析算法和系统的效率。对我国而言,大数据工程的技术挑战也应当得到重视。 几百年来,科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”。李国杰认为,现在要做的则是“从厚到薄”,要把“大数据”变成“小数据”。“许多数据是重复的或者没有价值的,未来,我们的任务不是获取越来越多的数据,而是数据的去冗分类、去粗取精。”他说。 他进一步指出,现有数据中心技术难以满足大数据的应用需求,整个IT架构的革命性重构势在必行。首先,存储能力的增长远远赶不上数据的增长,设计最合理的分层存储架构已成为信息系统的关键。其次,数据的移动已成为信息系统最大的开销,信息系统需要从数据围着处理器转改变为处理能力围着数据转。此外,高扩展高可用的数据分析技术、新的数据表示方法、高通量计算机等都是亟待解决的技术问题。 基本科学问题仍未达成共识 尽管学术界已注意到大数据带来的科学挑战,但对一些基本的科学问题仍未形成共识。 许多学者认为,计算机科学是关于算法的科学,数据科学是关于数据的科学。有些学者试图将“数据”当成一个“自然体”来研究,即“数据界”。 然而,在李国杰看来,脱离各个领域的“物理世界”,作为客观事物间接存在形式的“数据界”的共性问题还不清楚。 他认为,不同于数据挖掘和统计学,从事大数据研究的学者应当更重视统计分布背后的知识和规律。 “大数据”的复杂性主要来自个体之间的联系。“数据背后是网络,网络背后是人,研究网络数据实际上是研究人组成的社会网络。”李国杰指出,“‘网络数据科学’应是从整体上研究社会的一门科学,其重点是研究数据背后的社会网络。” 因此,大数据已成为联系人类社会、物理世界和信息空间的纽带,需要构建融合人、机、物三元世界的统一的信息系统。 李国杰呼吁,大数据研究正在形成热潮,学术界需保持清醒。“首先要明确大数据研究最有价值的应用领域,理清楚数据科学的边界和研究对象。只有明确了要研究的科学问题,网络数据科学才会走上良性发展的轨道。”他说。 《中国科学报》 (2012-06-27 A1 要闻)
1 次阅读|0 个评论
[转载]李国杰院士:大数据成为信息科技新关注点
pikeliu 2012-6-28 09:46
李国杰院士:大数据成为信息科技新关注点 作者:甘晓 来源:中国科学报 发布时间:2012-6-27 8:39:18 ■本报记者 甘晓 最近,在信息科技领域,继云计算之后,“大数据”一词成为媒体争相追逐的焦点。对此,中国工程院院士、中科院计算技术研究所首席科学家李国杰接受《中国科学报》记者采访时说:“科技界应高度关注大数据研究这一新的发展方向,从大数据应用中发现挑战性的科学问题,推动以大数据为基础的第四科学范式,促进形成新型交叉学科:网络数据科学。” 信息社会的变化 “60年前数字计算机使得信息可读,20年前因特网使得信息可获得,10年前搜索引擎爬虫将互联网变成一个数据库,现在Google及类似公司处理海量语料库如同一个人类社会实验室。”在近日召开的香山科学会议第424次学术讨论会上,李国杰引用美国《连线》杂志主编安德森的一段话作为他演讲的开场白。 维基百科定义:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”“大数据”具有数据量大、种类多和速度快等特点,涉及互联网、经济、生物、医学、天文、气象、物理等众多领域。 国际数据公司(IDC)的数字宇宙研究报告称,2011年全球被创建和被复制的数据总量为1.8ZB,并预测到2020年,全球将拥有35ZB的数据量。 “数据成本下降促使数据量急剧增长,而新的数据源和数据采集技术的出现使数据类型增多,” 李国杰告诉记者,“各种非结构化的数据又增加了大数据的复杂性。” 2012年3月29日,美国政府拨款2亿美元启动“大数据研究和发展倡议”计划。李国杰认为,这是一个标志性事件,说明继集成电路和互联网之后,大数据已成为信息科技关注的重点。 重视大数据提出的技术挑战 针对美国有关大数据研究的计划,李国杰对记者说,这项大数据计划最为重视的是数据工程而非数据科学,主要考虑大数据分析算法和系统的效率。对我国而言,大数据工程的技术挑战也应当得到重视。 几百年来,科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”。李国杰认为,现在要做的则是“从厚到薄”,要把“大数据”变成“小数据”。“许多数据是重复的或者没有价值的,未来,我们的任务不是获取越来越多的数据,而是数据的去冗分类、去粗取精。”他说。 他进一步指出,现有数据中心技术难以满足大数据的应用需求,整个IT架构的革命性重构势在必行。首先,存储能力的增长远远赶不上数据的增长,设计最合理的分层存储架构已成为信息系统的关键。其次,数据的移动已成为信息系统最大的开销,信息系统需要从数据围着处理器转改变为处理能力围着数据转。此外,高扩展高可用的数据分析技术、新的数据表示方法、高通量计算机等都是亟待解决的技术问题。 基本科学问题仍未达成共识 尽管学术界已注意到大数据带来的科学挑战,但对一些基本的科学问题仍未形成共识。 许多学者认为,计算机科学是关于算法的科学,数据科学是关于数据的科学。有些学者试图将“数据”当成一个“自然体”来研究,即“数据界”。 然而,在李国杰看来,脱离各个领域的“物理世界”,作为客观事物间接存在形式的“数据界”的共性问题还不清楚。 他认为,不同于数据挖掘和统计学,从事大数据研究的学者应当更重视统计分布背后的知识和规律。 “大数据”的复杂性主要来自个体之间的联系。“数据背后是网络,网络背后是人,研究网络数据实际上是研究人组成的社会网络。”李国杰指出,“‘网络数据科学’应是从整体上研究社会的一门科学,其重点是研究数据背后的社会网络。” 因此,大数据已成为联系人类社会、物理世界和信息空间的纽带,需要构建融合人、机、物三元世界的统一的信息系统。 李国杰呼吁,大数据研究正在形成热潮,学术界需保持清醒。“首先要明确大数据研究最有价值的应用领域,理清楚数据科学的边界和研究对象。只有明确了要研究的科学问题,网络数据科学才会走上良性发展的轨道。”他说。
个人分类: 科技创新|2813 次阅读|0 个评论
[转载]大数据摘抄5
vcitym 2012-6-28 07:04
转自 http://hi.baidu.com/qq272378377/blog/item/555b97ffbd691bcf7709d78e.html 技术基础:大数据分析技术的发展 大数据分析 技术最初起源于互联网行业。网页存档、用户点击、商品信息、用户关系等数据形成了持续增长的海量数据集。这些大数据中蕴藏着大量可以用于增强用户体验、提高服务质量和开发新型应用的知识,而如何高效和准确的发现这些知识就基本决定了各大互联网公司在激烈竞争环境中的位置。首先,以 Google 为首的技术型互联网公司提出了 MapReduce 的技术框架,利用廉价的 PC 服务器集群,大规模并发处理批量事务。 利用文件系统存放非结构化数据,加上完善的备份和容灾策略,这套经济实惠的大数据解决方案与之前昂贵的企业小型机集群 + 商业数据库方案相比,不仅没有丢失性能,而且还赢在了可扩展性上。之前,我们在设计一个数据中心解决方案的前期,就要考虑到方案实施后的可扩展性。通常的方法是预估今后一段时期内的业务量和数据量,加入多余的计算单元( CPU )和存储,以备不时只需。 这样的方式直接导致了前期一次性投资的巨大,并且即使这样也依然无法保证计算需求和存储超出设计量时的系统性能。而一旦需要扩容,问题就会接踵而来。首先是商业并行数据库通常需要各节点物理同构,也就是具有近似的计算和存储能力。而随着硬件的更新,我们通常加入的新硬件都会强于已有的硬件。这样,旧硬件就成为了系统的瓶颈。为了保证系统性能,我们不得不把旧硬件逐步替换掉,经济成本损失巨大。其次,即使是当前最强的商业并行数据库,其所能管理的数据节点也只是在几十或上百这个数量级,这主要是由于架构上的设计问题,所以其可扩展性必然有限。 而 MapReduce+GFS 框架,不受上述问题的困扰。需要扩容了,只需增加个机柜,加入适当的计算单元和存储,集群系统会自动分配和调度这些资源,丝毫不影响现有系统的运行。如今,我们用得更多的是 Google MapReduce 的开源实现,即 Hadoop 。除了计算模型的发展,与此同时,人们也在关注着数据存储模型。传统的关系型数据库由于其规范的设计、友好的查询语言、高效的数据处理在线事务的能力,长时间地占据了市场的主导地位。 然而,其严格的设计定式、为保证强一致性而放弃性能、可扩展性差等问题在大数据分析中被逐渐暴露。随之而来, NoSQL 数据存储模型开始风行。 NoSQL ,也有人理解为 Not Only SQL ,并不是一种特定的数据存储模型,它是一类非关系型数据库的统称。其特点是:没有固定的数据表模式、可以分布式和水平扩展。 NoSQL 并不是单纯的反对关系型数据库,而是针对其缺点的一种补充和扩展。典型的 NoSQL 数据存储模型有文档存储、键 - 值存储、图存储、对象数据库、列存储等。而比较流行的,不得不提到 Google 提出的 Bigtable 。 Bigtable 是一种用于管理海量结构化数据的分布式存储系统,其数据通常可以跨成千个节点进行分布式存储,总数据量可达 PB 级( 10 的 15 次方字节, 106GB )。 HBase 是其开源实现。如今,在开源社区,围绕 Google MapReduce 框架,成长出了一批优秀的开源项目。这些项目在技术和实现上相互支持和依托,逐渐形成了一个特有的生态系统。这里借用 Cloudera 所描绘的架构图来展现 Hadoop 生态系统。这个系统为我们实现优质廉价的大数据分析提供了坚实的技术基础。
个人分类: 杂谈|2130 次阅读|0 个评论
大数据摘抄4
vcitym 2012-6-28 07:00
奥巴马政府发布“大数据研发倡议”,美国一些部门第一轮扶持和投资大数据的承诺如下: 美国国家科学基金和美国国家卫生研究院 —— 推进大数据科学和工程的核心方法及技术 NSF和NIH将对大数据进行联合招标,这些项目包括管理、分析、可视化、以及从大量的多样化数据集中提取有用信息的核心科学技术。这将加速科学发现并使得在新领域中不能实现的研究变得可能。其中,NIH特别对影像、分子、细胞、电生理学、化学、行为学、流行病学、临床和其他与健康和疾病相关的数据集感兴趣。 NSF除了为大数据招标提供资金维持其关注的基础研究外,还正在实施一个全面的、长期的战略,包括从数据中获得知识的新方法;管理、照看和为社区服务数据的基础设施建设;教育和劳动力发展的新途径。具体如下: 鼓励研究型大学开发交叉学科研究生课程,来培养下一代数据科学家和工程师; 资助加利福尼亚大学伯克利分校计算项目探险(Expeditions in Computing project)1000万美元,该项目将融合数据变为信息的3个强大的方法——机器学习(machine learning)、云计算(cloud computing)和众包(crowd sourcing); 提供第一轮补贴资金来支持“地球立方(EarthCube)”——一个允许地球学家访问、分析和共享我们星球信息的系统; 分配200万美元的奖学金给一个研究培训小组,来支持本科生使用复杂数据图形和可视化技术的培训; 提供140万美元来支持一个测定蛋白质结构和生物通路的统计学家和生物学家重点研究小组; 召集跨学科的研究人员来确定大数据如何能改变教与学。 美国国防部——数据到决策 美国国防部在大数据上每年的投资大约是2.5亿美元(6000万美元用于新研究项目),这一系列跨军事部门的项目包括: 在新方法下治理和利用海量数据,并汇集传感器、感知能力和决策支持建立真正的自治系统,可以实现操作和决策的自动化。 提高情境意识来帮助士兵和分析师,并提供更多的操作支持。部门正在寻求一种百倍于分析师能力的增长,包括从任何语言文本中提取信息的能力增长,以及对目标、活动和事件数量观察力的增长。 为了加速满足上述需求的大数据创新,国防部宣布在接下来数个月中将会有一系列开放式的有奖竞赛。 此外,美国国防部高级研究计划局(Defense Advanced Research Projects Agency,DARPA)启动了XDATA计划,该计划每年投资约2500万美元,将持续四年,用于开发分析半结构化和巨大容量的数据计算方法和软件工具: 开发处理分布式数据存储中不完整数据可升级的算法; 创建有效方便的定制可视化人机交互工具。 XDATA计划还将支持开发源代码软件工具包,以便灵活开发用户在某一时期中处理目标防御应用任务工作流相关大量数据的软件。 美国国家卫生研究院——千人基因组计划的数据在云端可用 NIH宣布世界最大的人类基因变异的数据集合——国际千人基因组计划提供——已由亚马逊网站免费云服务(Amazon Web Services,AWS)提供相关支持。当前千人基因计划数据集合已经有200TB,但只有很少的研究者有计算能力去利用这些数据。AWS使得这项计划的数据集合得以免费向公众开放,研究人员只需支付计算服务费就可以利用他们。 美国能源部 —— 通过先进的计算进行科学发现 能源部将提供2500万美元基金来建立可扩展的数据管理、分析和可视化研究所(Scalable Data Management, Analysis and Visualization Institute)。该研究所将结合6个国家实验室和7所大学的专长,来开发新工具帮助科学家管理和可视化在部门超级计算机上的数据,这将进一步简化科学家利用部门研究设备的流程。因为在部门超级计算机上运行模拟的规模和复杂度增加,这些新工具的需求也已经增加。 美国地质勘探局 —— 地理系统科学的大数据 USGS宣布最新研究成果奖励授予约翰威斯利鲍威尔中心。该中心通过给科学家提供深入分析的场所和时间、最高水平的计算能力和理解大数据集的协作工具,催化在地理系统科学的创新思维。这些大数据项目将提高对问题的理解,例如对气候变化、地震重现几率和下一代生态指标的各种响应。 整理自 http://ss.cixi.gov.cn/art/2012/4/18/art_52445_897612.html
个人分类: 杂谈|2513 次阅读|0 个评论
大数据摘抄3
vcitym 2012-6-28 06:45
信息技术将改变城市的方方面面,从城市中每个人的生活方式到城市中每个产业的生产方式,直到城市的运营和管理方式,都将“智慧化”或“智能化”。要“拨云散物”见“数据”,更要确立今后“腾云驾物”用“数据”的目标,“直取核心”。 如何科学理解、准确把握智慧城市的内涵和实质?智慧城市是城市信息化发展的新阶段,智慧城市建设在很大程度上是一个“技术活”,属于“信息技术范畴”——这只说了半句话。后半句是:智慧城市的“智慧”主要出自对大数据的处理,这才是推进智慧城市建设的核心问题。 在白宫科技政策办公室(OSTP)发布大数据研发倡议的同时,美国国家科学基金会(NSF)、国家健康研究院(NIH)、国防部、能源部等6个联邦部门和机构承诺,将新提供超过2亿美元,用于大大改善“从海量数据信息中获取知识所必需的工具和技能”,并透露了多项正在进行中的联邦政府计划。或许可以说,美国人已经从国家战略高度在认识大数据并开始行动,而着力点不仅在于进一步推进信息化建设,更期待研发出大数据处理领域的核心技术,以此加强创新竞争力。 针对美国有关大数据研究的计划,李国杰说,这项大数据计划最为重视的是数据工程而非数据科学,主要考虑大数据分析算法和系统的效率。对我国而言,大数据工程的技术挑战也应当得到重视。几百年来,科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”。李国杰认为,现在要做的则是“从厚到薄”,要把“大数据”变成“小数据”。“许多数据是重复的或者没有价值的,未来,我们的任务不是获取越来越多的数据,而是数据的去冗分类、去粗取精。” 许多学者认为,计算机科学是关于算法的科学,数据科学是关于数据的科学。有些学者试图将“数据”当成一个“自然体”来研究,即“数据界”。然而,在李国杰看来,脱离各个领域的“物理世界”,作为客观事物间接存在形式的“数据界”的共性问题还不清楚。他认为,不同于数据挖掘和统计学,从事大数据研究的学者应当更重视统计分布背后的知识和规律。“大数据”的复杂性主要来自个体之间的联系。“数据背后是网络,网络背后是人,研究网络数据实际上是研究人组成的社会网络。”李国杰指出,“‘网络数据科学’应是从整体上研究社会的一门科学,其重点是研究数据背后的社会网络。”因此,大数据已成为联系人类社会、物理世界和信息空间的纽带,需要构建融合人、机、物三元世界的统一的信息系统。李国杰呼吁,大数据研究正在形成热潮,学术界需保持清醒。“首先要明确大数据研究最有价值的应用领域,理清楚数据科学的边界和研究对象。只有明确了要研究的科学问题,网络数据科学才会走上良性发展的轨道。”他说。
个人分类: 杂谈|3343 次阅读|0 个评论
大数据摘抄2
vcitym 2012-6-28 06:41
从“云计算”的原教旨主义角度,目前国内很多“云计算”中心的建设理念却是在背道而驰,因为它们试图采购最好的机器和最高的能源成本来搭建所谓的“云计算”平台,尤其是在东部缺电省份,建设这样的大型“电老虎”将会给运维带来严峻的挑战。“云计算”本身就是一个飘忽不定的东西,你现在要进行定制,真是有问题的。既然是云就应在其飘忽不定中找可以利用的方法和技术。 一般认为,云计算平台有两个最关键的问题:一是虚拟化,二是分布式存储和计算模型。虚拟化是一种将硬件软件化的技术,它能够将一台服务器“虚拟”为多台服务器来使用,从而使机器始终在高负荷下运行,充分使用硬件资源。在这样的情况下,探索“云计算”能够给GIS领域带来什么样的机会,可能存在什么样的应用场景就显得特别重要! 我们能够使用“云计算”平台来为GIS做些什么?首先,使用分布式文件存储系统来对Map Tile(地图瓦片)进行存储可能是一个最简单的选项;而在分布式数据库之上建构新的GIS数据模型,可能是一个富有挑战性的问题。目前GIS数据模型所使用的各种关系型数据库,本身并不是分布式的。在所有的数据都能使用NoSQL数据库进行管理之后,如何来使用这些数据?如何使用分布式编程模型来解决实际问题?恐怕是更大的问题。“云GIS”平台只是给GIS行业带来了一种全新的数据管理和分析的平台工具,而怎么样来使用这些工具,更需要我们的智慧与想象力。如果我们现在并没有更长远的眼光和规划,只是试图将现有的一切搬迁到“云GIS”之上,那么今天我们遇到的问题,在将来仍然会存在。 大数据时代GIS数据分析平台会面临一些挑战。首先,在GIS领域有很多大的价值,现在很多 企业 倾向于更多的原始数据或者叫云系数据进行周期的保留,但传统UNIX为代表的或者集中式的高端存储,在存储上、性能上都没办法很好的完成性能的需求。另外,在大数据处理上,比如我们在做堵车分析的场景里面,数据的实时更新率是非常高的,我们要求我们的平台必须具有海量计算的能力,来满足实际的应用需求。在这样的环境里面,传统的数据结构、数据架构,可能也很难满足我们这样的处理需求。还有对数据结构的访问需求,现在我们的数据,尤其在GIS领域,它的结构除了传统的数据以外,还有大量复杂的数据。
个人分类: 杂谈|3096 次阅读|0 个评论
大数据摘抄1
热度 3 vcitym 2012-6-26 05:09
北京时间3月29日,奥巴马政府在白宫网站发布了《大数据研究和发展倡议》,提出将通过收集的庞大而复杂的数字资料,并从中获得知识和洞见以提升能力,并协助加速在科学、工程上发现的步伐,强化美国国土安全,转变教育和学习模式。 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 大数据时代:大数据概括成了四个V:大量化(Volume)、多样化(Variety)、快速化(Velocity)和大价值(Value)。这四个V就是大数据的基本特征。 大数据首先是数据量大。过去常用的千字节(KB)容量今天已像人民币的分币,人人口中已经是兆(MB)和吉(GB),专业的则在大谈太(TB),甚至是拍字节(PB)。这从一个侧面表明,数据容量增长的速度大大超过了硬件技术的发展速度,以至于引发了数据存储和处理的危机。 为了开发利用好这股数据洪流,美国需要大量像她这样的人。去年,咨询公司麦肯锡的的研究机构 麦肯锡全球研究所 进行了一项调查,调查预计,美国需要14万至19万名以上具备“深度分析”专长的人员,而对具备数据知识的经理的需求超过150万,无论是招聘的还是再培训的都行。 研究认为,由数据来指导管理正在美国的整个企业界扩散并开始取得成效。有人研究了179家大型的公司后发现,那些采用“数据驱动决策制定”者其获得的生产力要比通过其他因素进行解释所获得的高出5到6个百分点。 全球脉动(Global Pulse) ,这项由联合国新发起的行动计划,希望大数据能对全球的发展起到杠杆作用。该组织将会用自然语言破译软件对社交网络中的消息以及短信进行所谓的情绪分析—以帮助预测出特定地区失业、开支缩减或疾病爆发的情况。其目标是使用数字化的预警信号来预先指导援助计划,比方说,预防一个地区出现倒退回贫困的情况。 研究表明,在经济预测方面,Google上房产相关搜索量的增减趋势相对于地产经济学家的预测而言是一个更加准确的预言者。美联储,还有其他者均注意到了这一点。大数据的预测能力也正在被探索中,并在公共卫生、经济发展及经济预测等领域有获得成功的希望。研究人员已发现,Google搜索请求中诸如“流感症状”和“流感治疗”之类的关键词出现的高峰要比一个地区医院急诊室流感患者增加出现的时间早两三个星期(而急诊室的报告往往要比浏览慢两个星期左右)。数据的测量正是显微镜的现代等价物。比如说,Google的搜索,Facebook的文章以及Twitter的消息,使得在产生行为和情绪时对其进行精细地衡量成为可能。 大数据自身也存在风险。统计学者和计算机科学家指出,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。斯坦福大学的统计学教授特Trevor Hastie说,在大规模的数据干草堆中寻找一根有意义的针,其麻烦在于“许多稻草看起来也像针(注:呵呵,看起来这比大海捞针还要困难,因为千人一面)”。
个人分类: 杂谈|3514 次阅读|5 个评论
[转载]大数据的魔力
rbwxy197301 2012-6-22 06:44
[转载]大数据的魔力
转自:中国计算机学会通讯, 2012年第6期 本期专题是“数据密集业务的挑战和机遇——‘大数据’在工业界”。随着各行业和部门产生的数据量的急剧增长,对数据处理分析能力的要求不断提高。如何面对大数据的挑战,发现新的机遇,是工业界和学术界共同关注的问题。本期专题重点介绍了工业部门在密集数据方面的应用、实践和需求;邀请了中兴通讯、淘宝、百分点公司、华大基因、SAP、盛大在线等企业撰文,分享来自业务第一线的看法。本期专题作者主要来自企业的科研人员,是一次有意义的尝试。
个人分类: 文章转载|2577 次阅读|0 个评论
[转载]大数据时代科技信息资源创新服务研讨会
huabolin 2012-4-24 16:41
大数据时代 科技信息资源创新服务研讨会 邀请函(第一轮) 尊敬的 ___________ : 随着信息技术的发展,移动互联网、社会化媒体、云计算等热点出现,信息资源的深度和广度发生着巨大的变化,大数据( big data )时代已经来临,传统的科技信息资源服务正面临着很大挑战,“云”的发展使科技信息资源更具多样性,而“端”的存在更使个性化服务需求趋于猛烈;海量数据处理和个性化知识服务的矛盾亦日益突出。因此,如何利用新的信息技术和资源展示方法,实现以个性化为特征的知识服务已成为业界的研究热点。 2012 年 “ 大数据时代科技信息资源创新服务 ” 研讨会将于 6 月初在云南昆明召开,会期两天。主要围绕业界研究热点,探讨 “多数据源的知识发现与应用”、“大数据时代企事业单位内信息共享和知识管理的应用与实践”、“社会化媒体网络发展中的情报工作模式”、“云资源”与“端服务”的结合与创新 等议题。 此次会议由北京市科技信息中心主办,北京拓尔思信息技术股份有限公司、北京万方数据股份有限公司和北京大学协办。届时将邀请相关主管部门领导、国内著名专家学者、大型科技数据资源公司以及省市级科技情报院所的实践者就上述热点问题进行系统、深入的研讨,会议将为该领域的产学研结合提供一个交流与合作的平台,以促进国内科技信息服务的发展与提高。诚挚邀请您参加本次会议!期盼与您相聚在七彩云南! 北京市科技信息中心会议筹备组 2012 年 4 月 9 日 参会会议回执 单位名称 通信地址 姓名 性别 职务 / 职称 电 话 传 真 手机号码 邮 箱 是否提交 论文 论文题目 其他要求 请于 2012 年 4 月 30 日前 e-mail : qingbao@bsw.gov.cn 会议联系人:蔡伟、郭伟 联系电话: 82331717-859 , 82331717-159
个人分类: 会议感发|3101 次阅读|0 个评论
[转载]大数据有大智慧-微软的几个人机交互与大数据计划
shawn360 2012-4-5 19:43
素有“计算机研究领域的盛宴”之称的微软技术节(TechFest 2012)在微软美国总部雷德蒙开幕。“融合虚拟与现实”(Blending Virtual and Physical)和“大数据有大智慧”(Profound Insights from Big Data)两大主题贯穿本届技术节,描绘了微软对未来计算的构想和愿景——自然用户界面(NUI)实现虚拟与现实世界的融合以及云计算与大数据结合的巨大潜力,共有155项来自微软研究院全球各机构的最新研究成果在为期三天的活动上亮相。 如今,人们已经在日常生活中体验到了以云和大数据为驱动的技术,这些看似无形的技术正潜移默化地改变着我们生活和工作的方式,赋予我们各种新的信息与服务、新的沟通与协作方式,以及无与伦比的便利。如何在大数据时代获得价值和知识,以及如何与数据进行交互是目前各领域科研人员以及普通消费者面临的重大挑战之一,这也是本届微软技术节的另一大主题。 微软研究院展示的技术将分析和可视化应用于基于云的大数据处理和分析中,对于发掘研究人员新的科研方式、加速科学发现,以及实现消费者与数据间更自然的交互都将产生重要的影响。 其中“Chronozoom”技术让用户以前所未有的便捷方式查看137亿年前至今的历史时间轴;基于Web的动态宇宙时间地图,浏览者可以从137亿年前一直穿梭到今天。点击放大任何一个时间点,可以看到相应的图片集和视频,例如可以观看历史学家David Christian 解释创世大爆炸。ChronoZoom形容自己是一个开源的社区项目,旨在可视化历史,在科学人文之间架起桥梁,从大历史的角度讲述故事,让人能更易于理解这些信息。 Chronozoom网址: http://www.chronozoomproject.org/ “FetchClimate!”是一种快速而智能的气候数据检索服务,允许用户检索任何年份跨度、一年内的某几天、甚至一天内的某几小时的气候信息;“Lifebrowser”通过机器学习和分析,从海量个人信息资料中推断“记忆地标”并建立时间轴。 FetchClimate网址: http://fetchclimate.cloudapp.net/ 更多内容详见: http://www.datatang.com/news/103
2812 次阅读|0 个评论
[转载]用R处理大数据集
热度 1 xiaohai2008 2012-3-29 14:45
source: http://chen.yanping.me/cn/blog/2012/01/01/working-with-large-datasets/ 本文翻译自 R in Action 的附录G,如果对该书感兴趣,请自行购买或去图书馆阅读。 R会把所有的对象读存入虚拟内存中。对我们大多数用户来说,这种设计可以提高与R相互的速度,但是当分析大数据集时,这种设计会降低程序运行速度有时还会产生跟内存相关的错误。 内存限制主要取决于R的build版(32位还是64位),而在32位的windows下,取决于操作系统的版本。以cannot allocate vectoe of size开头的出错信息表示无法分配充足的连续内存,而以cannot allocate vector of length开头的出错信息表示超越了地址限制(address limit)。在处理大数据集时,应尽量使用64位版的R。对于各种build版,向量中的元素个数最大为2147483647(请自行?Memory)。 在处理大数据集时有三方面应该考虑:(a)提高程序的效率,保证执行速度;(b)把数据储存在外部,以解决内存限制问题;(c)使用专门的统计方法来有效处理大数据量的问题。 下面将分别讨论。 高效编程 下面几条编程技巧来可以提高处理大数据集时的效率 尽量向量化运算。使用R内置的函数来处理向量、矩阵和list(例如函数sapply,lapply和mapply),尽量避免使用循环(for和while); 使用矩阵,必要时才使用数据框,因为矩阵的开销更少; 使用read.table()函数族把外部数据导入数据框时,尽量显式设定colClasses和nrows选项,设定comment.char = "",把不需要的列设置成NULL。这样可以减少占用的内存,同时加快处理速度。将外部数据导入矩阵时,使用scan()函数; 在处理全部数据前,用数据的子集测试程序,来优化程序,去掉bug; 删除临时对象和不再用的对象。调用rm(list=ls())可以删除内存中的所有对象。删除指定的对象可以用rm(object); 在Jeromy Anglim的博客文章“R的内存管理:一些小窍门和技巧”(原文 Memory Management in R: A Few Tips and Tricks ,被墙)中提到,使用函数.ls.objects()列出工作区内的对象占用的内存大小。这个函数会帮助你找到吃内存的大家伙。 profile你的程序,看看在每个函数中花的时间。你可以用Rprof()和summaryRprof()函数完成这项工作。system.time()函数也可以帮助你。 profr 和 prooftools 包提供了若干函数来帮助分析profile的输出。 Rcpp包可以把R对象转成C++函数(原文是The Rcpp package can be used to transfer R objects to C++ functions and back when more optimized subroutines are needed. 后半句不知怎么翻译) 处理大数据集,提高代码效率只能解决一部分问题。你也可以把数据存在外部存储并使用专门的统计分析方法。 把数据存储在内存之外 有几种包可以实现在内存之外存储数据。解决之道是把数据保存在外部数据库或者硬盘里的二进制文件中,然后在需要的时候部分地读取。下表描述了几种有用的包: 包 描述 ff 提供了一种数据结构,保存在硬盘中,但是操作起来就如同在内存中一样 bigmemory 支持大规模矩阵的创建、储存、读取和操作。矩阵被分配到共享内存或内存映射的文件中(memory-mapped files) filehash 实现了简单的key-value数据库,在其中特征字符串key与存储在硬盘中的数据value相关联。 ncdf, ncdf4 Provides an interface to Unidata netCDF data files. RODBC, RMySQL, ROracle, RPostgreSQL, RSQLite 可以用这些包读取外部关系数据库管理系统的数据 上面的包可以帮助客服R的内存限制。除此以外,当需要在有限时间内分析大数据集时,使用专门方法也是必须的。一些有用的方法将在下面介绍。 分析大数据集的包 R提供了几种分析大数据集的包: biglm 和 speedglm 包可以针对大数据集有效地拟合线性和广义线性模型。在处理大规模数据集时,这两个包提供了类似lm()和glm()的功能。 由 bigmemory 包可产生大规模矩阵,一些包可以提供分析这些大规模矩阵的函数。 bigannalytics 包提供了k-means聚类、行统计量(column statistics)和一个对biglm()的封装。 bigtabulate 包提供了table()、split()和tapply()的功能, bigalgebra 包提供了高等线性代数的函数。 biglars 包提供了最小角回归(least-angle regression)、lasso以及针对大数据集的逐步回归,数据集因太大而不能读入到内存中,这时候要配合 ff 包使用。 Brobdingnag 包可以用来处理大数字(大于2^1024) 处理从GB到TB级的数据对于任何数据都是极大的挑战。如果想查看R的更多方法,请看CRAN task View: High-Performance and Parallel Computing with R ( http://cran.r-project.org/web/view )。 译者注 李舰 曾经在第四届R语言会议(北京会场)上做了题为《 R与高性能运算 》的报告,报告slides及代码请见 会议纪要
个人分类: R|4817 次阅读|1 个评论
[转载]纽约时报:大数据时代降临
郭崇慧 2012-2-19 17:37
http://www.sina.com.cn 2012年02月13日 23:20 新浪财经 导读:《纽约时报》网站( http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html?pagewanted=all )刊载文章称,“大数据时代”已经降临,在这一领域拥有专长的人士正面临许多机会。文章指出,“大数据”正在对每个领域都造成影响。举例来说,在商业、经济及其他领域中,决策行为将日益基于数据和分析而作出,而并非基于经验和直觉;而在公共卫生、经济发展和经济预测等领域中,“大数据”的预见能力也已经崭露头角。以下是这篇文章的全文。   你在数字方面很拿手?数据令你感到着迷?那么你听到的声音是机会正在敲门。   作为一名刚刚毕业的耶鲁大学MBA(工商管理硕士),周默(音译)在去年夏天被IBM抢聘,加入了该公司迅速增长中的数据顾问团队。IBM数据顾问的职责是帮助企业弄明白数据爆炸背后的意义——网络流量和社交网络评论,以及监控出货量、供应商和客户的软件和传感器等——用来指导决策、削减成本和提高销售额。“我一直都热爱数字。”周默说道,她的岗位是数据分析师,与其所学的技能相符合。   为了开发数据洪流,美国将需要许多象她一样的人。据顾问公司麦肯锡旗下研究部门麦肯锡全球学会(McKinsey Global Institute)去年发布的一份报告显示,预计美国需要14万名到19万名拥有“深度分析”专长的工作者,以及150万名更加精通数据的经理人,无论是已退休人士还是已受聘人士。   数据充斥所带来的影响远远超出了企业界。举例来说,贾斯汀-格里莫(Justin Grimmer)是新生代的政治科学家,他现年28岁,在斯坦福大学任助理教授。在大学生和研究生时期的研究报告中,他将数学与政治科学联系起来,称其看到了“一个机会,原因是纪律正日益变得数据密集化”。他研究的内容涉及对博客文章、国会演讲和新闻稿进行计算机自动化分析等,希望藉此洞察政治观点是如何传播的。   在科学和体育、广告和公共卫生等其他许多领域中,也有着类似的情况——也就是朝着数据驱动型的发现和决策的方向发生转变。哈佛大学量化社会科学学院(Institute for Quantitative Social Science)院长加里-金(Gary King)称:“这是一种革命,我们确实正在进行这场革命,庞大的新数据来源所带来的量化转变将在学术界、企业界和政界中迅速蔓延开来。没有哪个领域不会受到影响。”   欢迎来到“大数据时代”(Age of Big Data)。硅谷新贵们——最初是在谷歌 ,现在是在Facebook——都精通于驾驭网络数据(网络搜索、帖子和信息等)与互联网广告之间的关系。在上个月于瑞士达沃斯召开的世界经济论坛上,大数据是讨论的主题之一。这个论坛上发布的一份题为《大数据,大影响》(Big Data, Big Impact)的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。   “生命中的一天”(Day in the Life)系列摄影作品的创作人里克-斯莫兰(Rick Smolan)正计划在今年晚些时候推出一个新项目,这个名为“大数据的人类脸孔”(The Human Face of Big Data)的项目将记录数据的采集和使用。斯莫兰是一名狂热分子,他认为“大数据”有成为“人性仪表盘”的潜力,也就是一种能帮助人类与贫穷、犯罪和污染等现象展开斗争的智能工具。而私人部门的倡导组织则持有悲观的观点,警告称“大数据”与“独裁者”(Big Brother)同出一辙,只是披上了企业的外衣。   什么是“大数据”?这当然是一个带有文化基因和营销理念的词汇,但同时也反映了科技领域中正在发展中的趋势,这种趋势为理解这个世界和作出决策的新方法开启了一扇大门。根据科技研究公司IDC作出的估测,数据一直都在以每年50%的速度增长,换而言之,也就是每两年就增长一倍。这不是简单的数据增多的问题,而是全新的问题。举例来说,在当今全球范围内的工业设备、汽车、电子仪表和装运箱中,都有着无数的数字传感器,这些传感器能测量和交流位置、运动、震动、温度和湿度等数据,甚至还能测量空气中的化学变化。   将这些交流传感器与计算智能连接起来,那么你就会看到所谓的“物联网”(Internet of Things)或“工业互联网”(Industrial Internet)。在信息获取的问题上取得进步也是促进“大数据”趋势发展的原因之一。举例来说,政府数据——聘用数据及其他信息——一直都在稳步地向网络转移。在2009年中,美国政府通过启动Data.gov网站的方式进一步开放了数据的大门,这个网站向公众提供各种各样的政府数据。   数据不仅仅是正在变得更加可用,同时也正在变得更加容易被计算机所理解。“大数据”发展趋势中所增加的大部分数据都是在自然环境下产生的,比如说网络言论、图片和视频等不受控制的东西,以及来自于传感器的数据等。这些是所谓的“非结构化数据”,通常不能为传统的数据库所用。   但是,旨在从互联网时代非结构化数据的庞大“宝藏”中获得知识和洞察力的计算机工具正在迅速发展中。在这种工具发展的最前沿是迅速取得进步的人工智能(AI)技术,比如说自然语言处理、模式识别和机器学习等。   这些人工智能技术能应用于许多领域。举例来说,谷歌的搜索和广告业务及其实验中的机器人汽车都利用了很多的人工智能技术。在加利福尼亚州的公路上,谷歌的机器人汽车已经跑了数千英里的路。谷歌的这两项业务都让“大数据”时代的挑战却步,它们对数量庞大的数据进行分析,并作出瞬时的决策。   反过来,大量的新数据也正在加快计算领域的进步,这是“大数据”时代中的一个良性循环。举例来说,机器学习算法能基于数据来进行学习,数据越多机器就能学到越多。以苹果在去年秋天推出的iPhohne手机Siri语音助理服务为例,这个应用的源头可回溯至五角大楼的一个研究项目,该项目随后被分离出来,成为了一家硅谷创业公司。苹果在2010年收购了Siri,并继续向其提供更多数据。时至今日,在人们提供成百上千万条问题的环境下,Siri正在变成一种日益熟练的个人助理,能向用户提供提醒服务、天气预报、餐饮建议和对大量问题作出解答等服务。   麻省理工学院斯隆管理学院的经济学教授埃里克-布吕诺尔夫松(Erik Brynjolfsson)称,如果想要理解“大数据”的潜在影响力,那么可以看看显微镜的例子。显微镜是在四个世纪以前发明的,能让人们看到以前从来都无法看到的事物并对其进行测量——在细胞的层面上。显微镜是测量领域中的一场革命。   吕诺尔夫松解释称,数据测量就相当于是现代版的显微镜。举个例子,谷歌搜索、Facebook帖子和Twitter消息使得对人们行为和情绪的细节化测量成为可能。   吕诺尔夫松进一步指出,在商业、经济及其他领域中,决策行为将日益基于数据和分析而作出,而并非基于经验和直觉。“我们能开始变得远为科学化。”他这样说道。   有很多的轶事证据表明,数据至上的思考方式将带来很高的回报。其中,最著名的例子仍旧是迈克尔-刘易斯(Michael Lewis)在2003年出版的《点球成金》(Moneyball)一书,这本书记录了低预算的奥克兰运动家队是如何利用经过分析的数据和晦涩难解的棒球统计学来找到被评价过低的棒球手的。在布拉德-皮特(Brad Pitt)主演的电影版《点球成金》去年被搬上银幕以前,深度的数据分析就不仅已经成为棒球领域中的标准,而且在英国足球联赛等其他体育项目中也是如此。   沃尔玛(WMT)和Kohl’s等零售商也已经开始对销售额、定价以及经济学、人口统计学和天气数据进行分析,藉此在特定的连锁店中选择合适的上架产品,并基于这些分析来判定商品减价的时机。UPS等货运公司也正在对卡车交货时间和交通模式等相关数据进行分析,以此对其运输路线进行微调。   Match.com等交友网站也经常会仔细查看其网站上列出的个人特征、回应和交流信息,用来改进其算法,从而为想要约会的男女提供更好的配对。在全美范围内,以纽约市为首的警方部门也正在使用计算机化的地图以及对历史性逮捕模式、发薪日、体育项目、降雨天气和假日等变量进行分析,从而试图对最可能发生罪案的“热点”地区作出预测,并预先在这些地区部署警力。   吕诺尔夫松及其两名同僚在去年发表研究报告称,数据指导下的管理活动正在美国企业界中蔓延开来,而且这种管理活动正开始获得回报。这三名学者对179家大型公司进行了研究,发现那些采用“数据驱动型决策”模式的公司能将其生产力提高5%到6%,这种生产力的提高是很难用其他因素来解释的。   在公共卫生、经济发展和经济预测等领域中,“大数据”的预见能力正在被开发中,而且已经崭露头角。研究者发现,曾有一次他们发现“流感症状”和“流感治疗”等词汇在谷歌上的搜索查询量增加;而在几个星期以后,到某个地区医院急诊室就诊的流感病人数量就有所增加(还需要指出的是,医院急诊室发布报告的时间通常要比病人就诊的时间晚上两个星期左右)。   联合国 已经推出了名为“全球脉动”(Global Pulse)的新项目,希望利用“大数据”来促进全球经济发展。联合国将进行所谓的“情绪分析”,使用自然语言解密软件来对社交网站和文本消息中的信息作出分析,用来帮助预测某个给定地区的失业率、支出削减或是疾病爆发等现象,其目标在于利用数字化的早期预警信号来提前指导援助项目,以阻止某个地区重新陷入贫困等困境。   在经济预测领域中,已经有研究表明,与不动产经济学家所作出的预测相比,谷歌上住房相关搜索查询量的增加或减少的趋势能更加准确地预测未来一个季度中的住房市场走势。美联储及其他机构已经注意到这一点。在去年7月份,美国国家经济研究局(National Bureau of Economic Research)主持召开了一次研讨会,此次会议所讨论的内容是“大数据时代的机会”及其对经济领域的影响。   “大数据”还已经令针对社交网络运作方式的研究发生了变化。在20世纪60年代,哈佛大学的斯坦利-米尔格拉姆(Stanley Milgram)利用包裹作为研究媒介,进行了一项与社交网络相关的著名实验。他将包裹寄往美国中西部地区的志愿者,指导他们如何将包裹带给波士顿的陌生人,但不能直接交付;参与实验者如果想要通过邮寄方式来交付包裹,那么目标对象就是能是他们认识的人。结果表明,一个包裹换手的平均次数相当之低,仅为6次左右。这是对所谓“小世界现象”的经典阐释,据此形成了“六度分隔”(six degrees of separation)的流行词汇。   时至今日,社交网络研究的内容涉及如何采集庞大的数字化数据集合,用来阐释网络上的集体化行为。这种研究的结果表明,你认识但不经常联系的人——在社会学中被称为“微弱联系”(weak ties)——是职务空缺小道消息的最佳来源,原因是与关系亲密的朋友相比,这些人在略有不同的社交世界中穿行,因此能看到你和你最好的朋友们所无法看到的机会。   在有关某个主题的交流中,研究学者们还能看到其影响模式和高峰——举例来说,可以通过追踪Twitter上的趋势标签的方式来达成这个目标。对于数量庞大的用户人群来说,Twitter这个在线“玻璃鱼缸”是透视其实时行为的窗口。康奈尔大学教授乔恩-克伦伯格(Jon Kleinberg)称:“我寻找的是数据中的‘热点’,这是我需要理解的一种活动爆发的现象。只有通过‘大数据’,你才能做到这一点。”   毫无疑问,“大数据”本身也存在一些风险。统计学家和计算机科学家指出,“大数据”的集合和高密度的测量将令“错误发现”的风险增长。斯坦福大学的统计学教授特来沃尔-哈斯迪(Trevor Hastie)称,如果想要在庞大的数据“干草垛”中找到一根有意义的“针”,那么所将面临的问题就是“许多稻草看起来就像是针一样”。   此外,对于统计学恶作剧和有偏见的实情调查活动而言,“大数据”也提供了更多的原材料。“大数据”为一个老把戏提供了高科技的手段,那就是——我知道事实,现在让我们来找到事实吧。乔治梅森大学的数学家瑞贝尔-高尔丁(Rebecca Goldin)称,这是“最有害的数据使用方式之一”。   数据已被计算机和数学模型所驯服和理解,这些模型就像是文学中的隐喻修辞,也就是一种简化后的解释方式。对于理解数据而言,这些模式是有用的,但它们也存在局限性。私人部门的倡导组织发出警告称,一个基于网络搜索的模式可能会发现一种相关性,从而作出不公平或是带有歧视性的统计推断,对产品、银行贷款和养老基金提供的医疗保险造成影响。   虽然面临着这种警告,但“大数据”时代的降临看起来已是无可逆转。数据已经坐到了驾驶员的位置上,它就在那里,有用而且宝贵,甚至还很时尚。   资深数据分析师称,长期以来,朋友们一谈到他们的工作就会变得厌烦,但现在突然变得好奇起来。这些分析师们认为,《点球成金》是促成这一变化的原因之一,但实际原因远非如此简单。哥伦比亚大学统计学家兼政治科学家安德鲁-格尔曼(Andrew Gelman)称:“文化已经发生了改变。现在人们的想法是,数字和统计学是有趣的,是一种很酷的东西。”(金良/编译)
个人分类: 观点评述|9235 次阅读|0 个评论
2011 信息产业的两大关键词:社交媒体和云计算
liwei999 2012-2-1 16:45
我们现在正处在一个难得的历史契机。 去年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 和云计算(cloud computing),而大数据(big data)情报挖掘正是针对社会媒体内容利用云计算作为支撑的高新技术产业的代表。 社会媒体尤其是微博持续升温,无论是用户还是其产生的内容,都以爆炸性速度增长,一场悄悄的社会媒体革命正在发生,它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻(无论是天灾人祸、名人掐架还是品牌褒贬)常常发端于处在现场的网民或当事人的微博,然后瞬间辐射到整个互联网,传统传媒只能紧随其后。在这样的形势下,企业软件巨头纷纷把目光聚焦在对于社会媒体舆论和民意的跟踪上,视其为品牌和客户情报的重要来源。 去年年初,美国做市场情报的巨头之一 Salesforce以三亿多美元 ($326 million) 的价钱并购了社会媒体客户情报检测系统 Radian6,说明社会媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社会媒体追踪的公司RightNow的并购更是高达15亿($1.5 billion). HP在逐渐放弃低利润的PC和平板等硬件产业的同时,开始加强企业软件的投资力度,以120亿天价购并了从事文本情报包括社会媒体的英国公司Autonomy($12 billion)。最后,接近年末的时候,全球企业软件的另一家巨头SAP以34亿收购了云计算公司SuccessFactors($3.4 billion),并决定与专事社会媒体深度分析的公司Netbase建立战略伙伴关系,分销并整合其社会媒体情报作为企业情报解决方案的重要一环。加上IBM自己的Coremetrics Social和Adobe的 SocialAnalytics,可以看到所有企业软件巨头不约而同看好社会媒体的情报价值。 可以预见,在这个领域的投资和竞争日趋激烈。越来越多的华尔街主流投资公司开始加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software,连续得到 Sequoia Capital 两轮投资 (2007 和2010)。Sequoia Capital 是“重中之重”的 投资大鳄,曾是如下名牌企业的最早投资商,战略眼光犀利: Apple, Google, Cisco, Oracle. 对于中文社交媒体大规模处理的应用型软件,目前还是空白。然而中文网络信息的增长速度却是扶摇直上,单新浪微博用户去年中就突破两亿,社交媒体所产生的巨量内容有如深埋的富矿,亟待开采。 回顾一下互联网技术公司的里程碑吧: 雅虎以门户网站(Yahoo portal)先领风骚,谷歌以搜索 (Google search) 后来居上,脸书推出社交网络( Facebook social ),目前正紧锣密鼓筹备上市(市值估算是500 个亿以上,远远超过当年谷歌上市的170亿的价码)。 下一个里程碑是什么? Big data intelligence 很多人这样预测。 Google 首席科学家前不久也列此为未来十年的高新技术第一块牌子。所不清晰的是谁家会胜出。 是有志之士摩拳擦掌弄潮儿的时机了。时不我待,机不再来,此之谓也! 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5930 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 20:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部