科学网

 找回密码
  注册
科学网 标签 云计算 相关日志

tag 标签: 云计算

相关日志

参观博览盛会 探索计算思维
donghy 2013-12-11 19:03
11月28~29日,我出席了在北京举行的第七届中国国际电子病历-移动医疗-医疗大数据博览会,并应邀在医药信息学理论与教育论坛做了题为《药学计算思维理论探索》的大会报告,同时参观、探讨和交流了最新的大数据、云计算、物联网、远程医疗、移动医疗等新一代技术产品在区域医疗平台、公共卫生、医疗服务、药品监管、医药卫生信息化建设的最新应用与研究,很受启发和鼓舞。 本届博览会主题是“技术创新与发展,提升医疗质量与服务水平”,汇聚全国医药信息学专家、知名学者、IT界人士等各方代表,通过主旨报告、平行论坛、卫星会议、展览展示等多种形式,共同了解国家新近出台的医疗信息化政策与规范,探索信息化技术如何推动医疗模式的转变与创新,推广大数据、云计算、移动医疗、信息安全等信息化前沿技术在医药领域的解决方案与应用,助力完善医药信息学发展,进而推进医药信息化建设,是一届具有权威性、前瞻性、务实性的综合盛会。
个人分类: 生活点滴|2380 次阅读|0 个评论
云时代,人云亦云(5):畅想云货币
热度 5 lionbin 2013-11-17 20:39
高中的时候学习政治经济学,那个时候对货币的理解: 货币是从商品中分离出来固定地充当一般等价物的商品,是商品交换发展到一定阶段的产物;货币的本质就是一般等价物,具有价值尺度、流通手段、支付手段、贮藏手段、世界货币的职能。 在历史上不同地区曾有过不同的商品交换充当过货币,从羊,到金属货币,到黄金,到纸币,到电脑时代的现金卡、贷记卡(信用卡)、电子支票和电子钱包,无不表现出每一个阶段的科学技术和生产力发展水平,人们也越来越得到经济和贸易及其一体化的好处。 在IT高速发达的今天,我们接触到了各种类型的货币替代品。其中至少有两种非常相关的概念,值得我们在这里先提一提。 第一个就是 电子货币 ,是指用一定金额的现金或存款从发行者处兑换并获得代表相同金额的数据,通过使用某些电子化方法将该数据直接转移给支付对象,从而完成清偿债务等活动。具体来说,就是可以在互联网上或通过其他电子通信方式进行支付的手段。这种货币没有物理形态,为持有者的金融信用。随着互联网的高速发展,这种支付办法越来越流行。在电子商务中,电商与银行是否能有效地实现电子支付已成为电子商务成败的关键。 另一个概念是 虚拟货币 ,这个概念也可能令人想到类似游戏币、QQ币等仅在特定类型网站所使用的货币,但这里想谈论的概念并不取这个方面的特殊用途,而是可作为通货的的虚拟化工具。在上述介绍电子货币时,我们理解了其最基本的职能是模拟支付,这里说是“模拟”,因为 现有的各种电子货币中,都不能作为通货用于个人之间的直接支付,只能向特约商户支付,而且商户还必须向银行或信用卡公司支付一定的服务费,最终,收取实体货币后,才算完成了对款项的回收,电子货币不能完全独立执行支付手段的职能,因此这与通货还是有一定区别的 。互联网引致了一个新的市场的出现,这个市场就是基于网络空间的虚拟市场。而 虚拟货币则是顺应这种发展出现的,代表的是真正的价值,具有通货的功能,虚拟这种形式并非第一位重要的,第一位重要的应该是其内在价值。 在电脑和网络高度发达的时代,虚拟货币要想真正成为一种通货,还应当满足以下条件 :(1)被广泛接受为一种价值尺度和交换中介,不再具有商品的属性;(2)不依赖于任何银行或发行机构,是个人创造价值的社会认可;(3)自由流通,具有完全的可兑换性;(4)本身能够成为价值的保存手段,而不需要通过收集、清算、结算来实现其价值;(5)完全的不特定物,支付具有匿名性。 一个社会人在生产活动中会不断创造价值,然后再用拥有的价值来用于生活资料等各方面消费的交换。在特定历史阶段产生的货币正是充当了一种支付媒介的作用,但这个媒介本身对一个社会人来说是没有什么用的。试想一下,如果有一个货币替代物完全拥有这种功能,或者每个人所创造的价值完全被记录在档,需要的时候随时可以取用,价值创造和消耗也都记录在档,我们还需要货币吗?显然我们不需要。这里就要引出本文所要畅想的“ 云货币 ”的概念。 我们看似离这个时代越来越近了:人人可以联网,处处可以联网,时时可以联网。那么在这个时代,人与人之间的支付就简单了,只要在支付终端(可能是类似手机的随时携带的移动设备)输入几个数字,就完成了整个交易过程。而且,配合物联网的发展,这个支付过程还可以更简单,比如离开超市大门或者进入自家大门的的时候,就自动记账并完成支付。而在这背后,就有一个强大的云货币体系在支撑, 所有的交易和事务都被云端服务器清晰地记录在档。授权用户可以随时跟踪和查询资金的流动情况,不同权限的操作者还可以了解不同水平的资金流动,便以监管和统计。 在云货币体系下,任何诈骗和盗窃,甚至是非法的投机过程都是不可能的, 因为所有的资金流动都是可以追溯的,任何不明的流动都是可以仲裁的,这从目前已经高度发展的电子商务中可体会这种管理的可能性。由于每个人都只有唯一的云货币ID记录自己的收入情况,因此任何违法收入都变得不可能,不管是受贿还是诈骗,总之,所有无法清晰地呈现出其来源的收入都是会受到专门的云端服务严格监控的。而云端本身对普通人又是不可攻破的,全球各处都是这个云端的监控备份,其中传播的信息流也是加密的。我们只知道有云,但云具体是如何工作的,普通人并不知道。所有的数据对非当事人来说,都是匿名的,只有特殊的管理人员在进行管理和监控需要时才能看到所有的详细信息。 由此可见,在货币的主要功能中,即交换媒介、计算功能和储藏功能中,云货币都完全具备。当然, 也有人认为,云货币只有计算功能,没有其他功能,因为其他两个功能被隐藏在这个功能中,并随这个功能的行使而自动完成 。比如,在购买过程,也经全然看不到可见的货币媒介了;在货币本身是商品的时代,其本身也是有价值的,在不需要进行交换的时候,是放进仓库保存起来的,这就是货币储藏功能,而云货币的无限虚拟化,其本身的商品属性已经不复存在,当然也就不再用考虑其储藏功能了。 本文关于云货币的主要内容为本人在云时代的一种畅想,是否与经济学家们所理解的云货币有什么差异,我自己无法判定。写出该博文,就是为了与各位懂行或者不懂行的具有现代意识的人进行讨论。当然,关于云货币在世界经济学上的价值,有人考虑得更远,更多。比如下列参考资料中《浅谈云货币功能的唯一性》一文就是这样论述的:由于旧的生产关系的阻碍,新的货币制度难以建立起来。透过现象,我们看到的实质是,货币已不是商品交易的产物,被异化成人们逐利的工具,无限放大其功能和作用,必然违背经济和交易的规律。云货币计算功能的唯一性,是世界贸易发展的必然要求,旧的生产关系和上层建筑的阻碍,必将被与时俱进的改革力量所冲破。 参考资料: 虚拟货币。 http://baike.baidu.com/view/16260.htm 电子货币。 http://baike.baidu.com/subview/14897/11100863.htm 浅谈云货币功能的唯一性。 http://www.xzbu.com/3/view-3176960.htm
个人分类: 科普荟萃|6344 次阅读|15 个评论
云时代,人云亦云(4):趣谈云下载
热度 8 lionbin 2013-11-13 07:10
有人认为,云下载是一种故弄玄虚,因为在云计算这个概念被提出来前它就已经存在了,只是当时不这么提而已,我完全同意这种说法。那么,现在有了云计算的概念,我们还是从这个角度出发来定义一下: 从提供服务的厂商来说,是通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统;而对普通用户来说,则是利用云端资源储存和下载文件的一种新方式,对自己上载的文件可以设定不同的权限与所有人或者朋友共享。 相信这个技术普及后,大家完全可以抛弃硬盘、光盘和U盘等储存设备了,需要的时候随时随地高速下载。这里我们谈到了储存和下载,因为二者总是难于分开的,所以总是放在一起讨论。需要说明的是,本系列的前面几个专题,我是故意避免谈某个具体的软件的,而本专题比较特殊,离开具体软件谈技术,就无法说清楚。 因为写这篇博文,在网上偶然找到了自己1999年为《中国电脑教育报》写的一篇文章“ 文件下载工具大比拼 ”——我都忘记了自己还写过这么一篇文章的。开篇我是这样论述的:“ 坐在电脑跟前,玩什么?玩的就是软件。现在有了因特网,电脑玩家们获取软件变得异常容易!作者昨天才发布的软件,今天可能你就能得到并开始使用了,这在以前几乎是想都没有想过的事儿。因而对一个电脑玩家来说,上网的时候选用一个适合于自己的文件下载工具是非常自然的事儿。相信稍微有一点冲浪经验的人都不会在浏览器中直接点击文件链接进行下载,现在文件下载工具非常多,到底选用哪一个合适呢? ” 试图找一些好的下载软件来应对当时的慢速网络,的确是不得已而为之。大家有没有经历过一个单位一百多号人,公用一个9600bps的猫的网络?其实在这种网络条件下,浏览网页是极其困难的。由于工作的需要必须浏览网络,只得屏蔽掉图片。有联网条件总比没有网络好,至少通往外海的电子邮件总是可以见缝插针地发送成功,这已经是一个革命性的变化了,因此即使算起来近10元一封的电子邮件,也还是有很多人愿意采用。记得当时为了下载IE4,用了3天3夜才下载完成——主要原因还在于,微软的服务器当时不支持断点续传。 其实,现在各位非常熟悉的万维网(World Wide Web)出现之前,网络上的信息分享和文件传输是另外一番景象。最开始的网络也就是为了满足共享文件的需要。因此,文件传输协议(FTP)于1985年10月应运而生,主要用于用户与服务器之间的文件双向传输。如果网上只有FTP,除非那个用户知道文件在FTP服务器中所在的详细路径,否则是很难找到什么信息的。1990年,加拿大麦吉尔大学计算机学院的师生开发出Archie。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分布在各FTP服务器中的文件。虽然Archie搜集的信息资源不是目前的HTML文件,但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。1991年,明尼苏达大学的两名学生发明的了Gopher。在Gopher中所有信息都以层级形式存储,这在当时被认为是存储大量信息的最好方式之一。即使在HTTP协议诞生后很快受到了挑战,但就是因为这个原因,一直苦苦支撑到2002年6月,微软在其浏览器中彻底禁用了Gopher,才将之剔除历史舞台。万维网的真正发展是在微软与网景公司的浏览器之争之后才逐步强大起来的,几乎能替代历史上这些曾经显赫一时的所有网络协议。不过,FTP一直保留至今,许多专业网站提供的软件和数据文档还是通过这个协议来下载的。因此,通过浏览器的HTTP协议和FTP协议下载文件,一直伴随着互联网发展到现在。但可以预见的是,FTP很快也将过时了,因为它一直就是一个既不安全,也不友好,而且效率低下的协议。 不知道大家注意没有,如果不用专门的下载工具,仅通过浏览器的下载功能下载,如果一个文件没有下载完成而有超时了,再次下载的时候又是从头开始,这是一件非常耗时,而且令人讨厌的工作。于是,支持断点续传的软件相继诞生,比如Go!Zilla、GetRight和Net Vampire,其中Net Vampire以其极强的抗干扰性而倍受用户喜爱而风靡一时。但是,不管是Web,还是FTP,都是客户机/服务器模式,下载总会受到服务器的带宽限制,也就是说,下载的用户越多,每个用户下载的速度越慢,这是无法突破的物理限制。 1997年,一个俄国人编写的mass downloader出现,彻底改变了这一状况。我在1998年给《软件报》投了一篇小文章介绍这款软件的特色——多线程下载。具体来说,对于支持断点续传的服务器,将一个文件分成不同的块分别下载,下载完成后,在用户自己的机器上拼成一个完整的文件。这种方式增加下载速度是非常容易理解的,比如当前有100个用户同时连接服务器,服务器给每个连接分配的带宽应该是大致相等的,如果用户用10个线程去下载,那么其下载速度就提高了10倍,这种增速的方式是非常明显的。这里有一个小插曲:也不知道作者是如何查询到我的文章的,也许是看到了mass downloader这个关键词吧。他给我写了一封邮件,问我能否将这个内容翻译成英语。我照办了,没有想到他居然将我写的这个内容作为软件介绍放到他的软件下载主页中了。后来,效仿这种想法的软件很多,比如1998年上海交大的一名学生开发的网络蚂蚁(NetAnts)利用这个思想,有整合了其他许多有用的功能,将软件做得很实用,于是曾经成了中国人的下载最爱。看到网上评价“网络蚂蚁”是中国最具有原创性的软件,说是世界上第一款多点下载功能软件,我觉得有些可笑。当类似的软件开始繁荣而且大家都用这类软件下载的时候,给服务器增加了很大的负担,因此许多文件下载服务器禁用多线程下载的功能,设定只允许一个IP地址同时只有一个连接。道高一尺,魔高一丈。后来,伴随视频和音乐文件等流媒体下载的需要,出现了一款软件叫做影音传送带(曾经称网络传输带),不仅支持多线程下载,而且还支持MMS和RTSP(PNA)等协议。更厉害的是,该软件还支持多线程中设定不同的代理服务器,来绕过文件下载服务器对基于IP地址的线程限制,这款软件似乎是一个伟大的创举。 用户端与服务器端的文件下载博弈就此展开,但这并没有真正突破网络的物理限制,只是会用下载工具的人得到更多的益处而已。在不知不觉中,一场新的文件分享与下载革命开始了,那就是P2P下载模式。譬如BT、eDonkey及其衍生产品,下载原理是大同小异的:数据的传输不再通过服务器,而是网络用户之间直接传递数据的分布式下载模式。P2P服务器不再担任提供文件下载的角色,只负责将文件的基本信息(文件是如何分块的,各客户缺哪一块,哪一块已经下载完成了)在客户端之间中转。P2P下载客户软件也是相应通过获取服务器信息将文件被分成若干块,然后从已经得到那块信息的用户那里拷贝过来的,下载没有先后顺序,只要最后文件的所有块都被“填满”了,整个下载任务完成,也成了一个种子。这样,在下载的过程中,每个用户从别人那里得到信息,也将信息分享给别人,是否体现了一些“云”的理念呢?而且,还有一个好处是充分利用了各网络用户的上载带宽,因为大多数情况下,各用户网络的上载带宽都是富余的。这样导致的一个直接效果就是,下载的用户越多,下载速度反而越快,因为用户获取缺失块的概率更大了。有一些提供实时流媒体播放的公司,也相继加入了这一行列,比如PPS和PPTV等。这里,我们看到,技术发展到这一步,似乎离下载云越来越近了。但是,这还没有将云运用得淋漓尽致。 迅雷软件的发展,可能将云下载彻底往前推进了一大步,其中最大的特殊就是下载可混合包括HTTP、FTP、BT及eDonkey等多重网络协议。迅雷有自己的内容分发网络,对于某一个文件,迅雷通过其他用户下载时获取的数据,或者搜索引擎蜘蛛等方式,搜集到各协议的数据,保存在服务器端。在用户请求下载这个文件时,以类似Magnet链接的形式,从服务器直接获知多个协议的来源,有时也包括自己的迅雷客户端来源,从而提高下载速度。这同时也要求客户端在后台上传给其他迅雷客户端。不过由于数据上传未明显显示在界面上,一般用户也发现不了。虽在设置中用户可进行一定限制,但仍受到了用户的指责;而一般仅向迅雷客户端上传的行为,也受到其他P2P协议用户的“吸血”指责和屏蔽,称有违相互分享的P2P精神和公平原则,甚至出现了“反迅雷”的服务器端插件。但是,无论如何,迅雷软件让我们看到了云下载、云分享的曙光,也尝到了下载的快乐。 由于这些争端和潜在的安全性问题,有加上全球数据量的猛增,使得存储日益成为一个更独立的专业问题。越来越多的企业开始将存储作为单独的项目进行管理,带动了整个存储市场的快速发展。于是,许多重要的网络公司都相机宣布推出了自己的云储存服务,有时候也称网络硬盘。用户刚注册就能得到好几个G的存储空间,而且随着用户的使用,还会不断奖励更多的空间。云状存储系统中的所有设备对使用者来讲都是完全透明的,任何地方的任何一个经过授权的使用者都可以通过一根接入线缆与云存储连接,对云存储进行数据访问。使用者使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务。所以严格来讲,云存储不是存储,而是一种服务。我们必须明确的是,这些技术的产生,完全归功于网络速度的高速发展。这一切,如果没有快速的网络速度支撑,全部都是过往烟云。 如此快的网络下载速度,如此大的网络储存空间。相信有朝一日,作为普通用户,我们都不需要用自己掏钱去购买专门的存储设备了。 我们曾经那么热切地下载,是为了预防在需要的时候我们却无法顺利地得到它。云时代,我们甚至不需要下载了,因为我们想要的资源都在云端,想要的时候随时可取。这就是云下载的逻辑。 如果觉得这个有趣,请关注我的下一篇: 云时代,人云亦云(5):畅想云货币
个人分类: 科普荟萃|7772 次阅读|18 个评论
云时代,人云亦云(3):趣谈云安全
热度 6 lionbin 2013-11-11 12:00
电脑从产生之日,就开始与电脑安全打交道。现在内置电脑芯片的电器越来越多了,而且许多电器都能连网了,开始是电脑,之后是手机,电视,相信更多的电器正在加入到互联网的行列之中,因此安全性问题显得越发重要了。电脑安全当然包括硬件和软件两个方面,但本文不想写成包括所有方面的教课书,因此将涉猎的范围限制在软件方面,特别是与杀毒有关的——因为笔者在这一点儿上有亲身感悟,而其他方面则没有机会尝试。 最早引起广大用户注意的电脑安全性问题,应该是电脑病毒了。按照中国《计算机信息系统安全保护条例》的定义,电脑病毒“ 指编制或者在计算机程序中插入的破坏计算机功能或者破坏数据,影响计算机使用并且能够自我复制的一组计算机指令或者程序代码 ”。还甭说,生物病毒与电脑病毒真有某些相似之处。比如,电脑病毒像生物病毒一样,有快速的复制能力,而且可寄生在宿主上像传染病一样传播和蔓延,不过这里的宿主是各种类型的文件,也会对电脑产生各种形式的危害,严重的会导致整个系统崩溃。甚至还存在免疫、重复感染和潜伏期等诸多有生物病毒类似的特征,太神奇了吧。就是因为电脑病毒在传播形式上与生物病毒有如此的相似性,因此这样命名还是非常恰当的。曾经,利用免疫而防止电脑病毒感染的方法也是杀毒厂商对付电脑病毒的重要杀手锏。 作为用个人电脑较早的一代了,对电脑病毒几次大的泛滥有深刻的体会。当电脑刚刚开始在神州大地普及的时候,人们对电脑病毒的概念是非常模糊的,只是像讲故事一样相互传送着电脑病毒的种种可怕后果,但没有多少人真正在意。 最早遭遇的是上世纪80年代末和90年代初DOS操作系统下的大麻病毒 (也称石头病毒),不过这只是一个恶作剧式的开机病毒,通过软盘传播,一般不会对系统造成多大危害。那个时代的电脑可以从硬盘启动,也可以从软盘启动。当从软盘启动的时候,系统不是正常进入提示符,而是显示“Your PC is now stoned!”和“LEGALISA MARIJUSNA!”曾经让许多电脑用户大惊失色。这样的病毒并没有造成实质性的破坏,因此让许多人掉以轻心。虽然那个时候也在普及电脑病毒的概念,提示大家注意防范,可惜软件价格太贵了,许多厂商为了防止盗版,还做成防病毒卡出售。有些人安装了一些破解的盗版杀毒软件,非常不稳定,而且还可能受到杀毒软件厂商的报复。 比如1997年江民杀毒软件的“逻辑炸弹”事件 ,凡是在mk300v4制作的仿真盘(盗版盘)上执行kv300l++的用户硬盘数据均被破坏,同时硬盘被锁,软硬盘皆不能启动。破坏文件分配表,修改分区表造成硬盘被锁,也不做任何备份,没有任何提示,没有公开提供恢复程序;如果采用磁盘修复工具,会造成不可逆转的损失。虽然用户盗版不对,但作为防病毒厂商如此恶毒,还是属于非常罕见的,因此遭到广大电脑用户的反对。1997年9月8日,公安部门认定该事件违反计算机安全保护条例之23条,属于故意输入有害数据,危害计算机信息系统安全,对其做出罚款3000元的决定。所以许多人觉得,用盗版杀毒软件有些麻烦,还更不安全了,干脆不装,因此许多电脑当时都是“裸奔”的。 但这反而酝酿了一次真正破坏的来临,那就是1998年台湾大学生陈盈豪编制 CIH病毒,也是迄今为止破坏性最严重的病毒,甚至是世界上首例可破坏硬件的病毒,因为它发作时不仅破坏硬盘的引导区和分区表,还破坏电脑的BIOS,导致主板损坏 。那时,我的电脑也没有安装防病毒软件,同样受到了CIH的破坏。我当时有本书已经写得差不多了,备份也是备份在硬盘中的欧不同逻辑盘上,当硬盘无法读取的时候其懊恼的心情可想而知。最糟糕的是,没有现存的修复软件,网上也没有好的解决办法。好在我对DOS的底层技术和原理比较了解,硬是依靠Norton的磁盘工具将我的D盘、E盘中的全部文件及C盘的部分文件恢复回来了(我一直有将数据放在非系统盘的习惯)。于是,我写了一个简单的修复方案放在复旦大学的日月光华BBS上了(也许现在还能找到)。记得有一名临近答辩的博士生,说他的电脑也感染了该病毒,博士论文全部没有备份,希望我帮他修复,并答应给我2万元的报酬。我让他将硬盘抱过来,很快帮他恢复了数据,但我没有提2万元的事儿,对一个穷博士生来说,那不是要他的命吗?这之后,大家的防病毒意识越来越浓了,配置电脑都会首先在电脑上安装一些防病毒软件了。之后又遭遇过 2003年的“冲击波”病毒,但只是引起了系统的破坏,也没有破坏用户的文件 。但这个病毒导致系统无法开机,在全民都在使用电脑的时代也是非常要命的事儿。 除电脑病毒外,在网络世界里,还有蠕虫、木马等许多危害,对个人用户来说,都已经有了装防病毒软件的习惯,因此表观上的破坏不是很严重,只是电脑的性能不能得到更好的发挥,网络速度变慢。其更重要的安全方面的危害可能是涉及到用户信息的泄密问题。自智能手机开始连网以来,手机的病毒和木马也开始泛滥了,还有骚扰电话、短信及垃圾邮件,都是广义的网络安全问题。 在网络时代,大多安全问题都与网络有关。而在这个时代,不连网的电脑不能称为电脑, 总不能因噎废食吧。解铃还须系铃人,连网造成的问题必须依靠网络来解决。特别是在这个云时代,为我们的电脑安全提供了更多的想象空间。下面我想说的是: 在云时代,连网更安全,而且参与用户越多越安全,这就是云安全。 让我们还是先从云安全对付电脑病毒开始。传统的杀毒软件将病毒库放在用户电脑,扫描电脑中的文件时,会反复与本地病毒库中进行比对,占用大量系统资源,电脑运行变得非常慢。随着病毒库的不断升级,病毒库的容量越来越大,分析文件时所耗费的时间也越来越长,电脑也越用越慢。而使用云安全技术,仅需依靠在安全计算中心(云端)建立的的数亿个病毒样本的黑名单数据库和已经被证明是安全文件的白名单数据库,通过互联网的连网查询技术,把用户电脑里的文件扫描检测从客户端转到云端,能够极大地提高对病毒等查杀和防护的效率。 由于大部分的安全检测计算由云端服务器承担,从而降低了用户电脑的CPU和内存等资源占用,使电脑运行速度变快 (这个说法有网友表示质疑,其实我也有同样的疑问) 。 手机的云安全杀毒也与此有类似的情况。 除此之外,云安全杀毒还有一个重要的优势,那就是杀毒的时效性。传统的杀毒软件,从发现病毒,报告病毒,分析病毒到制作新的杀毒代码和病毒库,已经导致该病毒产生大范围的传播了。而 有了云安全杀毒,用户发现病毒后能通过网络自动上报到云端,整个互联网都知道这是一个病毒了,任何连网的设备可在第一时间杀灭该病毒或者禁止病毒的传播,将病毒等消灭在萌芽状态。整个互联网就是一个巨大的“杀毒软件”,参与者越多,每个参与者就越安全,整个互联网就会更安全。 其他的,类似包含有害代码的网页/网站、垃圾邮件,骚扰电话和短信, 只要一人上报,全互联网知晓 ,也可将骚扰降低到最小的程度。让我们享受云安全给我们这个时代带来的便利吧! 如果觉得这个有趣,请关注我的下一篇: 云时代,人云亦云(4):趣谈云下载
个人分类: 科普荟萃|6920 次阅读|19 个评论
云时代,人云亦云(2):趣谈云教学
热度 3 lionbin 2013-11-10 13:54
“ 在互联网上,没人知道你是一条狗 ”(On the Internet, nobody knows you're a dog)这句话在互联网刚刚流行时曾风靡一时。这是1993年7月5日《纽约客》上刊登的一则由彼得·施泰纳(Peter Steiner)创作漫画的标题。漫画中有两只狗,一只端坐在电脑前,与另一只坐在地板上的狗在聊天。据说这是《纽约客》上被重印最多的一则漫画,施泰纳也因此而赚取了超过5万美元的收入。 这在当时指网络所构建的虚拟社区具有一定的隐匿性,别人无法知道你是谁 。在教师群体中,我当时也曾将这句话进行改造,戏谑“ 在互联网上,没人知道你是一位教师 ”,主要是告诫一些老师们在网络上交流应保持对等和公平的心态,朦胧中认为这样可能对教学更有益。 然而,时过境迁,这个时代似乎一去不复返了。随着网络技术的飞速发展,不管出于何种目的而想方设法了解对方到底是谁的个人和组织与日俱增。毫不讳言,眼下不仅有人知道你是一条“狗”,甚至还知道你是一条怎样的“狗”。比如,很早之前就开始流行起来的“人肉搜索”。Google搜索刚开始的时候还没有中译名,我一般喜欢亲昵地称之为“狗狗”。 虽然狗曾经是互联网的最早代言人, 但人家似乎不太喜欢这样称,最后自己取名为“谷歌”了。倒是中国的一家公司将这个名字拣起来了,号称“搜狗”。这里我们忽略一些利用流氓手段来窥探用户信息的软件,我们还是看看貌似出于正当商业目的公司的一些情况。比如谷歌从刚开始建立之初,就保留了用户的许多信息,业务范围也扩展到几乎互联网业务的各个方面。每一项业务都免不了要搜集用户信息——你从什么地方上网,喜欢查询什么,喜欢浏览什么网页,您经常与谁保持联系,甚至关于你的用户名和密码等等。总之,你在网上的所作所为,这些公司尽收眼底。难怪谷歌的首席执行官曾自豪地说“ 收集更多的个人数据是谷歌得以发展的关键 ”。这也使得谷歌在大数据时代和云时代更是如鱼得水。 今天我想谈的是云教学,注意不是云教育(之后再谈这二者有什么区别)。我对云计算应用的理解是“ 我们只需知道在云的世界与对方协作,但无需知道对方是谁 ”。这是否“在互联网上,没人知道你是一条狗”的升级版? 在汉字的大多语境中,“教育”与“教学”似乎是同意词,但这里我却要强调二者的区别?一般来说,人们是从社会和个体两个不同的角度给“教育”下定义的。从社会的角度来看,教育可分为如下几个不同的层次:广义上指增进人们的知识和技能,影响人们的思想品德的活动。狭义上指指学校教育,有目的有计划有组织地对受教育者身心施加影响。更狭义地,强调社会因素对个体发展的影响,把“教育”看成是整个社会系统中的一个子系统,分配着或承担着一定的社会功能。但是,从个体的角度来看,“教育”应该是个体的学习或发展过程,因此会强调“学”,此时就与我说的“教学”有类似之处。因此, 泛泛而讲,教育更注重其社会功能,而弱化了其个体功能。甚至将原本强调“教”与“学”两个方面的“教学”概念也等同为“教育”的社会功能了 ,这从我们国家出版的大多数官方文件中略见一斑。 但是, 在互联网的云时代,我们有必要而且也有可能恢复二者的地位——“教”与“学”本来就应该是对等的 。参看网上关于“云教育”(Cloud Computing Education,CCEUD)的定义:打破了传统的教育信息化边界,推出了全新的教育信息化概念,集教学、管理、学习、娱乐、交流于一体。让教育部门、学校、教师、学生、家长及其他教育工作者,这些不同身份的人群,可以在同一个平台上,根据权限去完成不同的工作。在国际上,也出现了新兴的大规模在线课程(massive open online courses,MOOC)的概念。很明显, 这些理解仅仅是对学校传统教育理念,或者说只是传统“电视大学”的一种扩展,只是利用了网络作为传递教育信息的媒介而已,还远远没有挖掘出互联网已经为我们准备好的教学构架,无法体现“教”与“学”的是对等性 。如果用“云教学”查询,除了找到一些一些公司的宣传之外,目前得不到任何有意义的结果,这也正说明本博文应该存在的价值了。我这里要谈的“云教学”正是要强调“教”与“学”是对等的理念,因此这个词对应的英语应该是“Cloud Computing for Teaching and Learning”,相应出现的对等(Peer to Peer)教学是这一概念的实践,充分利用了云计算的技术和互联网本身的对等性特征,目前在全球也有不俗的表现。 为了理解对等教学,下面将以诞生于草根性项目的“网络同伴互助对等大学”(Peer 2 Peer University,简称P2PU)为例来进行说明。这个大学的理念是: 人人可教,人人可学,事事可教,免费自由 (Learning by everyone,For everyone,About almost anything,Completely free)。P2PU的核心是开放社区,通过大规模开放的在线课堂,藉由开放社区建立起来的网络大学。 在这里,人人都可扮演着学生和教师双重身份:所有的成员都能够创建课程,这些课程也可被任何网上用户所访问 。 这对传统的大学来说,P2PU可能是一个巨大的挑战。办一所实体大学,必须要有教学楼、餐厅、体育场、图书馆,未来的大学还需要这些吗?P2PU跨越地域的局限,让具有共同兴趣的人基于开放资源共同学习。2009年9月9日,P2PU正式开课,第一批共7门6周的课程,标志着P2PU由梦想变为现实。最初的大学很“简陋”,就是基于维基和Blog搭建的平台,学生可以将学习收获记录在自己的Blog上,也可以通过维基协商讨论、共同创新知识 。之后,如何对学习者的学习历程与收获进行认定,使得他们在虚拟大学中的学习努力和成效得到他人的承认,这是一个需要克服的难题,好在现在已经有人在考虑这些问题了。 除此之外,与传统大学相比,这类大学的优越性更体现在课程的开放性和对对等性方面。一些大学也开办了利用网络作为媒介的“网络教育学院”,也有些网络课堂,但在这些开放课程资料中,其所展示的很多内部资源又是不开放的,比如教案中说要求读某一本书,或者下载某一篇文章,但是这本书或文章可能是不开放的,这对那些校外的学习者,或者说没有办法获取到这些资料的人来说,那就是雾里看花、水中望月了。而P2PU的一个重要目标是创设内容完全开放的课程,课程资源主要是在已有开放在线资源、或者免费的在线资源的整理,在创用CC协议框架下,对课程资料进行重组或者资源链接,真正实现任何可以接触到互联网的人都可以获取到这些课程资源,开展学习。此外,在P2PU,作为潜在课程资源的同伴之间讨论产生的内容也是开放的。这充分体现了在“云”帮助下的共享,但不再是云里雾里了。另外,在P2PU中任何人均可以创建课程,可以是领域的专家,也可以是领域的新手,这就是教学对等性的体现。课程组织者均是志愿者,课程创建的目的往往是基于兴趣和喜好。新手课程组织者可以得到外界专家的指导,帮助其将课程准备的更好。在课程进行过程中,参与者们的讨论观点和笔记,又成为潜在的课程资源,实现了课程的自组织发展 。 由于P2PU的云教学还处于发展之中,也许还未被广泛接受或者是习惯采用的方式,因此有时候也碰到一些实际的困难。比如,为了解这种对等创建(peer-created),对等主导(peer-led)的网络环境如何维持, 有人 对P2PU的实际效果进行了一些调查,主要包括成员作为学生或教师通过开放式网上学习平台的参与情况。从对P2PU的4万多用户中抽入的样本分析发现,85%的成员从来没有参与过社区,只有18%的课程会考虑完成并保留在平台上。虽然对等大学的用户积极想办法去创建课程,但是在完成这些课程之前,他们会一直处于比较纠结的状态,表明需要随时鼓励这些这些教师和学生用户的参与热情。缺乏动机或社区参与,也许可以解释为什么一些教师最终没有完成该项目。然而,数据显示了众多来源(众包)的教育资源汇集起来,不管对对感兴趣的小团体,还是广大受众都能带来一定的帮助。Science周刊 在今年10月出版的一期“Editors' Choice”栏目中对此也进行了评价与介绍。 如果觉得这个有趣,请看我的下一篇: 云时代,人云亦云(3):趣谈云安全 参考资料 贾义敏等,2011。P2PU:开放的网络学习社区。现代教育技术,21(8): 9-13 。 Ahn J. et al., 2013. Learner Participation and Engagement in Open Online Courses: Insights from the Peer 2 Peer University. Journal of Online Learning and Teaching, 9, 160. Education:Learners As Teachers. Science, 342, 163. 2013-10-11.
个人分类: 科普荟萃|7883 次阅读|10 个评论
不得不说的云计算三大核心技术
热度 1 whitesun 2013-11-9 13:15
目前云计算已经作为一个日常用语被广大互联网用户掌握,在软件企业、高校提的更是平凡。云及云计算估计是最常用的科技词汇了。到底何为云计算?似乎普通大众以及未深入研究的学者被忽悠了,只是反复不断地传递基于云计算的应用的相关词汇,而不是云计算本身,当然,这也许 是云或云计算被世人当成无空不入的高科技产品的根源。 到底何为云?何为云计算?就计算机领域来说,云计算是一种利用计算机提供服务的方 式,目前公认的是提供三个层次的服务:基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS) 。 2006年3月,亚马逊(Amazon)推出弹性计算云(Elastic Compute Cloud;EC2)服务后,云计算开始进入大家的视野,2006年8月9日,Google首席执行官埃里克·施密特(Eric Schmidt)在搜索引擎大会首次提出“ 云计算 ”(Cloud Computing)的概念。不管是亚马逊的EC2还是Goolge的云计算,均是联合非常多的计算机于一体,对外提供服务,具体来说依靠如下三类技术: 服务器虚拟化:利用Xen或WMware等虚拟软件,将多台计算机联合起来,虚拟出更多的计算机提供给用户,方便其搭建自己的应用。现在政府官员眼中的就是这类云计算,所谓私有云、政府云等等,说白了就是买3-5个好的服务器,虚拟出10-20个服务器,每个服务器上安装一个具体的应用。这样做可以提高资源利用率、降低维护成本、省电等等;当然目前的阿里云等也是这类云计算,只是计算机公司专门基于Xen等虚拟化软件开发出来的一套方便管理万台甚至几十万台服务器的软件,该软件可以为用户提供定制性能的服务器(计算机),用户安装自己的操作系统,而后搭建自己的网站等应用,这其实就是所谓的公有云。 存储:将大量计算机上的存储资源联合起来,形成一个海量的存储空间,用户需要多少分配多少。底层技术是分布式文件系统,如Google的GFS和Hadoop的HDFS。目前大家常用的百度云,360云等等几乎都是基于Hadoop的HDFS或其他分布式文件系统搭建起来的,并增加一些文件上传、播放音乐与视频等等功能,其实说白了这些云存储的具体应用,即一套分布式文件系统+加上一个Web网站。当然直接利用分布式文件系统很不方便,Google首先提出了BigTable,并实现了列式数据库,其实也是基于GFS这个分布式文件系统的, 与此类似,Hadoop开发了HBase这个列式数据库,当然目前响应各种需求,发展出统称为NoSQL((NoSQL = Not Only SQL,指“不仅仅是 SQL ”)的一系列数据库,例如规模小的有redis以及Cassandra,MongoDB, CouchDB等等,目前各大互联网公司均采用这些数据库存储海量的用户数据,如淘宝就使用了HBase。 计算:将大量计算机上的CPU计算资源利用起来,形成一个快速的计算平台,用户按照特定规范编制的程序可提交给这一计算平台进行计算,快速获得计算结果。这其实是云计算的根本所在,Google首先提出的Map/Reduce编程框架突破了以前分布式计算、网格计算的模式,能有效地利用几千台甚至几万台计算机在几秒至几分钟能统计出40G甚至几个T文本文件中各个单词数量,这种计算模式是搜索引擎得以服务大量用户的基础,目前大家常说的Hadoop就是Google云计算的开源实现,百度、淘宝等大公司都用Hadoop做数据分析,这就是所谓当前大数据分析用的基础软件。Goole提供的翻译服务其实就是基于自己的计算平台开发的一个具体应用程序,它可在不到1秒钟内利用几百甚至上千台计算机为你提交的翻译句子或段落进行分析,给出结果。 可以这样讲,互联网公司往往利用上述三类技术为海量用户提供各种服务,而利用了这些技术的软件,这些公司在宣传时往往带个“云”,这就是到处是云的原因所在。当然当前互联网底层技术,其实还有很多,这里不展开说了。 事实上为了迎合这种云计算的发展需要,硬件厂商也紧跟其后,开发适合云计算的服务器、硬盘、网络设备等等,例如购买上万台甚至几十万台的IBM服务器太贵,目前多用一些进行了专门设计的廉价PC服务器搭建互联网公司的集群。可以说,目前云计算产业链基本形成。 本人从2006年到现在,搭建过多次Hadoop集群,讲过2门相关的课,研究过Xen虚拟化技术搭建云平台,搞过MogoDB,组织学生开发过自己的网盘和NoSQL数据库等,也正用Hadoop研究推荐系统,再到现在研究Storm等,就这些研究、学习与实践体会以及实际中碰到的问题,我认为搞云计算的门槛挺高,首先需要在Linux平台上搭建各种开源软件,需要有较强的专研精神,其次需要有硬件环境支持,最后需要有实际需求驱动,否则难以成功。为此,我不建议普通科研人员搞抽象的云计算,也不建议上来就搞什么大数据分析,否则会浪费大量精力。就我了解的情况,国内只有一些达到世界一流研究水平的研究团队,才能把这些技术搞得像回事,原因在于有钱也有聪明的人。 回归主题,不得不说啊,真不忍心看着很多人瞎搞,浪费人力物力,也真不想看到一些人利用云计算这个词圈钱。 主要参考文献: 百度百科.云计算.http://baike.baidu.com/link?url=L2PPgz-08Ef20Hu71gNn8KLRl21NsWS9U5L-caSrlmJNrsUF3s62mbS2XXGimAeyb5DbYXWbD9gBC48U5TdJga.
个人分类: 科研实践|24697 次阅读|1 个评论
云时代,人云亦云(1):趣谈云翻译
热度 8 lionbin 2013-11-9 00:28
在不远的过去,云是很容易理解的,指停留大气层上的水滴或冰晶胶体的集合体。但现在问什么是“云”,十有八九会把人问倒。不信你可以用“云”作为关键词在谷歌中查查,你会发现绝大多数词条与你曾经理解的云没有什么关系。是呀,云时代了,什么都云了,我们都只好人云吾云了。由于云是新生事物,不同的人从不同的角度,也许对云的解释会略微有些不同,甚至有较大的差异,这应该属正常情况。除了一些有明确定义的关键术语,该文的主要内容完全是从我的非技术角度来谈论的。如有不妥,请指正! 百度百科说“云是网络、互联网的一种比喻说法”。按照我的理解,更明确地说,云应该是通过网络连接的计算机群,每一个群包括了数以万计或者更多的计算机。云有许多好处,云中的计算机可随时更新,保证云长盛不衰。许多IT巨头,如谷歌、微软、雅虎等就有这样的云。对于用户来说,我们只需要一台能上网的电脑,不用关心存储或计算发生在哪朵云上。一旦需要,可以在任何地点用任何设备,如电脑、手机等快速地找到这些资料而不用担心资料会丢失。到目前为止,谷歌可以说是将云最物尽其用的公司了,其真正的竞争力也体现在这些云上,这使得谷歌有了无与伦比的存储和计算全球互联网数据的能力。 与云相关的应用中,云计算是最常出现的词语了。按照Wiki的定义, 云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化资源的计算模式 。其他的应用显然就是在云计算的基础上而建立的。下面举几个例子来说明,比如: 云安全 ——使用者越多,则大家就越安全。这方面相信使用智能手机的用户应该已经开始亲身体会到了。比如,我正在使用的360卫士,每天就为我拦住了许多不胜其烦的广告短信和电话,这些电话号码只要一个人上报了,所有使用这个服务的手机用户都知道了,很快就被截获。人人为我,我为人人嘛。 云游戏 ——有人说,电脑硬件的发展,游戏玩家的需求也帮了不少忙,从某种程度来说,这是不无道理的。为了达到最佳的体验和显示效果,需要配最高端的CPU和显卡。不过以后,就不需要这样了,因为所有游戏都在服务器端运行,仅将渲染后的游戏画面压缩传递给玩家,而客户端用户则不需要任何高端处理器和显卡,只需要基本的视频解压能力就可以了。 云存储 ——以数据存储和管理为核心的云计算系统。提供这个服务的公司已经很多了,我自己的电脑上就安装了管理360云盘和百度云盘的应用程序,查查你的电脑中有几个? 云物联 ——这涉及到物联网和云计算的概念,此时,云计算可看成互联网中的神经系统的雏形,而物联网则是互联网正在出现的末梢神经系统的萌芽。当世界上所有的物体都通过网络连接的时候,那是怎样一个智能的世界呀! 其他一些应用,比如, 云教育 、 云会议 和 云社交 等本质上是类似的东西,只是针对不同的群体和目的而出现的略有差异的应用而已。这比较容易理解,就不再赘述了,因为我还想谈一些更有意思的应用。 对于云的应用,如有可能,我想写成一个系列博文。前面是一个引子,后面的内容作为开篇,先来聊聊 云翻译 。 利用电脑来辅助翻译,即所谓的机器翻译,是许多人都梦寐以求的。机器翻译的研究历史可追溯到还没有个人电脑的时代,但研究很快受挫,后来在个人电脑的普及下,又重拾信心,开始了新的发展历程,特别是互联网的出现,更是为机器翻译的发展提供了飞奔的翅膀。从我所经历的使用个人电脑和网络的发展来看,大体上可分为如下几个阶段。 最开始的电脑翻译,其实就是一套软件,可安装在个人电脑中使用,功能不多,基本上是词-词对应翻译,倒也省去了翻阅词典的麻烦,但翻译的句子搞笑的成分居多。上世纪90年代末,有一个朋友的公司所开发的翻译软件,让我帮忙测试一下(软件名字就不说了)。我拿到软件,就想先用简单的句子测试一下,从简单问候语开始吧。“How are you”,软件居然翻译为“怎么是你”;句子长一点试试,“How are you doing”,软件翻译为“怎么是你在做”;算了,还是换一个话题吧,问问年龄,“How old are you”,翻译为“怎么老是你”。本来我还想测试一下“How do you do”的,如此看来,也不用它翻译了,我估计会翻译为“你搞什么搞”。这种只能按照对应词翻译,而不能翻译句子的软件,也只能做简单的辅助翻译了。 后来,网络开始发展了(确切地说,应该是谷歌搜索发展了),就可以更多地利用网络资源。翻译文章的时候,有把握不准的地方,可以将双语资料同时输入搜索引擎查一查,参考网上有对应翻译的资源,这样可大大提高翻译的准确性。此外,还可以通过搭配查询,以确定在一个句子中用什么词最合适,但这是一个需要人自己操作的过程,并不能实现机器的自动翻译。当然,采用类似想法已经开发出多个软件,其中我最熟悉的就是有道词典, 它通过收集双语语料作为“例句”,可帮助我们进行更准确的翻译,这如果用于训练机器,当然也可加强机器翻译的效果 。有道词典的那个全文翻译应该就是这样设计的。 不过,这些类似软件的共同瓶颈是, 大多语料库还相对比较缺乏,还不足以训练出足够“聪明”的语言模型和翻译模型 。虽然现在已有一些技术可实现从网上抓取各种语料资源,但 网络资源本身的质量是难于保障的 ,比如,网上的东西也许本来就是错误的,可见语料库的创建本身还是要人的参与,因此这些软件开始采用 众包的模式——用户可以为机器翻译的结果添加改进建议 。要完成这样的功能,这就需要慢慢进入到了下一代翻译软件,在云平台的基础发展出的“云翻译”。从我了解的情况来看,谷歌翻译在这方面有很大的领先性,因此下面就谷歌翻译目前的产品Google Translate Toolkit来看看云翻译的发展趋势。 2006年,谷歌公司开始涉足机器翻译。谷歌的目标是“收集全世界的数据资源,并让人人都可享受这些资源”。为了训练计算机,谷歌吸收它能找到的所有翻译,从各种各样语言的公司网站上寻找对译文档,因此汇集了大量的语料库。如果不考虑翻译质量的话,谷歌目前收集的上万亿的语料库相当于950亿句英语,这大体上完成了语料库的收集工作。通过这些语料库作为“训练集”,可以正确地推算出英语词汇搭配在一起的可能性,因为我们相信正确的句子和搭配有更多的出现概率。 利用云平台进行进行人机交互。如果用户对在线翻译的结果交互进行校对和精确的专业翻译,这种信息也会传递到云,她就会记住用户的修改,可在之后服务用户自己(个性化定制),也可分享给其他用户。谷歌本身自带大量的普通词汇和专业词汇,但也许仍然不能满足一些用户的需求,因此也允许用户导入自己的专用词汇表,这样,机器翻译会优先采用用户的词汇表来调整翻译。当然词汇表也可以共享,这对于多人协作翻译很有用,可保证多个译者对同一个专用名词在整本书内的一致性。另外,你放心,谷歌一定会自作主张地记住你所有的译文,这些译文可以作为你日后翻译的参考,如果你愿意,也可以共享你的记忆库,让协作者利用你的成果;如果你许可放到公共翻译记忆库,你的翻译知识就可以被所有人所用,当然同时你也可以享用他人的翻译成果(需要提醒注意的是,如果你不指定自己的翻译记忆库,谷歌会默认将你的译文放入公共翻译记忆库,这是谷歌一直以来的习惯了)。 这些功能的确 将人类翻译的智慧集中起来,大大提高了参考翻译的可用性。这就是云,在云里,我们与对方协作,不需要知道对方是谁。 计算机翻译技术正在从“人-机-人”模式进入到“机-人-机”模式,这一转变似乎是从人需要机器的帮助,到机器需要人的帮助,但主角却发生了变化。 虽然机器翻译在云时代取得了这么大进步,但我们还应该知道,在全文翻译中,词的搭配、同义词和反义词等相关词组的选用、感情色彩等信息是流畅翻译的重要方面,这一点机器翻译是否能胜任,我们将拭目以待。从对谷歌翻译的实际体验来看,是做得越来越好,所翻译句子的可读性也越来越高,但离真正理想的机器翻译还任重而道远。 如果觉得这个有趣,可再看我的下一篇: 云时代,人云亦云(2):趣谈云教学
个人分类: 科普荟萃|7998 次阅读|24 个评论
[转载]李国杰:云计算不可忽视计算机系统研究
chnfirst 2013-11-5 10:09
http://cloud.it168.com/a2010/1029/1119/000001119664.shtml 李国杰:云计算不可忽视计算机系统研究 2010年10月29日11:26 it168网站 原创 作者:洪钊峰 编辑: 洪钊峰 我要评论( 0 ) 标签: 云计算 , 基础架构 , 云计算专家 , 云计算操作系统 , 动态架构   【IT168 特别报道】 10月27日-30日,北京,国家会议中心,高性能计算领域的一场大戏即将上演。今年的全国高性能计算学术年会(HPC China 2010)由中国计算机学会高性能计算专业委员会主办、中国软件行业协会数学软件分会协办、北京市科学技术研究院和北京市计算中心承办。作为网络媒体合作伙伴,IT168将对此次盛会进行专题报道【 点击专题 】。   中科院计算所所长李国杰院士在29号上午作了主题为《云计算与HPC——兼谈加强计算机系统研究的必要性》的演讲。他指出,虽然云计算是发展趋势所在,但现在对云计算基础关键技术的研究还远远不够,业界过于偏重虚拟化技术,而忽视了对计算机系统技术的研究。 ▲中科院计算所所长李国杰院士   李国杰首先引用了Gartner、Berkeley、Dan Reed等机构和专家的一些研究结果和观点,认为云计算确实是一种“不可替代”、“不可阻挡”的趋势,但目前推广云计算的重点只是在于转变商务模式,并对其背后的虚拟化技术给予了相当多的关注。   但他指出,虚拟化并不等于云计算。云计算系统的本质可以看成是“资源虚拟化+并行计算”。虽然虚拟化技术是云计算的基础之一,但仅仅依靠虚拟 服务器 并不能组成一朵云,云计算的能力远远要超出一般的虚拟化解决方案。而并行技术是藏在云计算背后的核心技术,也是Google等云计算公司具有的竞争力的关键技术。 ▲   针对目前各地纷纷组建云计算中心的热潮,李国杰院士指出,虚拟化技术是一种相对门槛较低的技术,各大公司和各地政府都可以在较短时间内建立起“云计算平台”,但从长远来看,一个云计算平台能否存活下去,不是光看虚拟化技术,而是看它的资源利用率、成本、可靠安全等系统因素。“真正支持云计算的是计算机系统技术,而这些技术用户看不见,媒体也很少宣传。” ▲   他谈到,计算机系统研究要关注的主要问题有很多,包括:计算机指令系统、通用和专用系统结构、虚拟化、节能、可靠安全、性能与可扩展性等等。“虽然目前的云计算只涉及到其中的少数问题,比如偏重于中间件,还有许多基本问题有待解决。” ▲   同时他也指出,计算机系统的难点在于并行处理。并行处理已经研究了几十年,论文多如牛毛,但进展并不大。而并行计算最关心的是“如何提高计算机的性能和效率”,虽然这个问题从来没有改变过,但答案却在不断变化。
个人分类: 电脑、办公|0 个评论
[转载]概念大PK:云计算与高性能计算(HPC)
chnfirst 2013-11-5 10:05
http://server.it168.com/a2010/1029/1119/000001119917.shtml 概念大PK:云计算与高性能计算(HPC) 2010年10月29日19:09 it168网站 原创 作者:洪钊峰 编辑: 洪钊峰 我要评论( 0 ) 标签: HPC , 超级计算机 , 高性能计算 , 云计算 , 云服务器   【IT168 特别报道】 10月27日-30日,北京,国家会议中心,高性能计算领域的一场大戏即将上演。今年的全国高性能计算学术年会(HPC China 2010)由中国计算机学会高性能计算专业委员会主办、中国软件行业协会数学软件分会协办、北京市科学技术研究院和北京市计算中心承办。作为网络媒体合作伙伴,IT168将对此次盛会进行专题报道【 点击专题 】。   超级计算机和云计算都是时下比较火的两个概念,前者一般主要面向科学计算、工程模拟、动漫渲染等领域,大多属于计算密集型的应用,后者则主要是在Web2.0、社交网络、企业IT建设和信息化等领域,以数据密集型、I/O密集型应用为主。虽然侧重点有所不同,但这两者之间是很有渊源的,比如两者都使用了分布式计算、网格计算、集群、高密度计算等技术,也有一些领域在使用云计算从事HPC类的应用,如北京市计算中心就在打造“北京工业云”,为中小企业提供产品设计模拟服务,浪潮和NVIDIA也在分别推各自的“渲染云”方案。不过,HPC与云计算也存在很多不同,比如HPC几乎不用虚拟化技术,因为一个应用就可能把多个机器的 CPU 都跑满了,虚拟机没什么用武之地,而在企业私有云中,虚拟化却是一个最基础的技术。   在29号上午,中科院计算所所长李国杰院士作了主题为《云计算与HPC——兼谈加强计算机系统研究的必要性》的演讲。在演讲中,他旁征博引,就高性能计算与云计算之间的关系谈了许多观点,现总结如下: ▲    云计算是超级计算中的新发展   对高性能计算(HPC)而言,云计算并不是一个新的概念。事实上,已经发展近30年的超级计算中心也是一种早期的云计算模式:昂贵的计算资源集中部署,多个领域的用户通过互联网远程使用计算服务并依据使用量支付费用。但这种HPC服务和当前所谈论的云计算又有着一些明显的区别,如没有充分采用虚拟化技术,没有良好的用户界面等。   云计算将扩大HPC服务的范围。随着虚拟化即时的提高,通信延迟降低,紧耦合的计算将在更大范围内具有吸引力。   特别是位于高端计算和桌面计算之间,存在众多对高性能计算有潜在需求的用户。调研表明,阻碍这些潜在用户使用高性能计算的主要障碍包括:缺乏HPC人才,建设和运维的成本以及使用HPC应用的复杂度。而云计算正是应对这些挑战的最佳途径。 ▲   云计算还不合适做尖端的超级计算机   Dan Reed认为,云计算绝对不是为特定目的构造的性能顶尖计算机的替代器。如果一种Petascale计算需要极低的任务间通信延迟,今天的云计算肯定不适合。但是对于大多数使用较小规模设备的研究者,云计算是有吸引力的替代器。   目前的云模型并不支持顶尖的超级计算。动员Grand Challenge应用的人做云计算就如同要说服驾驶F1赛车的人去乘公共 汽车 。HPC主要执行计算密集型的任务, CPU 的利用率已经很高,因此虚拟化技术对于HPC的CPU利用率作用不大。虚拟化对计算密集型(如果数据能全部放进 内存 )应用的影响很小,而I/O密集型应用的性能则会有一定下降。   目前的云计算做HPC效率较低   基于云计算理念来构建超级计算中心,除了满足传统的或现有的HPC用户需求外,更重要 提创造并吸引众多新领域的用户。美国德州先进计算中心(TACC)的Edward Walker对Amazon EC2上HPC应用的性能表现进行了研究,应用选择常用的基准测试程序NPB,测试结果表明:几乎相同的硬件条件下,对OpenMP版本的8个测试程序EC2性能下降7%至21%不等,MPI版本性能则下降40%至1000%不等。 ▲   今天的数据中心与未来的HPC   云计算的易用性会影响传统的HPC计算模式,传统的排队批处理方式很难实现按需即时响应的科学计算,On-demand的云计算给HPC提供了更易交互的计算模式。如同几年前用大众化的PC 服务器 搭建集群以及最近用GPU加速科学计算一样,云计算对于HPC也是一次模式转变。   构建百万节点数量级的数据中心与今天构建Petascale(千万亿次)及今年后构建Exascale(亿亿次)的系统有许多相同的困难。Dan Reed认为,他们就象是一对“双胞胎”,面临共同的挑战包括:高速互连、存储分层(包括Flash,PCM等)、异构多核处理器、系统可靠性和恢复能力、机柜、冷却、能耗效率和编程等等。今天Mega-datacenter的经验将可用于未来的Exascale超级计算机设计。   云平台将最终取代HPC基础设施   美国IT战略科学家Dan Reed指出,云计算使得计算和海量数据特别便宜,云平台最终将取代传统的HPC基础设施。如果主机(Mainframe)是跳棋,PC和Internet是象棋,云计算则是要眼观全局的围棋。   另外,李国杰院士还特别指出,虽然云计算是发展趋势所在,但现在对云计算基础关键技术的研究还远远不够,业界过于偏重虚拟化技术,而忽视了对计算机系统技术的研究。参考阅读: 李国杰:云计算不可忽视计算机系统研究
个人分类: 电脑、办公|0 个评论
大数据时代,我诚惶诚恐的拥抱
热度 14 Ydavid 2013-10-28 02:08
这是最好的时代,也是最坏的时代,让我们拥抱大数据时代。 ---- 题记 这几天拜读了维克托·迈尔的《大数据时代》,感慨颇多,技术引领我们进入数据时代。数据存储、分析能力的提高大大改变,基于大数据的分析结果已经完完全全改变了我们的生活,如便捷的翻译、便捷的输入、新产品的推荐等。大数据已经成为学术界、业界关心的热切关心的问题,大数据时代的技术模式、管理模式都尚且未知。本文在梳理大数据的学术研究脉络的基础上,分析大数据和云计算的关系,大数据内涵及与信息技术发展的关系,并尝试对大数据在学术界和业界的发展进行预测。 实验室今年申请的自科基金,或多或少与大数据相关,虽然从技术角度刻意削弱了大数据的内涵,但是从评审意见看出大数据作为亮点被指出,说明学术界对大数据的重视。大数据虽然在互联网行业中如火如荼的被讨论着,基于笔者的既有知识,大数据原本是描述生物学领域下对于基因序列检测所获取的大量的、高速数据,《 Nature 》在 08 年发表专刊对大数据进行讨论,而 Lynch 则从高校科研数据管理中提出科学数据是大数据的一种,提出了数据价值的时间耗散现象。由此看书,大数据起于生物科学,而兴于互联网。无论是 Google ,还是亚马逊,都记录了大量广大网民日常行为,构成大量数据。对于大数据应用的文章, 哈佛商业评论 上的文章 Strategy Competition Big Data: The Management Revolution 为大数据的商业变革进行了深入分析,认为大数据将互联网的个性化商业服务向个人化推送,企业将能更有效的刻画用户偏好,为客户管理管理、产品推荐都提供较好的数据支撑。然而,就目前为止,学术上对大数据的研究更多停留在定性分析角度,尚且缺乏实证和计算科学上的研究,大数据的关键属性尚未可知,笔者认为学术界满意开展对大数据的研究原因有二:首先,满足大数据的特性的数据集难以获取,既有定量研究都是基于样本数据;然而,学术界实验的计算能力不够,面向大数据的算法以及应用更多出于企业摸索阶段。《大数据时代》给出的多个案例都证明了大数据的可用性,但是这些案例也都是利用大数据去解释企业行为及得到的效果,直接基于大数据概念下的应用尚未可见,其根本原因是满意界定何为大数据。笔者较为同意维克多在《大数据时代》的定义,大数据不在于数据之大,而在数据的总体,其本质在于利用数据总体而非数据样本去分析数据。大数据带来三个方面的改变:追求总体数据、追求相关关系而非因果关系、追求混杂行而非精确性。对于大数据特征的分析,笔者非常同意清华大学陈国青教授提出的 4V ,规模巨大 (Volumn) ,形式多样 (vary) ,高速产生 (V??), 以及潜在价值 (Value). 大数据提供了从个人化层次以及宏观层次两个层面的数据描述。 笔者认为大数据是对云计算的延伸,云计算是大数据简单地应用,前几天关于云计算的多见于云存储以及云音乐等简单应用,但云计算为大数据准备好了技术,实现数据统一,数据共享,而大数据是云计算的进一步延伸,更加关注数据分析技术和数据应用思维。笔者同意《大数据时代》中认为大数据是数据、技术和思维三国鼎立的时代,而大数据时代催生出新的商业模式,数据拥有者、数据中间商等成为新的商业宠儿,对商业模式的巨大冲击,利用大数据预测消费者行为都是大数据的商业内涵,企业有机会更为准确的服务消费者。虽然《大数据时代》提出相关关系在大数据的重要性,但将相关关系至于大数据内涵尚需要深入分析,笔者认为因果关系仍然处于数据分析的核心,大数据概莫如是,原因有二:相关关系的本质是因果关系链;二,人类的逻辑推理能力是基于因果关系的积累,而非相关关系的发现。当然,书中对于是什么的观点无可厚非,问题解决只需要知道是什么即可,对于为什么可以因为效率而暂放一边,但是因此放弃因果关系还是不妥当。 由《大数据时代》,大数据的发展的关键在两个方面:首先是数据的获取,如何合理、有效、快捷、有柔性的获取支持现在以及未来大数据分析的数据集仍然是问题,其中包括,数据获取的合法性以及数据设计问题,获取之后的存储相信在存储成本下降,非关系型存储技术的发展将不是问题。然后是大数据的分析问题,有效的分析技术仍然是大数据应用的关键,虽然 google 利用检索词预测流感爆发是大数据的成功应用,但是通用的分析技术,降低分析硬件需求仍然值得讨论, SaaS 可能是解决这一问题的可能渠道,但是如何实现数据分析仍然是个问题,现有 MapReduce , Hadoop 等系统本质上是治标不治本,大数据碎片化的过程中必然数据大量数据关联。笔者认为大数据分析技术的关键在于如何将现有分析技术应用在大数据集,使之能够处理大数据。而《大数据时代》中提出的简单算法在大数据集下显示出比复杂算法较优的效果的现象,笔者更多认为是复杂算法在现有硬件条件下无法有效进行计算,信息技术的发展必然要解决这个问题。 最后,推荐《黑镜》给大家去看,这里有对于大数据道德的深入思考,不再赘述。
个人分类: 读书|12460 次阅读|28 个评论
[转载]移动互联网模式为什么不是P2P而是云?
libing 2013-10-16 22:24
做数据处理时深感资源不足,这是学术圈的共识,因此有人提出,实验资源(计算资源)通过网络互联实现共享。从计算的角度来讲,同当年网格计算的思路非常相似;从内容共享的角度来看,同P2P的内容分享非常相似,如迅雷等。 由此想到当年的P2P和网格为什么现在很少被提及,而云成为了主流。这里暂且不谈学术领域这个较窄的圈子,而是从更高的层面探讨下,移动互联网时代P2P和网格技术的没落,云计算模式兴起的原因。 分析:从网格计算和P2P模式的发展来看,这种资源共享的模式不适合移动互联网,个人觉得原因如下: 1、人类的本性,希望多获取,不想多付出:没有好的计费模式,以及各个机构对内容保密的担忧,以及内容提供商对产权的保护意识增强; 2、台式电脑逐渐被手机和pad取代,手机和pad闲置的是时间,但是并不闲置计算资源; 这个多说一点:大家也许每天只玩两个小时的手机或者平板,好似闲置率很高,但是,因为这些设备的电源限制,谁也不希望将空闲资源分享出去;同时,只要大家真的使用这些设备,玩游戏、上网,都是觉得计算和网络资源不足,还哪里觉得闲置呢! 3、计算和内容被一起封装成了APP,单独的计算资源和内容很难共享; 4、P2P模式和网格模式中,计算资源的分配,算法的并行实现,资源的动态管理,都是很复杂的问题,至今没有好的解决方案。从业界的角度而言“大道至简”,哪个公司希望自己的系统如此的复杂,不知道运维费用将有多高? 而云计算的普及有其源动力: 1、后台的计算资源由云服务商提供,数据中心处于可控状态,采用简单的MapReduce计算模型,同构集群实现。维护简单,降低了开发和运维费用; 2、移动终端只需要同固定的云服务器通信。这些服务器带宽高,弹性足,用户体验好; 3、云的数据中心的计算资源,以APP的方式提供。除了单机版游戏之外,现有的流行移动互联服务,都是后台云支持的。云的计算资源也是通过这些APP分发给用户的。APP和云服务器的协同开发和优化是其最大优势。 4、云计算带来的用户流量很容易带来广告等收入,对于有核心应用的企业而言,数据中心的成本在公司开销中比重并不高。 5、用户数据在云上的积累,产生额外的价值,分析这些用户的数据,可以进行个性化服务,针对性电子商务等。可以说,云模式不只是简单的计算平台,也是智能化服务的基础,而智能化是计算发展的终极目标。
个人分类: 云与服务|2655 次阅读|0 个评论
迎接新时代挑战的环境遥感技术
热度 7 lionbin 2013-10-9 22:44
迎接新时代挑战的环境遥感技术 该文发表于《科技导报》2013年第26期 ( 文章下载链接 ) 1 传统环境遥感技术的发展 环境遥感这个术语 1962 年才开始出现在国际科技文献中,但其历史却可以追溯至两次世界大战时期,当时利用机载遥感进行大地测量、勘测、制图和军事侦察,称为 机载遥感时代 ; 20 世纪 50 年代,以俄罗斯的 Sputnik-1 和美国的 Explorer-1 为代表,进入了 初级星载遥感时代 ,并同时成就了全球第一颗气象卫星 TIROS-1 ;在冷战高峰期,间谍卫星 Corona 被广泛应用,促成 间谍卫星遥感时代 。虽然这 3 个时代卫星的发展本质上是用于军事目的,然而也就是因为该时期的军事竞赛,卫星技术得到蓬勃发展,冷战后这些技术大多转为商用,以遥感影像为主的应用慢慢进入环境和自然资源领域。 气象卫星遥感时代 是真正的数字记录时代,并拥有了可独立运算的计算机硬件和软件,将全球监测变为现实。早期的气象卫星传感器由对地静止卫星 GOES 和极地轨道卫星 NOAA 上的 AVHRR 组成。以美国 LANDSAT 、法国 SPOT 等系列卫星为代表,卫星拥有了更高分辨率,完全具备了全球覆盖能力,这是最重要的 陆地卫星时代 ,开始真正在局域、区域和全球尺度广泛开展环境遥感的新纪元。在陆地卫星发展得如火如荼之时,随着 20 世纪末 “ 图谱合一 ” 的光学遥感器 MODIS 的发射,环境遥感技术进入了 对地观测系统( EOS )时代 ,带来了覆盖全球、重复性高、产品多样,易于获取和免费访问等全新监测体系。当然,随着时光进入新世纪,也迎来了环境遥感技术上的 新千年时代 ,各种新型遥感器层出不穷,例如使用雷达技术的主动星载遥感器 ERS ,对地球数字高程进行测量的 SRTM ,携带星载高光谱遥感器的 Observing-1 ,取代 LANSAT 卫星的升级版高级陆地成像仪 ALI ,亚米级的高分卫星 IKONOS 和 QuickBird ,以及观测地球重力场变化的 GRACE 。谷歌公司为增强其谷歌地球产品的性能,也开发了分辨率高达 0.5 米的 WorldView 系列卫星,加入环境遥感大家庭。 2 未来环境遥感面临的新挑战 目前的信息社会已经进入到一个新的发展阶段,其主要技术特征可用三个词来描述:物联网、大数据和云计算。与信息技术有着千丝万缕联系的环境遥感,在这个新的时代,必然要赶上了新的机遇,当然也面临着许多新的挑战。 传统的环境遥感可以宏观监测空气、土壤、植被和水质状况等信息,但由于缺乏地面连续与翔实的信息进行验证,致使遥感识别的精度较低,即“遥”而不“感”,或者说,虽然站得高看得远,但看不清看不准,许多不确定因素仍未真正解决。可喜的是,随着物联网技术的发展,为实现高精度定量环境遥感提供了契机。我们与物理世界打交道,越来越依赖于无处不在的移动设备,它们可以通过传感器连接起来。越来越明确,从航空航天器所获得的遥感数据并非未来环境遥感的唯一来源,那些低成本、可联网的移动传感器正日益增长。物联网的关键技术就是无线传感器网络 ( WSN ) ,可将传感器、自动控制、数据网络传输、储存、处理与分析技术进行集成。通过地面局部区域布设的高密度环境传感器,获得翔实的地面环境信息,使得遥感信息解译更加精确与全面。 WSN 技术目前尚处于技术研发阶段,还局限在相对较小的空间范围。专业的传感器网络建设可能还需要更多的时日,而智能手机的广泛使用,正在弥补专业智能网络建成之前的空白。一些新型智能手机,正在整合越来越多的传感器,比如附带测定温度、大气压和光线的手机正变得越来越普遍。整合 GPS 定位数据的照片,也成为近地面遥感的重要元素。总之,采用联网的智能设备,结合先进的分析技术和实时数据处理,正将环境遥感变成智能监测。 随着环境遥感收集的数据量呈指数增长,处理、储存和管理这些数据本身也越来越成为一个巨大的挑战,同时亟需在数据检索、过滤、集成和共享方面得到改进。在面对这些大数据时,传统数据管理系统和分析工具是无能为力的。大数据经常被描述为 4 个 V :数据体量( Volume )大、数据类型( Variety )多、价值密度( Value )低、处理速度( Velocity )快。大数据的体量不仅因为它涉及到海量的数据,还因为所涉及的数据集的高维性和数据集间的链接性。不同来源的异构数据,其类型也越来越多,这些数据的动态集成也是数字地球研究的前沿问题。当然,随着数据量和数据类型的增加,数据冗余的问题也日渐突出,如何迅速找到目标数据,是大数据最终要解决的关键问题。环境遥感大数据研究的意愿是希望让数据更容易获取,拥有更高的时间、空间和专题分辨率,使我们能更好地解决复杂的科学和社会问题。为了迎接这个挑战,需要改进算法、基础设施和框架,这又需要具有强大计算能力的大数据(云计算)来帮忙,目前仅仅是一个开端,但基于信息时代构架的发展现实又让我们看到了不少希望,我们有能力去迅速而全面地驾驭大数据世界。其实,数据量的增加并非我们面临的唯一挑战。随着数据的增加,数据索引、搜索、传输等挑战也是与日俱增。此外,仪器和算法越来越复杂,技术更新速度越来越快,数据采集成本越来越便宜,这是我们的优势。美国联邦政府也把他们的注意力转向了这个日益增长的挑战,要通过转变政府的能力促使在科学发现、环境和生物医学研究、教育和国家安全等方面使用大数据。超光谱遥感技术是一种新兴的技术,可用于探测和识别矿物、陆地植被、惰性气体和人工材料,甚至检测化学成分和物理性质,例如温度和速度。理论上,超光谱遥感系统还可以用于医疗保健、食品监测、机场安检等领域,这都是优越于传统遥感器的地方。超光谱图像通常是以数据立方体为单位保存的空间信息,数据量异常庞大的,也需要大数据分析。 另外,伴随成像介质的革命,环境遥感数据采集工艺的发展速度要高于和天地之间的传输速度。目前从地球轨道传回的数据,主要还是采用射频工艺,虽然其速度可达 GB/s 级别,但这对于未来的传输任务来说仍显不足。近年来,无线激光通信技术开始突破,可望将通讯速度提高千倍。这显然是我们当今很难把握的数据量,但我们必须从现在开始就做好准备。
个人分类: 科普荟萃|10775 次阅读|25 个评论
近五年国家自然基金委资助的云计算资源调度相关项目
wtian 2013-9-21 16:34
云 计 算是一种新的商 业计 算模型和服 务 模式,它将 计 算任 务 分布在大量 计 算机构成的不同数据中心,使各种 应 用系 统 能 够 根据需要 获 取 计 算能力、存 储 空 间 和信息服 务 。 业 界有研究者将云 计 算列 为 水, 电 ,气,油之外的第五种公用 资 源 (the 5th utility) 。 继 个人 计 算机 变 革,互 联 网 变 革之后,云 计 算被看作是第三次 IT 浪潮,是中国 战 略性新 兴产业 的重要 组 成部分,它将 带 来生活、生 产 方式和商 业 模式的深刻改 变 。 云数据中心的 资 源 调 度管理技 术 是云 计 算 应 用的核心,是提高系 统 性能、兼 顾节 能减排和云 计 算得以大 规 模 应 用的关 键 技 术 。先 进 的 资 源 节 能 调 度管理技 术 , 对 于提高学校、政府、研究机构和企 业计 算 资 源的利用效率、 节约 能源、提高 资 源共享和降低运 营 成本都具有极大意 义 , 值 得深入系 统 地研究。国家 “ 十二五 ” 规 划 纲 要把云 计 算列 为 重点 发 展的 战 略性新 兴产业 , 云 计 算成 为 近年来国家自然科学基金信息科学 类 重点 资 助 领 域,是国家迫切需要研究的 课题 。 以下资助数据来自官网: http://isisn.nsfc.gov.cn/egrantindex/funcindex/prjsearch-list 图-1 近五年资助面上项目总数 图-2 近五年资助面上项目总金额 图-3 近五年资助数据中心资源调度管理紧密相关面上项目总数(未含重大项目) 图-4 近五年资助数据中心资源调度管理紧密相关面上项目总金额(万元)(未含重大项目) 表 -1 数据中心 资源调度管理紧密相关的自然基金面上项目
5040 次阅读|0 个评论
云计算技术浅谈
ailiyakong 2013-9-20 19:06
大家好,向大家介绍一些我几个月来研究学习到的一些知识,但是在反复回顾之后发现我的知识储备也属于琐碎的状态,还未能紧密联系起来。为了防止讲课内容过于跳跃、比较难抓重点,我决定把这部分内容向后拖延一段时间。 我向大家阐述了一个比较重要的观念 -- 通过技术手段降低企业信息化的成本。 我的设想是建立一系列基于网络访问的服务,让企业信息化开发过程中的一部分可以实现类似“搭积木”的工作模式,直接调用现成的服务接口,从而简化企业信息化过程以便降低成本。比如市场上大部分涉及天气方面的应用程序,都仅仅是调用了一些现成的天气服务,用自己的方式展现在用户面前。 这样的模式和技术其实就是“云”技术一个特定情形下的展示,也就是说,如果我的软件公司用这种方式提供企业信息化服务,我完全可以给我自己打上一个“云技术”的标签。既然云计算技术和企业信息化也有着可能的联系,那么从本次课开始我将为大家多介绍一些有关云计算技术的内容。 1. 云计算技术的定义 一个生硬的定义总是难以理解,而且不同的表述难免会造成意义上的偏差,所以我的解释力求让大家了然,被引用什么的就不敢想了。 从广义上讲,云计算技术应该是一种模式。这种模式在我苦思冥想之后都很难用一些简洁的话语阐述,索性我们来看一张图。 这张图本来是用于解释什么是云计算终端的,但是却也清楚地表达了云计算技术这种模式。首先我们看到终端的类别是多种多样的,从小巧的移动设备到庞大的服务器集群。其次,我们从图中还不难发现在这些终端之间有那么一个小“云彩”进行着类似交互的工作;终端即从云端获取他们所需的数据,又为云端的数据更新贡献着自己的一份力量。最后那个小“云彩”里面到底是什么呢?小“云彩”里面的内容便是狭义云计算技术的定义,指的是提供云计算技术服务的 IT 设施。 “云”的概念最早是用来形容大型供电网络的,因为错综复杂的线路从宏观层面上看就好像黑压压的一片云彩一样。如今“云”的概念基本上在 IT 行业已经特指云计算技术了,但是一些商家希望这样绚丽的词汇能帮他们获得用户好感,还属于滥用当中,这个我在后面会有介绍。 为了能让大家更深入地了解云计算技术是什么,我还是要引用一条比较生硬的定义给大家:云计算( Cloud Computing )是分布式计算( Distributed Computing )、并行计算( Parallel Computing )、效用计算( Utility Computing )、网络存储( Network Storage Technologies )、虚拟化( Virtualization )、负载均衡( Load Balance )等传统计算机和网络技术发展融合的产物。 这条定义的好处就在于,他罗列了一些对于云计算技术发展很重要的计算机技术。如果我们对这些技术有所了解,那自然可以从比较深的层面来了解云计算技术到底是什么。 1. 云计算的演化 很早人们就发现,计算速度的瓶颈已经开始遏制诸多方面的发展。由于传输效率的原因,我们不能通过单纯的增加 CPU 数量来提高运算速度,但是我们可以通过增加同时运算的计算机数量来满足一些当下的运算需求。于是乎,分布式计算( Distributed Computing )和并行计算( Parallel Computing )应运而生。 在最初,服务器是为了允许多个任务同时在多个服务器组件中分别运行,通过总线进行交互,以此提高效率;分布式系统是为了允许多个任务在多台计算机或服务器上分别运行,并通过 internet 进行交互,以此提高效率。前者的交互效率高,后者有跨地域跨平台的优势。但是伴随着发展,一项任务所需要处理的数据量剧增,也可以理解为一项任务需要的运算能力剧增。所以,人们开始尝试将一个任务分为多份在多个服务器组件中分别运行,通过总线进行汇总,这就是并行计算;如果一个任务被分为多份在多台计算机或服务器上分别运行,通过 internet 进行汇总,这就是分布式计算。 分布式计算和并行计算对于某些特定类型的运算任务有很高的效率提升。如果一个任务可以被分为多个相互没有影响的部分进行分别计算,这种效率的提升明显是最高的;如果一个任务被分割之后,相互之间必须进行交互,那么分别运算的效率有可能还要低于整体运算的效率,其原因也是由于传输效率低。 由此可见,云计算技术这个听起来厉害所有人都在吹捧的东西是不能和分布式计算或者并行计算画等号的。那到底什么造就了云计算技术呢? 网络存储技术( Network Storage Technologies )和效用计算( Utility Computing )技术让云计算技术成为可能。网络存储技术我们可以直接进行字面理解,但是效用计算,我还是需要简单解释的。 效用计算的目的是整合分落在各地的服务器、存储系统以及应用程序共享给用户。比如说,一次搜索引擎的请求可能同时由多个服务器集群进行处理、访问多个不同地域的数据库进行配对;再比如说,如果我需要一个“无限”量的存储空间,效用计算允许我可以“无限”量地拼接不同的存储系统达到容量“无限”的目的。 我希望到此,大家都能够明白一点,云计算技术不是一种单纯的“计算”技术,而是针对于数据的一种较高效率的计算(大多数情况是进行数据遍历)。比如说之前一次讲课后的讨论内容提及了一个对于外星生命探索的分布式计算项目。这个项目不应该属于云计算,因为它仅仅是对自己采集到的数据进行分割、分配到不同终端单独计算并通过 internet 汇总。而云计算技术中,提供资源的网络被称为“云”,其中的资源在使用者看来是可以“无限”扩展的,并且可以随时获取的。 2. 云计算技术的特点 云计算具有以下特点: (1) 超大规模。“云计算管理系统”具有相当的规模, Google 云计算系统已经拥有 10 有数百上千台服务器。“云”能赋予用户前所未有的计算能力。 (2) 虚拟化。云计算技术支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。 (3) 高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算技术比使用本地计算机可靠。 (4) 通用性。云计算技术不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。 (5) 高可扩展性。“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。 (6) 按需服务。“云”是一个庞大的资源池,你按需购买;云可以象自来水,电,煤气那样计费。 (7) 极其廉价。由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。 你可以在浏览器中直接编辑存储在“云”的另一端的文档,你可以随时与朋友分享信息,再也不用担心你的软件是否是最新版本,再也不用为软件或文档染上病毒而发愁。因为在“云”的另一端,有专业的 IT 人员帮你维护硬件,帮你安装和升级软件,帮你防范病毒和各类网络攻击,帮你做你以前在个人电脑上所做的一切。此外,云计算可以轻松实现不同设备间的数据与应用共享。 为存储和管理数据提供了几乎“无限”多的空间,也为我们完成各类应用提供了几乎“无限”强大的计算能力。想象一下,当你驾车出游的时候,只要用手机连入网络,就可以直接看到自己所在地区的卫星地图和实时的交通状况,可以快速查询自己预设的行车路线,可以请网络上的好友推荐附近最好的景区和餐馆,可以快速预订目的地的宾馆,还可以把自己刚刚拍摄的照片或视频剪辑分享给远方的亲友…… 在最后,我来总结下今天对于云计算技术的讲解: 1. 云计算技术应该是一种模式,终端可以通过访问“云”来获取相关资源,同时这个云不该是一个特定的实体(比如服务器),而是一种由无数实体组成的宏观感念。 2. 云计算技术不是一种单纯提高计算能力的技术,而是与数据(资源)息息相关,和用户密不可分的一种实用性很强的技术 云计算技术确实能够为我们的生活提供大量帮助,我们无需对获取的信息刨根问底,仅仅是去享受“云”带给我们的优势与便利。
1686 次阅读|0 个评论
初识Hadoop
wwh1295 2013-9-2 14:06
什么是 Hadoop ? Hadoop 是由 ASF(Apache SoftwareFoundation) 源于 Lucene 的子项目 Nutch 所开发的开源分布式计算平台,可以构建具有高容错性、可伸缩性、低成本、和良好扩展的高效分布式系统,允许用户将 Hadoop 部署在大量廉价硬件设备所组成的集群上,为应用程序提供一组稳定可靠的接口,充分利用集群的存储和计算能力,完成海量数据的处理。 由于 Hadoop 优势突出,得到了众多企业和个人的青睐,尤其是在互联网领域。 Yahoo !通过 Hadoop 集群支持广告系统和 Web 搜索研究; Facebook 借助 Hadoop 集群支持数据分析和机器学习; Baidu 使用 Hadoop 进行搜索日志的分析和网页数据的挖掘; TaobaoHadoop 系统用于存储并处理电子商务交易的相关数据;中国移动研究院基于 Hadoop 的“ Big Cloud ”系统用于对数据进行分析和对外提供服务等。 PS : Hadoop 之父 Doug Cutting 解释 Hadoop 的得名:“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。” Hadoop 的技术背景——与 Google 云计算的渊源 说到 Hadoop ,不得不从云计算说起,主流互联网公司为了抢占云计算的市场份额,纷纷提出各自的云计算思路以及解决方案。 Google 、 Yahoo 、 Amazon 、 Salesforce 与 Microsoft 等公司作为行业领军者,它们的云计算平台解决方案的详情如下表所示: 表 1-1 主流云计算平台详情 从上表可以看出 Google 和 Yahoo 云计算平台的关键技术非常相似,的确, Hadoop 是 Google 云计算的开源实现。 作为一个开源项目,Hadoop受到最先由Google Lab开发的Google分布式文件系统GFS(Google File System)以及Google的Map/Reduce编程模式的启发,将 NDFS(Nutch Distributed File System)和Map/Reduce分别纳入Hadoop项目中,现已发展成包括Hadoop common、HDFS、MapReduce、HBase、Hive、ZooKeeper、Avro、Pig、Ambari、Sqoop等在内的多个子项目。 Hadoop Common : Hadoop 体系最底层的一个模块,为 Hadoop 各子项目提供各种工具,如:配置文件和日志操作等。 HDFS : Hadoop 分布式文件系统 (Hadoop Distributed File System) ,前身是 NDFS (Nutch Distributed File System) 。类似 Google File System 。 MapReduce : 实现了 MapReduce 编程框架。 HBase: 基于 HDFS ,是一个开源的、基于列存储模型的分布式数据库。类似 Google BigTable 的分布式 NoSQL 列数据库。 Hive : 数据仓库工具,由 Facebook 贡献。使得存储在 hadoop 里面的海量数据的汇总,即席查询简单化。 Zookeeper : 分布式锁设施,一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。类似 Google Chubby ,由 Facebook 贡献。 Avro : 新的数据序列化格式与传输工具,将逐步取代 Hadoop 原有的 IPC 机制。 Pig : 大数据分析平台,为用户提供多种接口。 Ambari : Hadoop 管理工具,可以快捷的监控、部署、管理集群。 Sqoop : 用于在 Hadoop 与传统的数据库间进行数据的传递。 Hadoop 两大核心技术 Hadoop是一个集成了分布式文件系统HDFS和大规模并行计算模型MapReduce 的开源框架。HDFS和MapReduce是Hadoop的两大核心,而整个Hadoop的体系架构主要是通过HDFS来实现对分布式存储的底层支持,并通过MapReduce来实现对分布式并行任务处理的程序支持。 1 、分布式文件系统HDFS Hadoop的分布式文件系统(Hadoop Distributed File System,HDFS)由1个NameNode(管理节点)和N个DataNode (数据节点)组成,这2类节点采用Master/Slave(管理者/工作者)模式运行。其中,NameNode充当Master节点(主节点),维护集群内的元数据(Metadata),对外提供创建、打开、删除和重命名文件或目录的功能;DataNode充当Slave节点(从节点),存储数据,负责处理数据的读写请求,定期向NameNode 上报心跳(heartbeat)消息,NameNode 通过响应心跳来控制DataNode。HDFS体系结构如下图所示: HDFS的底层实现原理是当有输入文件提交到Master节点后,Master将输入文件切割成多个Block(通常为64M)并为每个Block拷贝数份副本,然后将这些Block分散地存储在不同的Slave节点上。如果DataNode不能发送心跳消息,NameNode将采取修复措施,重新复制在该节点上丢失的块,从而实现容错处理。NameNode是整个文件管理系统的核心,负责维护文件系统的NameSpace(名字空间),NameSpace上记录着输入文件的分割情况、每个Block的存储位置以及每个Block所在节点的状态信息。HDFS内部的所有通信都基于标准的TCP/IP协议。 2 、并行计算模型MapReduce MapReduce并行计算模型以一种高容错的方式并行处理大量的数据集,实现Hadoop的并行任务处理功能。它也采用了Master/Slave结构,其中Master称为JobTracker,负责调度构成一个作业的所有任务,这些任务分布在不同的Slave上,同时监控它们的执行情况,并重新执行之前失败的任务;Slave称为TaskTracker,仅负责由主节点指派的任务,并向JobTracker汇报自身运行的任务执行情况。用户提交的计算称为Job,每一个Job会被划分成若干个Tasks。当一个Job被提交时,JobTracker接收到提交作业和配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。其执行流程如下图所示: MapReduce并行计算模式对任务的处理分为两个阶段:Map(映射)和Reduce(规约)。最简单的MapReduce应用程序至少包含3个部分:一个Map函数、一个Reduce函数和一个 main函数。main函数将作业控制和文件输入/输出结合起来。在这点上,Hadoop 提供了大量的接口和抽象类,从而为Hadoop应用程序开发人员提供许多工具,可用于调试和性能度量等。Map函数对输入的key,value集合进行处理,生成中间结果key',value'集合。MapReduce底层自动将具有相同key'值的键值对中相应的value'进行合并,生成key',List 集合,并将其作为Reduce函数的输入。Reduce函数再进一步处理生成新的key'',value''集合作为输出文件。 简单地说,Map 函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表,然后根据它们的键(为每个键生成一个键/值对)缩小键/值对列表。下图以图形计数为例形象地说明了这两个过程: HDFS 与MapReduce 之间关系 MapReduce 是依赖于 HDFS 实现的。通常 MapReduce 会将被计算的数据分为很多小块, HDFS 会将每个块复制若干份以确保系统的可靠性,同时它按照一定的规则将数据块放置在集群中的不同机器上,以便 MapReduce 在数据宿主机器上进行最便捷的计算。 Hadoop 的最新发展及其在 GIS 领域的应用 Hadoop 实时查询 Cloudera公司的两个新项目:Impala和Trevni使得Hadoop有望在今年实现实时查询。Impala是开源版的Dremel(Google大数据查询解决方案,“交互式”数据分析系统,可以组建成规模上千的集群,PB级别数据处理时间缩短到秒级),允许用户在Hadoop的HDFS、 Hbase和Hive之上运行实时查询。不必迁移。Trevni是一种新的列式(columnar)数据存储格式,可保证读取大型列式存储数据集有极好性能。Impala+Trevni已经完全实现了Dremel的查询性能,而且在SQL功能上还超过了它。 Esri 空间大数据处理环境 GISTools for Hadoop 是 Esri 推出的基于 Hadoop 的一套完整的空间大数据量处理的环境,包含有一套工具 (Geoprocessing Tools for Hadoop) 、一套 API(Esri Geometry API for Java) 和一系列的框架 (Spatial Framework for Hadoop) 。此环境的推出,扩展在 Hadoop 上 geomtry 的类型和对空间数据的操作,让开发人员能够方便的在空间数据上构建 MapReduce 应用程序。同时, GISTools for Hadoop 扩展了 Hive 在 Esri Geometry API 上的应用,使用户可以通过 hive 进行空间数据的处理。 总结 Hadoop 具有如下优势: (1) 可伸缩性,能够处理 PB 级数据,并可以无限扩充存储和计算能力。 (2) 可靠性,可以维护同一份数据的多份副本并自动对失败的节点重新分布处理。 (3) 高效性, Hadoop 能并行地处理数据。同时, Hadoop 也是低成本的,因为它对硬件的要求不高,所以可以运行在普通的微机集群上。 Hadoop 从单一应用 (Web 数据抓取 ) 发展到现在庞大的 Hadoop 生态系统 (Hadoop Ecosystem) ,自成一派的技术架构体系,叩开了大数据时代的海量数据处理的大门,开辟了海量数据存储、处理与应用的新领地。 1. 这一切,都起源自 Web 数据爆炸时代的来临 2. 数据抓取系统 — Nutch 3. 海量数据怎么存,当然是用分布式文件系统 - HDFS 4. 数据怎么用呢? 分析,处理 5. MapReduce 框架,让你编写代码来实现对大数据的分析工作 6. 非结构化数据(日志)收集处理 - fuse,webdav, chukwa, flume,Scribe 7. 数据导入到 HDFS 中,至此 RDBSM 也可以加入 HDFS 的狂欢了 - Hiho, sqoop 8. MapReduce 太麻烦,好吧,让你用熟悉的方式来操作 Hadoop 里的数据 – Pig, Hive, Jaql 9. 让你的数据可见 - drilldown, Intellicus 10. 用高级语言管理你的任务流 – oozie, Cascading 11. Hadoop 当然也有自己的监控管理工具 – Hue, karmasphere, eclipseplugin, cacti, ganglia 12. 数据序列化处理与任务调度 – Avro, Zookeeper 13. 更多构建在 Hadoop 上层的服务 – Mahout, Elastic map Reduce 14. OLTP 存储系统 – Hbase 参考资料: 杨来 , 史忠植 , 梁帆 , 等 . 基于 Hadoop 云平台的并行数据挖掘方法 . 系统仿真学报 ,2013,25(5) : 936-944. 朱剑 . 基于虚拟云计算架构的 GIS 服务资源弹性调度应用研究 . 测绘通报 ,2013(5) : 92-95+107. 赵卫中 , 马慧芳 , 傅燕翔 , 等 . 基于云计算平台 Hadoop 的并行 k-means 聚类算法设计研究 . 计算机科学 ,2011,38(10) :168 -176. 杨宸铸 . 基于 HADOOP 的数据挖掘研究 . 重庆:重庆大学 ,2010. 张良将 . 基于 Hadoop 云平台的海量数字图像数据挖掘的研究 . 上海:上海交通大学 ,2010. 夏大文 , 荣卓波 .Hadoop 关键技术的研究与应用 . 计算机与现代化 ,2013(5) : 138-141+148. 周诗慧 , 殷建 .Hadoop 平台下的并行 Web 日志挖掘算法 . 计算机工程 ,2013,39(6) : 43-46. 薛胜军 , 刘寅 . 基于 Hadoop 的气象信息数据仓库建立与测试 . 计算机测量与控制 ,2012,20(4) : 926-928+932. 余永红 , 向晓军 , 高阳 , 等 . 面向服务的云数据挖掘引擎的研究 . 计算机科学与探索 ,2012,6(1) :46 -57. SanjayGhemawat,Howard Gobioff,Shun-Tak Leung.The Google file system .OperatingSystems Review, 2003,37(5) : 29-43. JeffreyDean, Sanjay Ghemawat.MapReduce:SimplifiedData Processing on Large Clusters .Communications of the Association forComputing Machinery, 2008,51(1) : 107-113. Pang-NingTan,MichaelSteinbach,VipinKumar. 数据挖掘导论(完整版) . 范明,范宏建,等译 . 北京:人民邮电出版社 ,2011.
7115 次阅读|0 个评论
[转载]大数据时代的审计信息化发展趋势研究
weisman 2013-8-26 10:58
大数据本身就是一个问题集,云计算技术是目前解决大数据问题集最重要、最有效的手段,云计算为大数据应用提供了平台。因此,对于数字化审计,今后需要构建数字化审计云,从而迎接大数据时代的挑战! 资料源自 : 用友审计数字化审计平台建设经验交流会盛大召开 http://biz.ifeng.com/huanan/special/ceshizhandian/list/detail_2013_08/20/1127542_0.shtml
个人分类: 科研交流|2304 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 14:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部