由于最近正准备一篇云计算在电力系统分析中应用的文章,看了有一定数量的云计算的文章,主要是介绍性的,有几篇具体某一学科上应用的,但在国内的实际应用还罕见。由于目前学术研究才刚起步,更多是网上的新闻报道,推荐一个我们国内的网站,由刘鹏老师组织搭建的 中国云计算 http://www.chinacloud.cn/default.aspx ,站里内容丰富。 但从目前看来,云计算,主要是指公共云计算,虽说是 pay-as-you-go 的商业模型,还很难为普同科研人员所用,只是美国等少数得到政府支持的研究人员,在 MS,IBM , Google 这些大公司的配合下,开展一定的测试性研究。同样的事情,在国内没有硬件平台缺乏,软件重视更不足情况下,实是比较难开展的。相比之下,云计算显得更适合于数据的处理 ( 当然,我也希望学术界能在其他领域也利用好 CC ,自己也争取努力做出些成绩 ) ,基于 MapReduce 分布式性数据存储和处理已经得到大规模应用和实际的肯定。 下面主要想谈一下海量数据的处理问题,这也是最近一段时间所看的资料和与计算科学专家 Savas( http://savas.me/ ) 的邮件交流后的体会,特别是他推荐的几篇文章,让我这个学术 小孩子 和计算机领域的 ,门外汉 了解到学术发展的新动态,计算机科学的发展为大规模数据的处理提供了可能,这将开始科学发现的新模式 基于大规模密集数据处理的科学发现( data-intensive scientifc discovery ),更详细的分析可见 Savas 推荐的,他与 Jim Gray 、 Tony Hey 等合著的一本新书 The Fourth Paradigm: Data-Intensive Scientific Discovery (文后附下载地址) 在经历实验式、理论式、仿真式后,科学研究和发现将进入基于大规模数据处理的模式 (the following is quoted from Savass site : Amongst the many things that Jim talked about was the Fourth Paradigm in Science, the fact that scientific research has transitioned from experimental (thousands of years go), to theoretical (few hundreds years ago), to computational (last few decades), to data-intensive (today) 在这样的一个大的趋势下,我们该思考如何结合自己学科上、研究项目中的特点,更好地利用计算科学的计算和资源,对研究中的大规模数据进行处理是十分必要的。结合我自己的电力学科,云计算将是未来应对智能电网大量数据处理和用户互动的基础,而云计算的动态优化计算资源的配置将是电网调度和控制中心的计算平台基础,当然这需要 EMS 和底层的数据库系统支持分布式的并行计算。而地区变电站将可能面对大量分布式电源的接入的调度问题,这是解决问题的云计算将是优先选择;另一个我关注的领域复杂网络也会是这一趋势下的突出的学科,基于数据分析的复杂网络在更强大的数据处理平台和技术帮助下,将有可能对系统工程产生深远影响。此外,对于学术科研合作, e-Science 和 Science as a Service 的理念和具体实施将改变传统的小范围群体的研究,当然,目前这情况已经在慢慢发生,正如复杂网络这个圈子的成立和壮大,希望后面会越来越好。 More can be found here: Savas: http://savas.me/ Jim Gray : http://research.microsoft.com/en-us/um/people/gray/ Tony Hey : http://www.microsoft.com/presspass/exec/tonyhey/default.aspx 【Book】:The Fourth Paradigm: Data-Intensive Scientific Discovery : http://research.microsoft.com/en-us/collaboration/fourthparadigm/http://research.microsoft.com/en-us/collaboration/fourthparadigm/
JGI-联合基因组研究中心,美国能源部的一个基因组研究中心,也许是世界上最大的非动物基因组测序研究中心了,预计今年其基因组数据量将到达4-5Tb,这样庞大的数据,他们感到已经难以承受数据的存储、分析所需计算设备的压力了,这促使JGI寻求更专业的计算设备维护和管理中心。 从这点来看,以后,测序中心将不会关注数据存储、分析所需要的计算能力,这样的计算能力可以使用别家的计算中心,比如云计算中心。那么测序中心很重要的一点就是如何快速的把测序获得的数据传输到云计算中心上以进行处理。可以预计,随着测序费用的下降,和基因组测序的广泛应用,测序服务中心和云计算中心的合作将会成为一种趋势! JGI Consolidates High-Performance Computing Operations into NERCS April 20, 2010 By Alex Philippidis NEW YORK (GenomeWeb News) – The Joint Genome Institute says the torrent of sequencing data it has generated, and plans to generate this year, explains its decision to consolidate its high-performance scientific computing operations into the US Department of Energy's National Energy Research Scientific Computer Center (NERSC). JGI has agreed to transfer to NERSC six Lawrence Berkeley National Laboratory employees specializing in scientific computing, including computer and network security and instrumentation computer systems. JGI's desktop support services will remain under the control of the institute, which is located in Walnut Creek, Calif. The consolidation, announced April 12, follows JGI's expectation this year that it will multiply the quantity of data it expects to generate through its sequencing of plant, microbe, fungal, and metagenomes. That quantity surpassed 1 terabase, or 1 trillion bases, in 2009, an eight-fold increase over 2008 — with "maybe 4 to 5 trillion this year" expected to be sequenced, JGI spokesman David Gilbert told GenomeWeb Daily News. "In that alone, you can tell why we need that computational horsepower that we could handle on our own, but now it's getting to the point where it's just crazy. Why build something in house when we've got a partnership where all the folks who are, in effect, being transferred over to NERSC? They've been Lawrence Berkeley people anyhow, so it's not a major change from their perspective," Gilbert said. The institute's current data center lacks the capacity to store the exponentially higher amount of data projected, and JGI staff did not have the same breadth of experience with running very large-scale systems that staffers at the computer center have, Jeff Broughton, systems department head at NERSC, told GWDN. Under the consolidation, NERSC will be responsible for existing JGI scientific computing equipment and new equipment to be procured, which will be housed about 16 miles southwest of Walnut Creek, at the computer center's Oakland facility. Broughton said the new equipment will include 500 dual-socket, quad-core Nehalem processor nodes from SGI — of which 160 nodes are in place, with the remaining 340 nodes "expected to arrive within the next six weeks, by the end of May" — as well as a 120 nodes from the IBM iDataPlex system already in use at NERSC's "Magellan" cloud computing cluster, part of a joint research effort between NERSC and the Argonne Leadership Computing Facility, funded with $32 million from the $862 billion American Recovery and Reinvestment Act. "In general, genomics is a pretty good fit for cloud computing, and they were able to take advantage of that," Broughton said. "The new sequencers are producing ever-increasing flows of data, and it's important to make sure that the computational infrastructure scales appropriately to match it," he added. He said NERSC runs "in excess of" 50,000 cores for high-performance computing now, a figure expected to quadruple by the end of the year. JGI would account for about 10 percent of NERSC's total computing power, based on core count. By teaming with NERSC, JGI can enjoy access to a dedicated 10 Gbps-per-second link between both institutions on the Science Data Network of the Energy Sciences Network, as well as other benefits, such as redundant cooling systems, an uninterruptible source of power, environmental and energy-use monitoring, and a central help desk.
最近一直在思考关于social computing 的方面问题,并想把它作为10年后的研究方向和重点,恰巧老板发来一片science上的文章《reCAPTCHA: Human-Based Character Recognition via Web Security Measures》,深感云计算太远,人计算开来更实际。简单介绍一下。 路易斯.凡.安(Luis Von Ahn),卡耐基梅隆(CMU)的研究者,28岁那年,获得麦克阿瑟(MacArthur)天才奖金,或许大家并不熟悉,但他的发明机会所有的网站所有的网民都要引用得到。2000年还是学生的他在导师的指导下,发明了验证码(CAPTCHA)使用机制,就是我们在网站登录时,需要添加的校验码。当初的发明初衷,是防止密码被盗用或者反垃圾邮件(anti-spamming),这项技术发明后短短五年内,每天就有2亿个检验码在被使用,十年之后的今天,几乎所有的网站都采用这个技术来校验用户身份,保证信息安全。 然而Luis Von Ahn并没有在安全认证领域止步,一方面将校验码的模式与程序公布在自己的网站上,供更多的网站使用,另外,Luis进一步拓展这个发明背后的实际上是一门新的学科,叫做Human Computation或者Human-based Computation。有人称之为人本计算或者人计算。即利用网络的分众性和协同性,可以轻易完成很多计算机不可能完成的事情。这门学科正是研究如何把人的这个优势发挥出来,与计算机互动,达到一个最佳结果。当所有的人都在思考如果是计算机替代人的时候,Luis Von Ahn却在想利用互联网,利用社会化的协同工作模式,实现计算机根本不可能完成的事情,以达成群体智能的效果。这就是《科学》上的另一个伟大实现,reCaptchas,与检验码身份验证如出一辙,却是另外一番天地的创造性应用。 《纽约时报》创刊与1851年,158年的历史,作为传统传媒业的需求是简单的,就是想把所有的报纸电子化,对于电子化出版之后的工作相对简单,但过往故纸堆上的文字就显得十分困难,传统OCR的技术不能实现百分之百的准确,如果如果人工录入的方式,整个工作耗时耗力不说,一个字一个字的打印录入,校对,短期内基本上是不可完成的任务。Luis Von Ahn的校验码2005年已经得到了广泛的使用,两者之间有什么联系吗?Luis给出的解决方案,当时互联网上每天有2亿个校验码被使用,虽然每个用户在录入校验码的时候只需要10秒钟,但如果把这些时间全部利用起来,就是20亿秒,相当于50多万个小时。Luis Von Ahn把这些事件利用起来,实现不可想象的伟大实践。现在看来,方法很简单,把扫描的《纽约时报》通过简单的分词形成,然后入库编码,作为校验码的素材提供给用户,用户每一次填注校验码的过程就是对文字的一次录入,通过众多用户的协同,当所有的人都对一个图片给出相同的单词结果时,这个结果就是正确的。无数的用户输入的内容整合链接起来,就是一个完整的数字化的《纽约时报》。 Luis Von Ahn的脚步依然没有停止,通过reCaptchas,他利用人的群体智慧和集体计算的模式,做了很多开创性的事情。他最常用的实现模式就是利用SNS的互动游戏的模式,来实现传统模式识别与计算科学中。他的主要应用成果在 www.gwap.com 上可以体验获得(Game With A Purpose)。 基于内容的图像识别与搜索中,样本的标注是一个很繁琐的问题,为了让计算机内识别图片里的内容,必须要用到许多标注好的图像样本来训练识别核,传统的方式只能通过人工进行大量的手工标准。2006年,Luis推出了一个著名的游戏,叫ESP Game。这一游戏的玩法其实很简单:进入游戏,网站会给你随机配一个伙伴,两人同时看一张图,让你在两分钟内给图片写出关键词,如天空、鸟、足球、奔跑等等。如果你们两人写的关键词一样,就可以得分。通过积分的方式激发用户参与的积极性,网站每天公布得分最高的游戏者,Luis通知这种方式收集的关键字超过了5000万。这个发明已经被谷歌所采用,在谷歌推出的产品Google Image Labeler中,使用的方式就是通过游戏互动的方式来实现图像标注,之后用户谷歌的图片检索引擎。人们在游戏中,已经为科学与商业过程做出来贡献。 Luis一招鲜,吃遍天,他又将这种思想用到了歌曲识别的样本标注上。一首歌曲,听到的人可以在上面进行标注,如摇滚迈克尔杰克逊颤栗这样进行音乐搜索的时候,标注的人越多,搜索识别结果越精确。之后的游戏还有用于计算机视觉的Squigl(涂鸦)的游戏,还有用于收集语言网语料的Verbosity(唠叨)的游戏。Luis在他的研究中总结了三种常见的GWAP方式: Output-agreement games. Inversion-problem games. Input-agreement games. 这三种方式,都是通过互动游戏的方式,利用协同计算或者人本计算的模式,解决了计算机不可能准确实现的问题。Luis Von Ahn利用人擅长做而计算机不擅长的能力,并通过游戏把这方面的资源尽可能开发收集起来,服务与科学过程。 当我们都在考虑云计算的时候,基于人的互动协同计算其实离我们很近,每天的校验码的登录填注,百度知道与维基网的点击阅读我们可能都在不知不觉中,贡献了自己的力量。 附: 对我们的启示: 1、 自由的、不受束缚的思想更容易产生创新的智慧。看似废话,如果Luis Von Ahn接受了老师的安排,只停留在校验码的安全机制研究上,就不可能产生今天的人本计算(Human Computation)。如果瓦茨(小世界理论的发现者)只是授意与导师,研究昆虫共鸣的理论,没有与人类社会对应,就不会有今天的小世界模型。 2、 科学需要开放的胸怀,互联网的本质就是回归人原始本性的共享与开放。Luis Von Ahn将校验码的研究成果与源码在自己的网站上与人共享,也是今天所有的网站都在使用校验码模式的原因。倘若当初,Luis Von Ahn通过专利控制这项技术的扩散与使用,估计今天他也就是一篇学术论文而已。 3、 科研与实践需要持续积累。Luis Von Ahn在2000年开始做检验码方面的研究与实践,并在之后提出Human Computation的概念。之后的9年里,他将这种思想与理论应用到了极致,从文本识别,图像内容识别,语音识别,语义网等传统模式识别与机器学习领域,都有他的尝试。实践积累非一日之功,虽然没有复杂的公式推导与理论,但利用互联网的大量实践工作也同样证明了协同计算与演进式学习的有效性。 4、 结合中国的实践还有哪些应用。中国是人口大国,拥有最多的互联网用户与手机上网用户,这些人口资源与上网资源如何有效的利用与收集起来,服务科学上的突破,将会是中国学者需要深入思考和探讨的。比如淘宝网上将会有世界上最大的商品图片库与用户商品标注信息,这些信息将用于商品搜索;维基网与百度知道上有最全面的常识与词语解释,这个将成为语义网学习的语料,而这个语料是通过协同工作的方式,保证了语料的准确性和有效性。抛砖引玉,从事机器学习、模式识别、数据挖掘、web搜索的学者可以沿着这条思路,看看还有哪些需要人与机器互动来实现的过程。 转载自( http://blog.sina.com.cn/s/blog_5e718bc90100g6ei.html )
十一月二至四日,美国第二届云计算与虚拟化会议及产品展示(Cloud Computing and Virtulization Conference and Expo) 在硅谷腹地的Santa Clara举行。 在与互联网相关的技术中,云计算和虚拟化是最近几年炒得比较热的概念。云计算不同于许多搞科学的人熟悉的网格计算(Grid Computing),虽然网格计算也被列为云计算的一个方面。云计算也许是互联网技术发展到商品化后的自然演化,如同工业化初期,工业生产从家庭作坊向工厂化,专业化,大规模生产的方向发展和集中。 云计算的中心概念是 *aaS (everything as a service), 即把与IT有关的许多技术,如电子邮件,资料存储,网站服务等等,由集中化,专业化的服务商通过互联网以订购的方式提供给企业或个人,就像你现在每月付电费水费使用水电一样。 在计算机和互联网技术诞生后的这些年,人们在使用计算机和互连网的方式上也在慢慢地改变。人们最早熟悉的方式是购买硬件,安装软件,并不断地更新。大小企业都有一个IT部门,负责企业内部的电邮,网站,资料共享等服务器的硬件设备和软件产品的安装,维护和升级等等。这就有点像工业化初期的家庭作坊:许许多多的IT工程师在不同的公司中做着大体上相似的事情,服务于各自的内部部门。 这两年的经济下滑在某种程度上促进了云计算概念的发展。经济低迷迫使企业寻找降低成本的方式,设法把越来越多的工作外包到劳动力成本更低的地方去做。大规模集中化带来的低成本就给企业接受云计算的概念提供了动力。 从另一方面看,互联网的相关技术经过几十年的发展已逐渐成熟。比如电子邮件技术早已经社会化。我们使用了多年的公共邮箱,如雅虎,gmail,用的就是SaaS的概念。同时,虚拟技术的出现使得集成化和低成本成为可能。 现在,云计算*aaS的概念包括三个方面: IaaS (Infrastructure as a service) 作为服务的架构 Paas (Platform as a service) 作为服务的平台 SaaS (Software as a service) 作为服务的软件 其中,IaaS和PaaS多是针对于企事业用户,SaaS的概念更为广泛。我们每天使用的雅虎电邮,谷歌搜索,都是SaaS。这种将IT的硬软件资源,以及有关的服务以订购方式提供给用户,对用户来讲是一种极大的简化。用户企业不必付出一次性的投资来买硬软件设备,甚至不必再设IT部门,只需要与专业的提供商签订服务协议(SLA, 既 Service Level Agreement), 定期交服务费就可以了。这给中小企业的发展降低了成本,带来了很大的灵活性。现在,Amazon EC2 已经有了最大的出租虚拟服务器的业务,Google Apps 向小企业和非盈利的院校提供免费的网站和邮件服务,许多网络安全公司也已开始提供基于SaaS的邮件和网页过滤服务。 从社会效益来说,IT服务专业化集中化能降低总体成本,使数据中心的服务器能够最充分的使用。因此,人们还喜欢在云计算之前加上一个绿色的定语。可是在实现的过程中,还有许多问题需要解决。 对于企业用户,接受云计算概念的第一个障碍就是关于安全性的问题。从传统的IT到云计算,从数据安全的角度看,最大的变化就是要把自己的数据交给运营商来管理。怎样才能保障保密数据在储存和传递过程中的安全性?怎样才能保障只有据有合法授权的人才能看到和更改数据?如果出了同安全性有关的问题,其中的法律问题应该怎么处理?这些现在还没有很好的解决办法。于是,对安全性要求高的大企业,银行,医疗部门,和政府机构等,又提出了私有云(Private Cloud)的概念--这些云计算的服务商不是面向全社会,而是服务设备和服务对象都限制在一个大企业内部。