bonjourgl的个人博客分享 http://blog.sciencenet.cn/u/bonjourgl

博文

一文看懂阿里云“神龙架构”:集齐上云需求召唤神龙

已有 5693 次阅读 2019-9-30 15:25 |个人分类:科技杂谈|系统分类:观点评述|关键词:学者| 云计算, 阿里云, 科技创新

在我国云南东巴圣地玉水寨,有一处神泉。传说这神泉的泉眼处,是玉龙神出没的地方。

每年玉龙神都要出来巡视丽江坝子,但见那神龙戏水而出、带风而下,轻盈灵动间把水翻折成三叠。水流的哗哗声跟神泉的安宁、祥和相映成趣,玉水寨美景“神龙三叠水”的美名便得乎于此。

玉水寨美景“神龙三叠水”


传说总是美丽而虚幻,但是我们今天要说的“神龙三叠(迭)”,则是真真切切发生着的科技创新故事。

一、神龙3·献礼阿里云10年

从2009年到2019年,阿里云(也即“阿里云智能”)十岁了。

回首当年IT领袖峰会,BAT掌门人分别就“云计算”发表观点。在“旧瓶新酒论”和“为时过早论”面前,只有“不懂技术”的马云坚定要做云计算。


2009年9月,阿里云正式成立。

事实证明,抢跑了两年的阿里云真正掌握了先机,此后的阿里云在中国云计算市场一骑绝尘,丝毫不亚于亚马逊AWS 在海外的风头。

阿里巴巴这个世界最大的数字经济体,从来不会躺在功劳簿上睡大觉或是沾沾自喜。尽管云计算越来越成为一门以规模取胜的生意,但阿里云并没有停下寻找新的(除规模外)核心竞争力的脚步。

苦心人,天不负。

2017年10月,阿里云“神龙架构”横空出世。

代表云数据中心虚拟化技术变革、致力于以软硬协同设计提升虚拟化效率的“X-Dragon”,与被称为“裸金属虚拟化的先行者”的第一代神龙服务器,双剑合璧,踏歌而来。

2017年10月神龙架构面世

此后的2018、2019年,神龙架构一年一个台阶,第二代、第三代神龙服务器接踵而至。

在今年的阿里云栖大会上,阿里云智能基础产品事业部总经理蒋江伟(小邪)透露,神龙架构已大规模应用于淘宝、天猫、菜鸟等业务;未来,阿里云遍布全球的百万服务器将全面升级至第三代神龙架构。

神龙,真有这么神?

二、神龙架构·缘起

如果将“2006年亚马逊推出EC2和S3(以租赁计算力来为企业运行业务应用)”视为云计算商业化的起点的话,2015年前后,云计算市场已经网罗了大部分的互联网企业。

这些“云原生企业”,对云这一弹性计算服务用得非常好,云计算也能很好地满足这些企业的需求。

其实自云计算商用以来,在IaaS(基础设施即服务)层面,云计算的底层技术并没有根本性的变化:大规模标准化的X86服务器+(可以将这些资源池化并提供虚拟机服务的)Hypervisor系统软件。

Hypervisor系统通过管理标准X86计算机集群,为用户提供虚拟机服务;用户因此得到弹性的计算资源,也不需运维复杂的底层硬件,可以专注于业务创新。

然而,小邪、阿里云弹性计算技术负责人张献涛(旭卿)他们逐渐发现了一个问题——

那些非云原生企业,他们的软件栈构建在传统的物理机上,在上云的过程中,很多不愿意做架构改造或者无从改起。这样一来,就导致超过一半(50%~60%)的用户只能“部分上云”,甚至百分之七八十的业务仍然在线下。

针对这个痛点,阿里云的技术专家们开始思考:如何打造一款既能够接入云基础设施,又能够提供类似物理机服务的计算产品?

“这就是我们当时做神龙的初衷。”小邪告诉《本来科技》。

其他云厂商也有所行动,但他们当时提供的是一种如今可称作“托管云”的服务——将传统的物理机买回来放到云数据中心,提供用户“租赁服务”。

小邪觉得这种模式行不通。

“它没办法持续:一千台服务器还能吃得消,一万台、三万五万台的时候呢?”

机器自己买,硬盘坏了算自己的、数据丢了用户找你算账,这么做云服务,早晚被拖垮。小邪说,国内一家这么做的云计算厂商,已经濒临崩溃了。

客户真正想要什么?

“要的是物理机的资源,弹性的服务。其实就是‘定制化的物理机’——既能够享受物理机的性能,又能发挥云计算的优势。”

旭卿说,这在那时,是个“太过理想化的东西”。

三、虚拟化·“黑洞”

“阿里的工程师有个特点:遇到问题就兴奋。”旭卿告诉《本来科技》,当时想到要实现这个理想化的产品时,阿里云技术团队也是“抓瞎”:没有产品可以模仿,没有现成的芯片、板卡等硬件可以支撑。

但这确是一个从需求出发驱动的技术实现。

大型业务上云,容器化是最热门的,它也代表着趋势,因为它解决了运维的标准问题。但是,跑容器性能最好的是物理机(裸机服务器)。一旦上云,容器本身也要一次虚拟化,加上上云的虚拟化,就是两层虚拟化,虚拟化本身就有性能占用,虚拟化的嵌套,更是不可避免地带来新的性能损耗。

“技术人员都是有洁癖的。”小邪说:“这种性能的消耗会让他们不爽。”

这个性能消耗其实是可以量化的。“差不多10%。”小邪说。

10%的消耗意味着什么?意味着如果有1亿的预算,什么都没干,1千万就没了。

另外,在同一物理机上的虚拟机之间,也会存在资源抢占的情况,这样一来,虚拟机的性能就会产生波动,影响计算的稳定性。

用户会说:“既然如此,我为什么不用物理服务器?”

虚拟化,从来就是云计算的基础。数十年前诞生的虚拟化技术,通过软件定义的方式来管理数据中心的计算资源,让云计算厂商可以根据企业需求输出计算能力,收放自如。

然而,云计算的弹性能力是以牺牲性能损耗的形式来换取的。

总结来说,资源损耗来自于虚拟化自身的性能开销、虚拟机之间资源抢占造成的性能波动、虚拟化嵌套造成的效率下降等等。

因此,虚拟化就像黑洞一样,吸走了机器的部分性能。


举例来说,在一台96核的服务器上运行云服务系统,可能需要占用8核32GB内存来提供虚拟化的开销,用户得到的只有88核和剩余内存。

四、阿里云·“造龙术”

面对虚拟化这些从娘胎里带出来的缺陷,在2016年“双十一”复盘会上,阿里巴巴集团CTO兼阿里云智能总裁张建锋(行癫)专门就此讨论过。

他提出:业务应用上云之后虚拟化相关的性能开销,能不能解决掉?

旭卿回顾那段历史时说:最初研发神龙架构的目的,就是为了应对虚拟化带来的资源损耗。

“从那开始,我们就尝试着从服务器架构优化的角度,把容器迁移上云后的开销抵消掉。”小邪说。

从架构优化出发,可不是谁都能干的出来的事儿。

但阿里云可以。

还记得阿里云那时的核心竞争力吗?规模。作为云计算市场的头部,阿里云服务器部署的规模是百万级别的。这个级别,允许阿里云的技术专家们用全新的软硬件技术,变革服务器架构,改善现有云计算的性价比。

旭卿介绍说,在2016到2017年的一年多的时间里,阿里云做了架构的研发和产品的研发,并在2017年正式推出了X-Dragon Hypervisor。

“它和一般的虚拟化技术不太一样,它做的是裸金属的虚拟化,要做的是性能超越物理机的虚拟机。”旭卿介绍,为了实现这个目标,阿里云研发了神龙系统。

从神龙X-Dragon架构来看,阿里云研发了专用的芯片、定制的专用主板,开发了专用的MOC卡,甚至开发了整套配套的软件——从BIOS到应用层支撑软件,再到整体调度软件等一整套复杂的系统。


这是非常巨大的投入,目前世界范围内有能力开发这样系统并投入使用的企业,只有两家。(点击链接发现另外一家)

五、三年·三代“神龙”

“加了X-Dragon Hypervisor之后,它可以把物理机变得像虚拟机一样灵活。”旭卿说,它可以使用弹性计算的OpenAPI直接去购买,直接去释放,而它的性能,比如性能关联的存储、网络,数据面全部进行加速,得到更高的性能、更低的资源利用率。

这就是阿里云神龙一代的“裸金属服务器”。

在X-Dragon Hypervisor的调度下,裸金属服务器就像漫威英雄“绿巨人”一样,兼具物理博士班纳的高智商和浩克的超强战斗力。

神龙一代经发布后,在2018年初就实现了全面的商业化。旭卿介绍说,神龙架构满足了企业无顾虑大规模上云的需求,“以前上不了云的用户都能上了”。

在实际应用中,他们又发现了另一个问题:

“在云数据中心,传统的虚拟化产生虚拟机,因为与神龙服务器不同的计算架构,会形成两个资源池,这导致成本大幅度上升。”

可不可以让一套架构既支持裸金属服务器,又支持传统的虚拟机?

这很快成为阿里云技术团队升级神龙架构的目标。

阿里云技术专家是想让虚拟机在神龙架构下,也能“飞起来”。

大规模部署的实践显示,第二代神龙做到了“一套软硬件,三种服务(裸金属服务器+虚拟机服务+容器)”,实现了“虚拟机性能接近裸金属”。

并且,在这一代神龙架构上,阿里云实现了神龙架构的全组件“热升级”(FPGA毫秒级热升,业务零感知)——此中意义更大,可大大加速神龙的迭代蜕变。

“第二代神龙是阿里云融合虚拟化的重要实践。”旭卿说。

第三代神龙对各项性能指标和参数进行了更极致的升级。小邪在云栖大会上发布第三代神龙架构时,介绍了它的威力:

  • 通过硬件加速虚拟化,神龙Hypervisor性能进一步提升,损耗接近零;

  • 神龙芯片IO加速,云盘读写速度达到100万IOPS,网络收发包能力达到2500万PPS,相较第一代神龙提升5倍;

  • 统一的弹性计算平台架构全面支持ECS虚拟机、裸金属、云原生容器;

  • 成为容器最佳载体,计算性能零损耗,计算成本下降50%;

  • 软硬一体化的安全,端到端的安全防护。

可以说,在历经软件虚拟化、通用硬件虚拟化、专用硬件芯片虚拟化三个阶段后,第三代神龙架构实现了裸金属服务器、ECS虚拟机等计算平台的架构统一,用户将得到更高性能、更稳定、更便宜的高质量弹性计算资源。

需求迁移,技术驱动。从第一代神龙到第三代,阿里云面向用户上云痛点,逐步帮助用户:全面上云、上高性能云,兼容上云、上可靠云,加速上云、上低成本云、上安全云。

“集齐7大上云痛点,召唤神龙。”

六、重新定义·云

马云接班人、逍遥子张勇说: “阿里巴巴的云,是我们重新定义的云。”

从两层虚拟化做成“0层虚拟化”,从虚拟化抢占资源到把所有调度offload到一张MOC卡上,神龙架构的优势不仅是解决虚拟化开销“黑洞”。

小邪告诉《本来科技》,它还通过“硬件隔离”让业务之间不再争抢资源,通过让用户“无感”的热迁移让整体计算服务稳如磐石,真正做到了让计算像电一样成为基础设施。

  • 2016年双十一期间,淘宝曾一度不能下单,这源于不同系统业务“打架”争抢资源。在阿里云上,“争抢资源”可能永远不会再有了。

  • “12306”每逢佳节倍“死机”,这源于大规模并发需求给服务器造成的压力使CPU负荷激增,计算机群性能损耗过半,无法正常发挥计算性能。在阿里云上,“CPU过载”也不会再有了。

如果用一句话总结神龙架构的创新,那就是:神龙架构实现了软硬件的深度结合,通过专用芯片来抵消虚拟化技术带来的性能损耗问题,完全发挥处理器和内存等计算资源的性能。

在这个过程中,阿里的技术团队自研了X-Dragon虚拟化芯片、X-Dragon Hypervisor系统软件、X-Dragon服务器硬件架构等等。

这是一个系统的、颠覆式的创新。部署神龙架构的云计算,不再是过去相互独立的“标准硬件+分布式系统软件”,而是转变成为一个软硬件融合的系统架构。

七、神龙·未来10年

三代神龙架构,生动诠释了阿里巴巴“需求迁移,技术驱动”的可持续发展理念。

图灵奖得主、加州伯克利大学计算机科学教授David Patterson曾表示:“随着摩尔定律的终结,为了获得更高性能的计算机,唯一方法就是改进计算机的设计或‘架构’。”

阿里云在云计算上实现了。

在此次云栖大会上,行癫在其演讲中总结数字经济的四大技术要素时,第一个点出阿里云:

“我们十年坚持下来做云计算,使得现在IT设施云化。原来都是单个服务器,我们叫做信息化、自动化,到今天我们第一次进入云的时代。”

“云第一次把整个IT设施从端到端的部件,变成归集在云端的基础设施,这和当年工厂自己发电变成提供完整的电网变革是一样的。”行癫说,云就是打基础,就是建设高楼大厦要打的地基,“必须精确规划”。

可以说,这是神龙架构带给阿里云的自信,神龙架构不仅正在帮助阿里云做到了“用一朵云,实现万种数智场景”,还在为云计算谋划未来十年。

作为计算机史上发展的一大步,云计算发展至今并非终点,云的未来依旧拥有极大的想象空间,新一轮创新已经开始。

毕竟,接下来阿里云遍布全球的百万服务器就将全面升级至第三代神龙架构,最好的迭代,就蕴藏在规模最大的部署之中。

彩蛋时间!!

阿里云操作系统叫“飞天”,存储系统叫“盘古”,网络管理叫“洛神”,资源管理叫“伏羲”,飘在天上的这群阿里工程师,大概跟天庭打交道比较多,不约而同地想到,要让龙族的人来做“维稳部队”。

喏~神龙系统,稳稳地镇压着水面下的千年妖兽。

就像神龙阵一样,神龙架构也稳稳地“镇压”着云计算平稳运行背后的“幺蛾子”。

听说《大圣归来2》将创新演绎“大闹天宫”,大圣将会抽走龙王盘踞着的那根“定海神针”。难以想象,没有了神龙架构的云计算将会面临什么?




https://m.sciencenet.cn/blog-834161-1200187.html

上一篇:一文看透:为什么只能中国人建“信息高铁”?
下一篇:云计算时代,我的数据安全“云”做主?

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 21:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部