双11背后的技术力量,阿里云神龙治愈云计算阿克琉斯之踵

边策 发自 凹非寺
量子位 出品 | 公众号 QbitAI

导语:自计算机诞生以来,计算性能一直是科技产业发展的标尺。过去数十年提升芯片制造工艺、堆叠核数是性能演进的标准路线,摩尔定律约束下性能增长曲线几近完美。

近几年,云计算成为企业获取算力的主要来源,但云带来便利的同时也带来了巨大的性能损耗,鲜为人知的是,一场云计算企业主导的计算革命正在到来。

刚刚结束的天猫双11期间,阿里巴巴集团CTO张建锋向业界释放了一个重磅信号:今年双11核心系统100%上云,而阿里云自研神龙服务器为各个环节提供了最强的算力底座,并成功扛住了54.4万笔/秒的订单创建峰值。

阿里巴巴集团CTO张建锋

更早些时候,坊间传闻国内云计算头号玩家阿里云正在秘密准备新“杀手锏”,推动下一代云计算的技术升级——“阿里平头哥正在研发一款专用SoC芯片,该SoC芯片将用于阿里云神龙服务器(X-Dragon Cloud Server)的核心组件MOC卡。”

9月的杭州云栖大会上,这则消息几乎得到证实,平头哥在研发新芯片板上钉钉,但背后更深层的意义在于已经服役一年多的神龙架构

近几个月,神龙横空出世,频频出现在大众视野并非偶然。

作为2017年诞生的“新物种”,神龙开创了云计算时代的新计算范式,在全球率先攻克了计算资源和性能损耗的 “顽疾”。

云计算性能复兴之路

2007年亚马逊AWS推出EC2云服务被认为是云计算行业的开端,这种用集中分配计算资源的方式给企业带来了极大的便利,如今已被广大企业接受。

但光鲜亮丽的外表之下,其本身也存在诸多自打娘胎里的顽疾。

首先,云计算用户对硬件的需求千差万别,用户并不直接接触云端的硬件,而是通过虚拟机的方式搭建云。在这个过程中,不可能避免的出现性能损失、软件不兼容的问题。

虚拟化会如同黑洞般吸收走一部分机器的性能,云端的弹性能力是牺牲性能和资源来换取的,这是云计算与生俱来的缺点:

例如,一台96核的服务器上运行云服务器,可能需要占用8核32G来抵消虚拟化的开销,留给用户使用的只剩88核和剩余内存,造成了算力的极大浪费。

不仅如此,在同一服务器上的云服务器之间资源调度无法做到完全的隔离,存在资源抢占的情况,因此其性能也不稳定。

多种因素交织作用下,云计算的技术瓶颈与行业需求的鸿沟在不断扩大,面对这一历史性难题,整个产业链均束手无策。

尽管云厂商、芯片商、虚拟化厂商都在试图尝试新的方法,例如英特尔等芯片商提供了硬件级别的虚拟化支持,虚拟化技术本身也从Xen演进到了KVM,但由于软件厂商、硬件厂商、系统集成商各层之间依旧是割裂的模式,都未能在根本上解决问题。

2015年,阿里云已经跃升为中国云计算市场份额最高的云服务商。在服务广大中小企业的同时,也开始支撑阿里巴巴集团业务,但在这一规模下,该问题被放大了N倍,例如在双11中,要提供同等规模的性能,可能需要调用过去数倍的服务器,整体服务质量也受到不同程度影响。

这对于任何一家云厂商和云上企业而言,都是无法接受的。

2016年,阿里云将损耗降到了3%,这一数字已经达到当时技术能力的极限,未来可优化空间的极为有限。

但对阿里而言,这只是云上性能复兴之路的开始。

阿里云思变:“治愈”云计算的阿克琉斯之踵

2010年,BAT三位大佬论剑云计算的事情广为人知,也是国内云计算产业的一个标志性节点。

但在阿里内部,还有一场讨论同样值得被铭记。2016年双11技术复盘会上,阿里巴巴集团CTO张建锋(行癫)首次对虚拟化性能损耗难题发出灵魂拷问,明确要把虚拟机性能损耗降到0。

在当时看来,这样的目标就像是在挑战能量守定律,即便在学术界也没有相关研究。但这次始于技术层面的碰撞阴差阳错为云计算产业下一个十年的演进路线定下了基调。

如果延续传统技术路线,即仅针对软件层面做优化,0损耗的目标几乎是天方夜谭。于是大家决定开辟一条全新的路径,提出软硬结合的思路:通过专用芯片来解决虚拟化开销。

事实证明,这一决定无比正确,阿里云技术人描绘的这张蓝图最终演变成了今天的神龙。

2017年9月,推出了第一代神龙架构,兼具虚拟机的弹性和物理机的高性能两大优点,在整个行业里首次以软硬结合的设计方式实现了性能的0损耗;无独有偶,两个月后大洋彼岸的AWS也推出了类似产品。

在众厂商沉迷于价格战之际,两家世界顶级云厂商打破了平静,率先迈进下一代技术,足以证明云计算架构升级已是必然趋势。

这是一次前无古人的技术探索,阿里云奔跑在了行业最前线。如何实现?需要什么样的人才?……这些都是需要重新审视的。

为此,阿里云专门组建了一支软硬一体化的研发团队,最终打造了一套完整的技术体系,涵盖自研“X-Dragon虚拟化芯片”、“X-Dragon Hypervisor系统软件”以及“X-Dragon服务器硬件架构”,其创新之处在于实现了软硬件的深度结合,通过专用芯片来抵消虚拟化技术带来的性能损耗问题,完全发挥处理器和内存的性能。

简单来说,新架构对于云计算客户而言有四大优点

  1. 具有和普通物理机无差别的高计算性能;
  2. 安全物理隔离;
  3. 分钟级别的交付能力;
  4. 与阿里云其他产品全部互通兼容。

软硬结合的神龙架构兼具性能和灵活性,而这种性能不仅仅作用于单台服务器,对大规模集群的优化也创造了前所未有的提升。例如,基于这一架构的异构计算集群,可对集群内每一颗GPU工作负载进行优化和加速,从而最大限度发挥芯片的计算性能。

以ImageNet竞赛的128万张图片的数据集为例,用普通计算资源训练ResNet-50模型,如要达到75%的精度需要数天甚至一周的时间,而使用神龙异构超算集群产品,模型训练可以缩短到几分钟,大大提升AI算法研发效率,加速业务创新。

毫不夸张的说,神龙架构的诞生,解决了十几年来一直都存在性能和资源损耗的历史难题,成功治愈云计算的“阿克琉斯之踵”。

云上算力的新底座

在今年的杭州云栖大会上,阿里云智能基础产品事业部总经理蒋江伟宣布该架构已经升级到第三代,实现了裸金属服务器、ECS 虚拟机等计算平台的架构统一,这意味着企业可以更加便捷获得高质量的弹性资源。

阿里云官方表示,在IOPS、PPS等关键指标上,新一代神龙架构可提升5倍性能,同时具备 “硬件级隔离”能力,保障性能的稳定性。

经过两年多的迭代演进过程中,已经得到了实践验证。最为明显的就是,阿里巴巴集团自己就在淘宝、天猫、菜鸟等核心业务上采用了神龙架构,并且带来了大幅效率提升。

与此同时,在各行各业也开花结果:一方面云上企业能够享受到更强大的计算性能,另一方面此前拒绝上云的企业,也在将上云战略重新提上日程。

上汽作为神龙架构的第一个外部用户,实现了计算效率25%的提升;吉利汽车也通过神龙将效率提升40%以上,类似使用该架构的还有旷视科技等AI企业……

从整个IT行业来看,芯片是当之无愧的算力源泉,阿里巴巴旗下半导体公司平头哥就在近几个月连续发布多款芯片类产品,但在上云的大趋势下,以神龙代表的新一代计算架构无疑是让算力发挥到极致的最佳平台。

正如图灵奖得主、加州伯克利大学计算机科学教授David Patterson所言:“随着摩尔定律的终结,为了获得更快性能的计算机,唯一方法就是改进计算机的设计或‘架构’。”

版权所有,未经授权不得以任何形式转载及使用,违者必究。

相关阅读