E企研究院 · 2021年10月27日

因云而生、向下生长,阿里云越来越硬

时隔两年,云栖大会重回线下。这两天,阿里自研芯片成为业界乃至整个社会的关注点,在基础设施领域坚持投资的先行者获得回报。

随着倚天710芯片的发布,平头哥已经目前拥有处理器IP、专用芯片及通用芯片等产品家族。据阿里云智能总裁张建锋介绍,玄铁系列处理器出货量已达25亿颗;两年前问世的阿里第一颗芯片含光800已实现规模化应用。

今天,阿里云发布了磐久、神龙4.0、龙蜥、灵杰等多款重磅产品,阿里云“做深基础”成果浮出水面,底层自研技术迎来大爆发。

过去十二年,阿里云打造出中国唯一自研的飞天云操作系统。飞天云操作系统是阿里云的核心“引擎”, 为了提供更好的计算产品和服务,飞天向下延伸、定义硬件。

云栖1.jpeg
阿里云智能总裁张建锋

在张建锋看来,今天阿里云坚持自研,继续“向下生长”,从飞天到倚天,打造以云为基础的软硬件技术体系。“构建完整的技术体系,是我们在数字时代具备全球竞争力的决定性因素”。

因云而生的硬件、软件、架构

近两年,云计算和实体经济的深度融合过程中,面向云设计的“云原生”已经成为热词,张建锋在云栖大会主论坛也提到了云计算的三个阶段,基础设施云原生化的云原生 1.0时代,应用云原生化的云原生 2.0时代,以及云网端同步发展融合的云原生 3.0时代。

站在客户应用的的角度,部署到云上的应用,要具备弹性、API自动化部署和运维这三大能力中的至少一项,而这些能力也只有大规模云服务商可以提供。

也就是说,云原生应用是相对线下传统企业IT物理机上的环境而言,就是用云的方式来部署和管理应用,充分利用云的供应效率,全球部署、即开即用、按量付费。

阿里云的软件、硬件、架构皆因云而生,基于云而设计、开发、部署。

从计算芯片的角度而言,云计算带来了全新的应用场景,从而对CPU提出了新的需求,也就是云原生芯片,比如通过云原生可以让神龙服务器完完全全具有虚拟机的特性,包括虚拟机的接口。

从专用芯片走向通用芯片

通用处理器芯片是数据中心最复杂的芯片之一,其架构设计复杂,对性能、功耗要求极高,截至目前具备这一技术实力的企业也寥寥可数,目前,Intel、AMD、AWS以及阿里平头哥等少数公司在此之列。

2019年7月,平头哥发布RISC-V处理器玄铁910,为终端提供算力基础设施,这是阿里巴巴构建芯片生态的重要一步。之后在2019年云栖大会,平头哥发布阿里第一颗芯片含光800,这是一颗针对场景深度定制的芯片,创造了性能和能效比的两项第一。

19日,阿里巴巴发布首款通用芯片——倚天710,这是一款为云而生的芯片,针对云计算的特点做了大量优化,性能超过业界标杆20%,能效比提升50%以上。
云栖2.jpeg

架构层面,倚天710采用最新ARMv9架构,多达128核,主频最高3.2GHz,可同时兼顾性能和功耗。同时,集成了业界最领先的DDR5、PCIE5.0等技术,能有效提升芯片的传输速率,并且可适配云的不同应用场景。
云栖.jpeg

可以看出,CPU的多元化正在逐渐成为现实,云原生的CPU也呈现出一些特质,主频不需要特别高、功耗要特别低、独立运行的核、多核架构能更好地支持服务网格的应用、有成熟的软件生态等等。

目前除了x86、 Ampere的ARM服务器芯片外,自研的ARM体系正成为很多云厂商的选择。

目前AWS已经研发了三个系列的自研芯片,其中包括ARM架构的Graviton 2 CPU,使用64位ARM Neoverse内核定制而成,设计思路是多核加每核单Thread负载,每个内核都旨在通过尽可能多的、完全独立的内核来交付实际工作负载,力图成为最节能的处理器。

从去年年底开始,就传闻微软也在设计一款用于数据中心的ARM处理器,满足自己的某些需求,体现成本和性能优势。

软硬一体 云原生自研磐久服务器

快速发展的业务驱动技术不断创新,而在规模上的优势使阿里云也也有能力根据自身业务发展的需求、更有针对性地打造和优化自己的产品,过去几年,阿里云坚持软硬一体优化、自主可控的研发创新道路。

面向下一代云原生架构,在云栖大会上,阿里云还推出了磐久自研服务器系列,采用了最新型的模块化设计,可实现计算存储分离,包括了高性能计算系列、大容量存储系列、高性能存储系列等,拥有风冷、液冷等不同散热模式,服务器交付效率提升50%。

云栖4.png
依旧是针对云原生时代容器化、微服务、持续交付等特点,磐久系列采用软硬件融合方式实现极致性能,结合自研的MOC、FIC、AliFPGA、神盾卡等,满足云原生的创新开发对性能和稳定性的机制要求。在多核技术加持下,磐久系列的计算性能、IO吞吐、能效比的表现都居于业界领先水平。

神龙架构演进 云计算进入5微秒时延时代

不仅是在软件层面虚拟化,而且要在硬件层面做虚拟化,神龙架构是就是阿里云硬件虚拟化的典型成果。其实,神龙架构也是因云而生,如果没有云计算的大规模部署场景,神龙的优势就不能发挥得淋漓尽致。

2017年,阿里云推出了第一代神龙架构,解决困扰云计算行业多年的虚拟化性能损耗问题,让云服务器突破性能极限。今天神龙架构演进到了第四代,服务于云时代业务负载,解决异构计算资源池化等问题。

据介绍,第四代神龙架构首次搭载全球唯一的大规模RDMA加速网络,网络延迟整体降低80%以上,云计算首次进入5微秒时延时代。

神龙4.0可提升分布式NLP和视觉计算30%的训练性能、Spark 大数据30%的计算性能、MySQL 60%的性能、Redis 130%的混合读写吞吐量。

云栖3.jpeg
神龙4.0将弹性RMDA的加速能力融入公共云,让RDMA从HPC类应用,走向支持通用类计算场景,为Microservice,Serverless,Service Mesh等云原生技术大爆发提供技术支撑。
云栖6.png

附:云栖大会第二天云原生系列发布

除了系列云原生硬件和架构,阿里云发布可以云上随意获取的服务化云原生产品,有助于客户获得性能和成本上的加强。

龙蜥服务器操作系统开源:给服务器提供更好的性能

云栖7.png

龙蜥已在阿里巴巴内部打磨十年,历经“双11”大规模验证,性能和稳定性更优,给云上典型用户场景带来40%综合性能提升,可兼容CentOS生态,支持X86、ARM等主流芯片架构,并提供全栈国密能力。

未来,阿里云计划为龙蜥投入20亿专项资金,并联合100家生态合作伙伴推动龙蜥生态建设,提供至少十年技术支持。

PolarDB自研数据库 首次实现内存与计算存储解耦

除了操作系统,阿里云在基础软件的另一个核心领域——数据库,也迎来重大突破。
云栖8.png

作为阿里云自研数据库的明星产品,PolarDB的创新点在于:第一,业内首次实现内存与计算、存储的三层解耦,实现内存池化,使得弹性能力呈数量级提升,同时大幅度降低成本;第二,上线多主架构,进一步提升可用性、并发处理、弹性能力,高效应对像“双11”一样的流量洪峰;第三,成为真正的HTAP数据库系统,可同时处理OLTP和OLAP型混合负载。
云栖10.png

同时PolarDB还首次实现了多主架构,进一步提升可用性、并发处理、弹性能力,高效应对“双11”般的流量洪峰。

阿里灵杰:让大数据+AI“开箱即用”

公有云是多数企业探索AI的唯一环境,因为这类应用需要海量计算资源和存储空间的支持,这在多数情况下只有公有云才能提供。

早在2016年,AWS、微软和谷歌就发布了有关AI的重大消息,计划向企业和消费者客户提供有关自然语言理解、语音识别、视觉搜索、图像识别及文字转语音等方面的服务,并支持开发人员使用机器学习技术。

现在,阿里云将大数据+AI一体化平台“阿里灵杰”对外开放,可帮助企业和开发者实现“开箱即用”。

云栖11.png
“阿里灵杰”包含机器学习平台PAI、云原生大数据计算服务MaxCompute、实时计算Flink版、大数据开发治理平台DataWorks、实时数仓 Hologres等产品,可调动规模高达10万台以上计算集群,拥有云边端一体的高性能训练和推理引擎,能提供毫秒级延迟的实时数据分析能力等,是中国最大的人工智能平台。

“阿里灵杰”还首次提出了大数据+AI一体化平台的4S标准,即大模型(Scale)、高效率(Speed)、易用性(Simplicity)、场景化(Scenario),为人工智能行业发展提供借鉴。

基于“阿里灵杰”,达摩院开发了超大规模多模态预训练模型M6,主打多模态、多任务能力,其目标是打造全球领先的具有通用性的人工智能大模型。

据官方消息,M6的参数已从万亿升级至10万亿,成为全球最大的预训练模型,规模超越此前谷歌发布的1.6万亿Switch Transformer模型。

总体来看,从芯片、服务器,到操作系统、数据库,再到大数据+AI一体化平台,基于长久以来的云原生实践,阿里云坚持做深基础的战略,向下生长,将软硬一体做到极致,释放正向效应,构建未来的竞争力。

推荐阅读
关注数
5020
内容数
335
E企实验室由E企研究院专职产品技术分析师针对数据中心、云计算、AI和5G等领域最新技术和应用研究、验证、试用、分析,数据中心级新产品新技术的市场教育,国内唯一同时研究互联网和传统企业IT基础设施的机构和部门
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息