对于x86架构在数据中心领域的强势,Arm阵营一直有大写的“不服”,将移动市场制胜的策略成功移植到服务器市场是其不变的“服务器梦”。毕竟,仅以服务器CPU为例,据预测,2020年服务器芯片市场规模将超300亿美元。然而,进攻的路上道阻且长,冲锋者如英伟达、三星、博通、高通等巨头都相继按下了“停止键”。不过,Amazon和华为相继发布基于Arm的服务器芯片,同时Marvell(美满)、Ampere以及国内的飞腾等还一直在持续进军。特别是在继Marvell推出ThunderX2大获成功之后,最近乘胜追击宣布推出ThunderX3,在性能方面实现大幅提升,这会进一步形成燎原之势吗?
Marvell ThunderX系列助力云端应用创新
目标市场的新契机
针对Arm的服务器芯片三大目标市场即HPC、云计算和边缘计算,Arm体系的价值正待释放。
Marvell半导体公司服务器处理器部产品营销高级总监周立新介绍,HPC 的工作负载需要多核、多线程,并有诸多并行处理需求,对DDR带宽非常敏感,基于Arm核的服务器处理器已可胜任。
而从数据中心来看,“数据中心已从对单线程性能的关注转向对机架级别性能的关注,其中性能功耗比、性能成本比和TCO(总体拥有成本)是部署考虑的三大关键因素。因此,数据中心开始采用专为特定工作负载而定制的服务器,业界对基于Arm低功耗、低成本处理器的关注度不断走高。” 周立新指出。
正如科技老兵戴辉所指,云端应用不同,可通过在云端适配特定应用来进入市场,使得进入门槛大大地降低。华为的Arm服务器CPU鲲鹏芯片就是通过在云端适配特定应用来进入市场的,比如鲲鹏适配了金蝶的云ERP应用,就可以搞一堆用鲲鹏的服务器用于金蝶的云ERP SAAS,而不需要对所有应用都兼容。注意,所有应用是对英特尔都兼容的。云计算的兴起,催生了商业模式的巨大变化,这也为新来者提供了新的契机。
而此前被质疑的软件生态问题,现在也大有改观。“之前传统软件很多是由第三方提供的,客户没有源代码。但目前超大规模数据中心的工作负载、应用都是有源代码的,而且还允许改变源代码、改变程序来加速,这对Arm服务器处理器的引入带来极大的方便,可更轻松应对兼容的问题。”周立新强调。
对于第三大应用则锁定原生Arm应用,处于边缘侧的智能终端绝大部分基于Arm架构为此奠定了对手难以匹敌的基石。周立新认为,Arm服务器适合于在边缘以容器或虚拟机的形式运行当前部署在手机和Arm终端上的原生Arm 应用程序,这使得各种新兴的应用有机会成为现实,包括Android云游戏、云端 Android和Arm软件/应用程序开发。
显然,机会看起来十分“美好”,但相应地在性能、生态上的考验也全面升级。
新“芯”的进击
Marvell看准这一态势,在推出ThunderX2收获一众“朋友圈”之后,又宣布推出ThunderX3,在性能上实现全面的跃升。
Marvell半导体公司副总裁及服务器处理器部总经理Gopal Hegde介绍,ThunderX3处理器采用台积电7P制程工艺制造,拥有高达96个核, 每核达4线程,每个插槽的总计算能力达到384线程,相对来说英特尔只有56个线程。内存接口支持8通道DDR4-3200,每个通道可搭载2个DIMM。I/O扩展提供了64个PCIe Gen 4.0通道,搭载16个控制器。该处理器支持单节点和双节点配置。在浮点运算方面,ThunderX3的每个核心搭载四个128 位SIMD (Neon)单元。该设备完全符合SBSA/SBBR,并提供了企业级的RAS和虚拟化功能。
因而,从纵向来看,ThunderX3架构的改进使得IPC的整体性能较ThunderX2提高25%。结合处理器频率和DDR频率的提升,单线程总体性能较上一代提高了60%以上。此外,在单颗处理器层面,相较于上一代,ThunderX3的整数运算性能提升3倍以上,浮点运算性能提升5倍以上。
Marvell ThunderX3整体性能提升
横向对比也同样出彩。Gopal Hegde认为,从核心来说,x86架构面向服务器、桌面等众多市场,而Armv8-A是专门面向服务器应用开发的核,在面积、性能、功耗层面更加优化。对比x86架构的两大厂商,一方面英特尔是IDM模式,在工艺上相比台积电已落后一两代,这对其x86服务器CPU性能必然有一定的影响。而Marvell的ThunderX3已进入到7nm工艺,制程占据优势;另一方面,AMD在架构上则采用封装集成,64核有9个DIE,相应地在延时、带宽方面存在不足,同时功耗偏高。
生态层面Arm阵营也在呈现“滚雪球”效应。
自前两年推出ThunderX2之后,部署进度在不断加速,得到了诸多OEM厂商和平台、IHV硬件厂商、操作系统和固件、中间件、应用和工具的支持,目前生态系统覆盖已超过 100 家合作伙伴企业。
在一些云计算和HPC市场ThunderX2已成功部署,主要客户包括Microsoft Azure和桑迪亚国家实验室中的500强超级计算机“Astra”等等。据悉,微软正为Azure部署基于ThunderX2的量产级服务器,也公开表态未来可能有40%-50%的量迁移到Arm上。此外,ThunderX2系列服务器处理器已实现对NVIDIA GPU的支持,将进一步满足HPC 和游戏应用的需求。
有了上述的实战加持,ThunderX3承前启后之势将更加凌厉。“公开客户已有20多家量产采用ThunderX2,而这些客户都会延续采用ThunderX3。”Gopal Hegde进一度解读应用优势所在,“在云计算应用中,ThunderX3的目标工作负载如大数据、数据库、流媒体、弹性搜索等本质上是高度并行,需要高线程,而ThunderX3每个核支持4个超线程,可带来显著的性能提升。HPC应用也将同样获益于多线程的支持,而且ThunderX3还具有高能效,可在密集的浮点运算工作负载下保持较高的频率,结合多个单指令多数据流 (SIMD) 单元和高内存带宽,可为HPC 工作负载提供了巨大的性能优势。在边缘侧,借助现有庞大的安卓手机生态系统基础,借助架构的一致性,可顺利实现Arm云端的计算和渲染,加速企业数据向Arm服务器的迁移。
“相信通过Marvell的差异化优势,将为三大目标市场客户带来更高的性能成本比和性能功耗比优势。”Gopal Hegde在总结中也期待未来ThunderX3占据服务器处理器整体市场的30%左右。
Marvell ThunderX系列路线图
值得指出的是,Marvell将于2020 年年中将向客户提供样片。而且,ThunderX系列路线图已然清晰,Marvell计划每两年推出一代新的Arm服务器平台,2022年将推出ThunderX4,每次迭代都可实现两倍甚至更高的性能提升。
未来的对决
可以说,Marvell已是Arm服务器处理器阵营的生力军。Marvell在存储、网络和计算三大业务领域发展强劲,而计算作为Marvell一大聚焦市场,除了业内领先的Arm服务器芯片以外,亦有面向嵌入式应用的Octeon和Armada产品线。
其进击之路是从收购开启的。2014年,Cavium(后被Marvell收购)推出了基于Arm架构设计的服务器芯片ThunderX,这是全球首款至强E5级别、支持双路架构的Arm服务器芯片,并对存储、网络和安全等进行了特定的优化。在收购整合之后,Marvell迅速在2018年7月推出第二代Arm服务器芯片ThunderX2,在内存带宽、吞吐量、延迟与可靠性层面都大幅提升,并在生态和应用层面捷报频传。而ThunderX3的面世或将这一战绩持续扩散,获得更多的“领地”。
而且,Arm阵营正在扩大朋友圈。以戴辉的话来说,是打“群架”,国内业已有大量基于云的软件移植到Arm上,以往代价巨大的云软件移植不再是壁垒。
正如兴衰交替是不可避免的历史法则,服务器芯片市场的格局有望改写。
但尽管有诸多的捷报,Arm及其生态合作伙伴要想在这一市场分羹更多,仍需要更多的应用案例来验证,彰显其可降低数据中心运营成本的整体优势,同时还需要笼络更多的服务器OEM厂商、操作系统和软件生态的支持,才能说服客户进行大规模的采购。
正所谓独行者速,众行者远,一众Arm服务器处理器的朋友圈会将未来的对垒之势引向何方?(校对/Sky)