来源:内容由半导体行业观察(ID:icbank)原创,作者:李晨光,谢谢。
服务器芯片市场是芯片制造领域最大、增长最快和最具竞争力的市场之一。
近年来,随着向云计算的转变,数据中心的需求猛增,对服务器芯片的需求变得更加迫切。
对于不同的云服务厂商来说,由于所构建的生态有所不同,因此对芯片性能需求存在着差异。在这种情况下,定制的芯片或许能够让他们更好地发挥出生态的价值。而就目前的市场情况来看,市场还没有给予足够多的选择,自研芯片也就成为了一条发展路径。
人工智能芯片设计自动化后,引发了新芯片设计的狂潮。如今,自研芯片也成为了云服务商的重要布局之一。
云计算巨头纷纷入局
- 亚马逊
亚马逊可以说是最开始自研服务器芯片的云服务厂商。
2015年,亚马逊花3.5亿美元收购了以色列芯片公司Annapurna labs。届时起,亚马逊就在为其云基础设施设计开发定制芯片,于2018年发布了第一代Amazon Graviton 处理器,支持该处理器的A1也成了其云服务AWS上第一个基于Arm的实例。第一代Graviton处理器基于Cortex-A72内核,最大时钟频率达到2.3GHz,节省45%的成本使其成了很多入门用户的首选。
2020年,亚马逊发布了第二代自研处理器Graviton2,这款处理器基于64位的Arm Neoverse N1内核,核心与Cortex-A76近乎类似,但加入了不少针对基础设施工作的强化特性。Graviton2采用了台积电的7nm制程工艺,集成了64颗核心,在CMN-600 Mesh互联技术的支持下可以做到2TB/s的带宽。
与第一代Graviton相比,Graviton2提供4倍的计算核心,7倍的计算性能。基于Graviton2的实例与同等级的X86实例相比,性能要高上40%,成本却要低上20%。不仅如此,Graviton2也成了AWS最省电的处理器,同样的能耗下,Graviton2的性能要比AWS中的其他处理器高上2-3.5倍。
有数据显示,在Graviton2的加持下,AWS在 2021服务器领军榜中登上Arm架构服务器处理器榜首,在市场、价格优势、性能、可靠性和创新5个评价维度都是第一名。
目前,Graviton已经广泛商用。2021年初,AWS宣布Graviton 2正式落地中国。
2021年12月,亚马逊云科技发布了最新通用服务器芯片Graviton 3,该芯片采用5nm工艺,拥有64个核心和550亿晶体管,支持bfloat16、PCIe 5.0等最新技术,相较Graviton2 性能提升了25%,在科学计算、机器学习和媒体编码工作负载则能够提供2倍的性能。此外,在同样性能下,Amazon Graviton3与X86实例相比可节省60%的能耗。
事实上,过去二十年里,处理器提升性能的方法始终围绕的是提高频率和增加核心数量,提高频率意味着功耗持续上升,也带来数据中心散热等系列需求,不仅让客户使用成本上升,也不符合如今全球绿色减排的大趋势。因此,亚马逊云科技的思路是围绕客户对于算力需求的提升和降低功耗的要求,谨慎地提升处理器频率,而是增加指令并行、内存带宽,以实现处理器性能提升和能耗降低。
以由Amazon Graviton3处理器支持的Amazon C7g实例为例,作为云计算中第一个采用最新DDR5内存的实例,与基于Graviton2的实例相比,提升50%的内存带宽,达到300 GB/s,使得其在科学计算等内存密集型应用表现大幅提升。
从Amazon Graviton3公布的参数来看,无疑在云计算行业中属于顶级。Graviton迭代3代,已在市场竞争中站稳脚跟。根据亚马逊云科技介绍,如今已经有超过20个托管服务基于Graviton,且仍在持续增加中,并且Graviton3很快会进入到中国市场。
AWS 并不是唯一一家自己设计芯片的云计算厂商。谷歌拥有诸如张量处理单元,微软也在摸索构建基于Arm的芯片,用于Azure服务器。
- 谷歌
近些年,英伟达在数据中心领域持续发力,可圈可点。其GPU执行并处理了一些与人工智能相关的服务器大数据中心任务。面对巨大威胁的英特尔收购了Altera,将FPGA技术应用在服务器大数据中心领域,做为反击。
与此同时,谷歌似乎也找到了另外一种解决问题的新方案。谷歌的这个方案不是采用CPU和GPU这样的通用芯片,也不是FPGA技术,而是使用专用芯片,定制的TPU芯片,用于谷歌服务器大数据中心系统自身。
谷歌的TPU芯片全称为Tensor Processing Unit,也叫张量处理单元。这种芯片非常适合运行tensorflow软件引擎,谷歌的深度神经网络就是依靠tensorflow软件引擎驱动的,tensorflow软件引擎可以通过分析硬件和软件组成的网络中的,海量数据来学习如何完成特定的任务。这款定制的TPU芯片运行神经网络的效率比其他通用芯片运行神经网络的效率都高不少。
有相关描述称,谷歌的TPU芯片在机器学习测试中,超过英特尔至强CPU和英伟达GPU一个数量级。TPU芯片和其基准测试,都比其他通用芯片快了15倍,性能提升近30%。
2018年,谷歌宣布开放TPU云服务,允许企业用户租用TPU板卡,用于建立TPU pod的超级计算机网络。谷歌开放具备人工智能和机器学习能力的TPU云服务,不仅可以降低企业用户对英特尔、英伟达等通用芯片巨头的依赖,还可以用更低的成本使用核心计算基础设施来进行软硬件的实验。
然而,谷歌虽然早就开始自研服务器芯片,但其TPU与Argos芯片一个用于张量处理,一个用于视频处理,并非通用计算芯片。2021年谷歌招募了英特尔老将Uri Frank来设计服务器芯片,很有可能也会选择拿Arm授权开发自研核心。
- 微软
微软这边,其实早在2020年就被曝出要为其云计算服务器开发定制芯片。
近日,微软聘请了一位重要的苹果半导体专家Mike Filippo,进入微软的云计算部门Azure,主要从事处理器研发工作。
微软显然也在走亚马逊、谷歌等竞争对手的路线,准备开发自己的服务器定制芯片,为Azure云计算服务提供支持,而苹果设计师在这方面拥有丰富的经验。
据了解,Filippo在芯片行业已经工作近26年。在加入苹果之前,他在ARM干了10年,担任首席CPU架构师、首席系统架构师和ARM Fellow。他因提升Arm芯片在手机和其他设备中的基础性能而备受赞誉,曾负责开发过Cortex-A76、Cortex-A72、Cortex-A57以及即将推出的7nm+和5nm芯片。在英特尔工作期间,Filippo是24核、96 线程、超算和高性能计算SoC的首席架构师。
对微软来说,苹果M系列芯片的成功,证明了ARM架构的处理器能够在实现高性能的情况下同时保持低功耗的优势,这让微软极有可能也从ARM芯片入手。
微软最近几年加大了芯片工程师的招聘力度,比如从英特尔、AMD、英伟达等芯片公司挖人。对于长期合作伙伴英特尔和 AMD 来说,微软自研服务器芯片可能是一个令人不安的消息,这两家公司都为 Azure 服务器提供了芯片,这一转变可能会削弱英特尔和AMD的地位。
本土云厂商的自研之路据IDC的《全球及中国公有云服务市场(2020年)跟踪》报道,阿里云全球市场份额为7.6%,仅次于亚马逊AWS 46.8%、微软Azure 14.2%,是全球第三大公有云服务商;国内市场份额为38.5%,远高于腾讯云12.7%、华为云11.1%,是中国第一的云服务商。
2018年4月,阿里收购了中天微系统有限公司,与达摩院自研芯片业务整合成为独立芯片公司平头哥。2019年7月,平头哥发布了RISC-V处理器玄铁910,当年推出云端AI推理芯片含光800。此后两年,平头哥并无新款芯片发布。
2021年10月,阿里云发布了最新通用服务器芯片倚天710以及自研服务器磐久。
图源:观察者网
据介绍,倚天710采用5纳米工艺,基于ARM最新发布的ARMv9架构,单芯片容纳高达600亿晶体管,128个CPU核心,主频最高达到3.2GHz。就数据来看,倚天710在SPECInt2017基础测试中,倚天710跑分达到440分,超过行业标杆20%。搭载芯片倚天710的磐久服务器将在今年部署,均为阿里云自用,无对外销售计划。
倚天710项目立项于2019年,平头哥承担了芯片设计工作,台积电是生产代工厂商。这是阿里造芯计划里,截至目前攻克下的最艰难的一役。
阿里云自研服务器芯片,结合了诸多长中短期内外形势考虑,是阿里云“一云多芯”策略,以及“做深基础”既定战略的延伸与落地。
随着上云成为了企业数字化转型的必选项,不同企业的计算需求也正在变得多样化。一些云计算客户既想要英伟达、ARM芯片的AI推理能力,也想要X86芯片的安全计算能力,还希望云成本能进一步降低。
在过去,同时满足这些需求,通常要选择多云协同,为ARM集群、X86集群分别建设存储与网络的配套设备。但这种做法成本高,且浪费资源,不同类型CPU共存还会带来多云管理问题。
阿里云应对这些问题的策略是“一云多芯”,也就是用一套云操作系统兼容X86、ARM、RISC-V的硬件服务器集群,将不同架构CPU的算力标准化,向下屏蔽硬件差异性,向上提供一致性服务。
阿里云智能总裁、达摩院院长张建锋表示,倚天710是阿里云推进“一云多芯”策略的重要一步。倚天710芯片和飞天云操作系统的结合,使得阿里云能够将领先的芯片设计技术与云场景的独特需求相结合,最终实现性能和能效比的突破,并首次实现了从底层芯片到存储、网络、数据库系统的全栈自研。倚天710服务器芯片的发布,也标志着我国在芯片领域再次迈出了关键的一步。
阿里云之外,华为自研服务器芯片的动作更早一些。2019年,华为就推出了自研的用于服务器的ARM架构的芯片鲲鹏920。在华为的Taishan服务器和华为云的K系列实例中,都用到了这颗处理器,这也是业内首个内置直出100GE网络能力的通用处理器。
华为2020开发者大会上,华为云与计算BG总裁侯金龙表示,希望用三年的时间让90%的应用都可以跑在鲲鹏上。侯金龙表示,5G时代所有的应用都在走上云化,手机、平板等端侧基于ARM架构,鲲鹏也是基于ARM架构,云、端同构后性能可以提升40%,这是鲲鹏与X86架构相比的天然优势。据悉,目前华为鲲鹏处理器主要应用于党政机关、事业单位、大型国企和国有银行的场景中。
华为的云服务业务发展迅速,其中之一的因素就是其在存、算、存、管、智方面的自研芯片。在华为的应用一代、研发一代、规划一代的路线中,鲲鹏930芯片原本预计在2021年就会面世,然而由于供应链的限制,如今已然成了未知数。
云厂商为何纷纷自研芯片?作为云计算服务提供商,亚马逊、谷歌、微软、阿里等公司是数据中心芯片的最大买家之一,他们在芯片上构建服务,然后将计算能力出租给数百万客户。
过去十多年来,英特尔在服务器市场方面一直处于领先地位,其每年推出的至强处理器几乎已等同于服务器、数据中心的代名词。但是,在英特尔不断延迟其10纳米芯片制造工艺之后,让其他厂商有机会在数据中心计算市场CPU领域向其发起挑战。
据日本瑞穗证券报告,英特尔的下一代Sapphire Rapids芯片可能会延迟到2022年第三季度发布(此前预计在2022年第二季度正式推出)。Sapphire Rapids采用“Intel 7”的7纳米制程,并通过EMIB(嵌入式多芯片互连桥)连接在一起,与其他封装技术相比,EMIB提供卓越的吞吐量和延迟,缺点是成本较高。尽管英特尔自行处理多数封装作业,但关键原料短缺,影响生产。由于Sapphire Rapids是英特尔首次全面采用EMIB技术的Xeon芯片,预计售价将提高。
报告还称,英特尔第三代Xeon服务器芯片“Ice Lake”的产量今年将增长50%。同时为了维持市场占有率,英特尔不会调涨Ice Lake的售价。这种方式将有助于阻止AMD继续在数据中心芯片市场攻城掠地。
另一边,由于晶圆代工及封测成本大增,有消息称AMD 的EPYC服务器芯片将涨价10%~30%。AMD 的下一代服务器处理器EPYC 7004系列有两种版本“Genoa”和“Bergamo”,目前Genoa已经在向客户提供样品,预计在2022年内推出,Bergamo则预计将会在2023年推出。届时,服务器芯片的战况将更趋白热化。
浪潮系统副总Dolly Wu预测,AMD的第三代EPYC处理器Milan和第四代EPYC的表现将继续优于英特尔,协助AMD维持在数据中心的爆炸性成长。不过,AMD供给吃紧情况比英特尔更严重,或将让AMD无法更快夺得更多市场。
综合来看,无论是英特尔芯片的延迟发布,还是AMD可能的涨价,种种行为都在某种程度上剥夺着云服务厂商等下游企业的话语权和自身的发展节奏。
这也是云服务厂商为什么纷纷开始自研芯片的一方面原因,云厂商自研服务器芯片可以减轻对第三方供应的依赖;另一方面是自研芯片可以降低成本,自研芯片能够让云服务商在每个业务流程中做到效率与成本的最优化。此外,自己的芯片更适合他们的某些需求,与英特尔、AMD等厂商提供的现成芯片相比,具有成本和性能优势。当业务规模持续增加、自研芯片的必要性就愈发突出。
亚马逊云巨头负责Graviton实例的高级首席工程师Ali Saidi表示,构建自己的芯片能够在各种层次上进行更快的创新,提高安全性和灵活性,并提供更多价值。
“自研芯片可以控制项目的开始、进度和交付的进程;可以将硬件和软件并行开发,并使用大规模的云来进行构建芯片所需的所有模拟。这意味着创新速度更快,可以跨越传统界限。” Saidi补充道。
不过自研芯片并不等于就不采用其他供应商的芯片,而是为用户提供多样性的选择,给予用户充分的选择权,用户完全可以根据自身工作负载和业务需求来选择合适的计算实例。
以亚马逊为例,目前亚马逊云科技不仅采用英特尔、英伟达、AMD的CPU与GPU计算平台提供不同用途的云端服务。另一方面,也不忘追求计算、储存、网络的硬件芯片技术自主,使其能够提供更经济实惠的云端服务。
阿里云同样如此,X86芯片在阿里云的数据中心也是主流,采用了英特尔、英伟达、AMD的芯片产品。平头哥市场副总裁高慧强调,倚天710并非要替代市场上同类产品,主要还是为了解决云计算专业场景下的专业需求,为云上企业提供多样性选择。
张建锋在接受媒体采访时也称,阿里云业务有明确边界,只承担硬件设计工作,目的在于让云计算的底层硬件更符合自身业务需求。阿里云还将继续与英特尔、英伟达、AMD、ARM等合作伙伴保持密切合作,为客户提供更多选择。
ARM服务器芯片阵营卷土重来?至此,全球头部的云服务厂商中,大多数都开发出或投入了自研芯片的开发,更关键的是,各家都无一例外地都选择了ARM作为芯片架构。
目前服务器芯片架构领域,X86、ARM、RISC-V是几个可选项。其中X86架构是英特尔的领地,也是目前服务器芯片架构的主流。全球几乎90%以上的服务器芯片架构为X86架构。
ARM架构则属于ARM公司,ARM架构此前普遍应用在手机通用芯片领域,在服务器领域也早有尝试。过去这些年,ARM服务器CPU一度被诸多行业人士看好,被认为有希望取代X86,或侵蚀部分X86服务器CPU市场。
AMD、高通、博通、Marvell、惠普等一大批知名公司相继参与,想要ARM在服务器领域复制在智能手机领域的成功。不过,从技术史上看,ARM 通用服务器之路并不平坦。惠普、AMD、Marvell、博通等美国厂商的ARM架构芯片均未能让其成为市场主流,高通于2018年初砍掉内部的服务器芯片部门,一些小厂在推出几款ARM服务器CPU之后,就听不到后续消息了。国内方面,华芯通做了几年后也关门了,ARM服务器一度陷入低谷。
目前,全球服务器芯片的架构仍然以X86独大,ARM与其他架构份额较小。2021年9月,IDC发布的《全球服务器季度跟踪报告》显示,X86服务器收入占全球服务器收入的90.3%,非X86(包括ARM、RISC-V等)服务器收入仅占全球服务器收入的9.7%。
数据来源:IDC
X86架构无法撼动地位很大原因是其软件生态已经非常庞大和丰富,从软件到OS都已经非常固定。不过,X86服务器芯片诞生于传统IT阶段,并非完全根据云上负载设计。在云计算场景下,不能满足一些专业场景的专业需求。
平头哥技术战略副总裁高慧曾在接受采访时表示,云计算需要降低计算成本。基于ARM架构的处理器通常核心更多、能耗更低。理论上说,在实现量产的前提下,基于ARM架构的服务器芯片和X86芯片相比,制造成本、运营成本都会更低。
因此,在云时代这个固有的格局正在改变,这就为ARM架构芯片提供了时代机会。不过ARM在服务器领域目前仍处于起步阶段,份额低,软件生态也不完善,但基于ARM架构的服务器芯片通常具有体积小、能效比强,发热量低,且价格相对低廉的特点。数据中心是能耗、占地大户,搭载ARM架构芯片的服务器可以缓解上述问题。以亚马逊、阿里云等为代表的少数有能力实现“自产自销”的云服务厂商,是有实力和能力去“消化”自己设计的ARM服务器CPU。
因此,在云计算巨头自研芯片的加持和引领下,ARM服务器的份额正在增加。
根据IDC此前发布的数据显示:2020年第三季度,基于Arm的服务器同比增长了430.5%,2020年第四季度同比增长了345%,尽管基数很小但仍在增长。当前,Arm架构处理器在服务器市场的应用正处于快速上升时期,另据Statista预测,到2028年,Arm架构处理器在数据中心和云的市场份额将从2019年的5%增长到25%,市场规模将达到580亿美元,比2019年的14倍还多。
企业们都瞄准了数据中心的巨大市场,结合其技术特性和成熟度,ARM架构在一些互联网巨头公司颇受欢迎,因此基于ARM架构来研发新的服务器芯片正在成为更多厂商的选择,包括字节跳动在内的不少互联网公司都表示将开发ARM服务器CPU。
根据TrendForce集邦咨询研究显示,近年全球企业同时面临着快速变化的市场需求,以及疫情的高度不确定性,促使企业对于云端服务的需求于近两年持续增温,无论是人工智能抑或是新兴科技的采用,云端服务凭借较弹性的成本优势成为多数企业的优先考量。预计2021年全球服务器出货成长率将逾5%。
Arm架构在云端的兴起,迎合了大数据和云计算时代对特定算力的需求,GPU、AI芯片均受益于此。除上述提到的云厂商外,包括富士通、Ampere、飞腾等厂商也均推出了Arm架构服务器芯片。
ARM服务器CPU正在“卷土重来”。
写在最后在云服务上,自研芯片带来的成本降低是巨大的。云服务头部厂商基本定型之后,价格战就成了拉拢新客户留住老用户的必经之路,Arm服务器芯片带来的高功效意味着他们可以推出定价更低的实例。
能够看到的是,Arm在服务器芯片领域的存在感已经越来越强,自研芯片的方案对于云服务厂商拥有难以抗拒的吸引力。
一定程度上,以亚马逊Graviton、阿里倚天710为代表服务器芯片的成功,证明Arm架构在云服务市场正逐步蚕食英特尔处理器的市场份额。
纵观整个服务器芯片市场,AMD步步紧逼,英特尔压力山大,而Arm阵营也正在虎视眈眈的积蓄着力量。未来服务器市场的竞争局面将会越来越复杂,同时也给后来者提供了更多机会。