18

半导体行业观察 · 2021年05月04日

苹果芯片的下一个目标:服务器?

来源:内容来自半导体行业观察(ID:icbank)编译自medium,谢谢!
苹果M1芯片凭借着优越的性能及低功耗,成功走入大众视野。那么苹果能否开始为服务器市场制造芯片?如果不能,又是什么阻止了他们?

Mac Mini 机架

没错,我们知道苹果的M1芯片运行速度非常快。那么是什么阻止了他们在未来用自己的芯片占领服务器市场?我将从以下几个方面来回答这个问题:

  • 什么样的芯片才能称作是“好”的服务器芯片?与台式计算机相比,服务器会对微处理器会有不同的要求吗?
  • 通过比较ARM和x86的商业模式,来更好地了解两者是如何以完全不同的方式运作。
  • ARM的竞争究竟是什么样的?我们来看看一些知名的ARM芯片制造商:亚马逊(Amazon)和安晟培(Ampere),他们的技术和商业模式是什么?他们与苹果的M1相比有什么优势?
  • 芯片制造正在发生范式转变。芯片的制造方式已经不同了,随着时间的推移,这将如何影响市场的发展?
  • 苹果进入服务器市场有哪些优势和劣势?我们将讨论苹果独特的垂直整合优势。
  • 苹果在消费市场的独特优势如何在服务器市场上与之抗衡。

什么才能称作“好”的服务器芯片

在服务器市场上有许多不同的工作流。正如我在《苹果M1芯片为何如此之快》一文中所讨论的,服务器的需求往往与台式机截然不同。在这里,我将用一个例子来说明服务器如何处理来自多个用户的多个请求,这些请求通常不是CPU密集型的。例如,提供网页或从数据库获取数据就不是CPU密集型的,在这种情况下,能够并行执行多个任务更为重要。因此,具有大量内核的CPU是非常有利的。

这一点与苹果M1或A14芯片的设计方式相反,它们的设计是拥有几个非常强大的内核,这一点在视频编辑、玩游戏、画画等方面更为重要。

因此,在这个领域有其他ARM CPU设计得更好,让我们来看看这其中的一些,并将它们与苹果的M1芯片进行比较。

但为了确保您真正了解我在说什么,这里我们先来简单介绍一下CPU指令集。

ARM与x86的简单对比

苹果生产的芯片称为苹果硅(Apple Silicon),AMD生产Ryzen芯片,英特尔生产的芯片通常称之为酷睿(Intel Core),高通公司生产骁龙(Snapdragon)芯片,安晟培制造Altra芯片。然而,所有这些微处理器生产商生产的芯片分为两类:ARM和x86,这基本上就是这些芯片使用的指令集的名称,可以将其视为每个芯片使用的语言。

这是一个粗浅的比较,下面是5条ARM指令,它们将数字4和5加载到两个单独的寄存器r1和r2中。寄存器是微处理器(CPU)中的允许执行运算的存储位置。

我们添加一些数字,然后将它们存储在RAM中的内存位置24。我将不会进一步对它进行详细说明,因为它在本文中并不重要。

LDR r0, #24
LDR r1, #4
LDR r2, #5
ADD r1, r1, r2
STR r1, [r0]

在x86架构的芯片上,使用的指令会略有不同:

MOV ax, 4
MOV bx, 5
ADD ax, bx
MOV 24, ax

在本例中,我们在加法之前将数字放到名为ax和bx的寄存器中。这里的关键是ARM和x86基本上是不同的语言。写在ARM上运行的程序不能在x86上运行,反之亦然。如果你想在基于ARM的处理器上运行x86程序,你需要使用翻译服务,比如苹果的rosetta2,它可以将x86代码翻译成ARM代码。

Intel和AMD生产x86 CPU,这意味着即使你写了一个可以在在Intel处理器上运行的程序,它也会在AMD处理器上运行。同样,为苹果硅芯片编写的程序也可以在高通骁龙、安晟培Altra芯片和亚马逊的AWS Graviton芯片上运行。

这是ARM相对于x86的优势之一,有很多不同的公司都在生产ARM芯片。这还有一个复杂的因素。

ARM公司不仅仅设计ARM指令集,他们还创建了完整的设计,我们也可以称之为ARM芯片的微体系结构。现代的CPU实际上是由多个CPU内核组成的,ARM设计的就是这样的内核。ARM设计了一个名为Neoverse N1的CPU内核。亚马逊和安晟培向ARM公司付费来使用这种设计进而创建自己的CPU,他们来决定如何尽可能的将这些Neoverse N1内核设计出他们想要的芯片。他们想要多少缓存内存、这些内核应该如何连接,他们可以从其他地方购买设计许可证。

但这不是唯一的办法。例如,苹果的M1和A14处理器使用的是ARM有限公司授权的ARM指令集,但苹果使用的是自己定制的CPU内核firestrom和Icestorm。

在进行比较时要注意这一点。来自不同公司的许多ARM芯片在相同核数下的性能将非常相似,而苹果却有点离群。

在x86世界中,没有内核设计的共享。英特尔和AMD都有自己的内核,因此它们的性能特征可能会有很大的不同。

好了,现在我们有了一些背景,我们可以开始比较苹果的M1和现有的ARM芯片,瞄准服务器市场。

亚马逊AWS Gravition 处理器

亚马逊一直在为AWS云服务(AWS-Graviton)制造自己的ARM处理器。最新的化身是Gravition 2。这些处理器基于1ARM有限公司的Neoverse N1内核许可。

因此,在制造这些产品方面所付出的努力与苹果公司所做的并不具有可比性。从性能上看,这些内核与M1上的Firestorm内核完全不同。AnandTech对Graviton2进行了多项性能测试,并与图中的竞争对手进行了对比。不过,这是在M1之前发布的,所以我对AnandTech的M1进行了后期性能测试,并添加到同一个图中进行比较。

好吧,这些怪东西是什么意思,比如433.milc和444.namd?这些是用C++编程语言编写的特定程序的名称。在进行性能测试时,这些程序在不同的微处理器上运行。通过总是使用完全相同的程序,我们能够比较微处理器。每个程序都以不同的方式挑战微处理器。一个CPU并不是在所有方面都同样出色。

因此,每一列代表每个微处理器在运行特定程序时得到的分数。你可以看到黄色的Apple M1和红色的Ryzen 9 5950x覆盖了每列中最大的区域,因为它们的得分最高。

相比之下,蓝色的Gravition 2的面积相当小。这个性能测试不是针对整个芯片,而是针对单个CPU内核。在这种情况下,我们可以看到,Gravition所使用的Neoverse N1内核明显弱于苹果的Firestorm内核和AMD的Zen3内核。

所以看起来几乎每个人都在打压亚马逊。例如,AMD能不能就这样闯入,用他们的旗舰基于Zen3的CPU抢占市场?没那么快!亚马逊并不愚蠢。这里还有很多要考虑的。如前所述,内核的数量在云中非常重要。M1的内核只有4个firestrom,而Amazon的Graviton2有64个Neoverse N1内核。

但更重要的是,今天的微处理器已经变得如此便宜,相对于它们的强大功能而言,在芯片的整个生命周期中,驱动这些芯片所需的电力要比芯片本身要多得多。

Infoq对此进行了更详细的讨论,但让我挑一点。例如,Intel Xeons解决方案与Graviton2相比耗电420瓦,而AMD的EPYC则耗电180瓦。相比之下,Graviton2的64核功耗仅为80-110瓦。

这些在电源和冷却方面的节省转化为Amazon在ARM上提供比x86更多计算能力的能力。根据AMAZON AWS、的说法,它们能够以比同等x86解决方案低40%的价格完成相同的工作负载。

Amazon EC2 T4g、M6g、C6g和R6g实例及其带有本地基于NVMe的SSD存储的变体,与可比较的当前一代基于x86的实例相比,提供了高达40%的性价比。

面向新的制造业范式

这也强调了我们目前所处的不断变化的计算环境。像亚马逊这样的大公司现在越来越能够根据自己的特定计算需求构建内部解决方案。Graviton2不是现成的(买来直接能用的)。由于不同芯片的IP(知识产权)现在可以在各地购买,并结合起来创建自己的微处理器,任何人制造芯片的门槛都大大降低。

Brick Arms的一个产品,是制造业如何面向大众的一个范例

这并不是计算机行业独有的。这种事到处都在发生。威尔·查普曼(Will Chapman)是一名软件开发人员,他发现尽管他只是一个人,但他可以进入制造业。他创立了BrickArms,为乐高迷你角色制造史诗级的塑料武器。今天你可以在家里用三维建模软件设计一个零件,然后把你的设计上传到中国的工厂,工厂将为你量产。这些工厂现在生产小规模的产品,所以你不必成为一个大企业就可以开始。

Ponoko举例说明了这一趋势。他们自称为你的私人工厂。你可以上传设计和他们的设施将三维打印和激光切割部分根据你的设计,其他人可以购买。因此,任何一个独自坐在家里,资金最少的人都可以从事制造和销售商品的业务。你在图书上也看到了同样的情况,亚马逊将按需印刷图书。因此,即使你的书很少卖,也有可能印刷出来。

谷歌、特斯拉、Facebook、亚马逊等都在利用这一全球趋势。他们今天都自己制造硬件。谷歌制造专门的机器学习硬件,用于他们的数据中心,称为张量处理单元。它们的用途与苹果M1芯片上的神经引擎类似。

张量处理单元3.0.谷歌定制的用于机器学习加速的硬件

特斯拉还制造了自己的汽车电脑,以加速机器学习模型的运行,帮助他们提高自驾服务所需的巨大处理能力。别把它和英伟达的特斯拉卡混淆了。

这种趋势正在加速。谷歌正忙着为他们的Android手机制造自己的ARM芯片。我认为,我们将越来越多地看到大型科技公司根据自己的需求设计自己的定制硬件,因为你可以很容易地买到现成的设计。当你设计了一个芯片,它只是将蓝图传输到一个大型芯片铸造厂,如台积电建立它就解决了的问题。就像BrickArms的拥有者Will Chapman一样,他可以将自己的乐高武器设计图运送到中国的某家工厂,该工厂立即开始使用塑料注射成型来生产这些零件。

接下来,让我们看看ARM服务器芯片市场上的另一个竞争对手。

安晟培(Ampere Computing)

Ampere Computing(安晟培)是一家成立于2018年的新公司,其目标是为所有非亚马逊的云提供商提供ARM服务器处理器,因此无法获得Graviton2。

然而,安晟培有很多有趣的地方值得一谈,特别是与M1相比。每个内核的性能可能与Graviton2类似,因为它基于ARM有限公司设计的Neoverse N1 CPU内核。

但这就是区别的终结。安晟培有一些独特的方案选择:

  • 极多内核。他们目前的Altra有一个惊人的80内核。但他们正忙于制造将采用128核的Altra Max。
  • 你可以在主板上安装两个这样的芯片。因此,你可以得到一台电脑共160内核。他们下面的Mt. Jade 平台就是一个例子。搭配可后向兼容的Altra Max,你可以得到一台256核的电脑!
  • Altra旨在为每个内核提供确定性性能。那是什么意思?通常,当你有多个内核时,一个核的活动会导致另一个核的性能突然下降。云客户不希望由于其他客户的活动而导致性能突然下降。因此,这是安晟培的一个主要卖点。
  • 大规模扩展能力。你可以连接很多内存,硬盘,显卡,神经网络计算卡和其他形式的加速卡。加速器是一种特殊的卡片,可以让特定的任务运行得更快,比如视频编码或机器学习。

Mt. Jade 平台:双插座机架式服务器。这是一个带有两个Altra CPU的云计算机架。每个CPU有80个内核,因此这台机器一共有160个内核。

因此,如果我们要与苹果的M1相比,我们可以看到一些明显的差异。Graviton2和安晟培的内核可能都很弱,但M1只有4个快内核和4个慢内核。

与M1不同的是,Ampere芯片并没有搭上异构计算的马车。它没有专门用于加密、机器学习、图像处理或视频编码的芯片。在《苹果M1故事》中,我提到PC行业很难复制苹果的异构策略,因为该行业将有许多参与者,他们需要协调和同意这些专用芯片应该是什么,否则就会造成完全的混乱。

这确实是安晟培面临的一个问题,因为他们只生产硬件,而不像苹果那样控制软件。因此,安晟培公司表示,他们认为现在增加专门的合作者还为时过早。他们正在等待行业标准的确立。苹果不需这样——苹果公司生产的软件可以访问他们的硬件设备如神经网络加速引擎,因此他们可以确保软件和硬件匹配。硬件和软件供应商之间不需要协调。

主板上的PCIe插槽示意图:有一个带1个通道的插槽,一个带16个通道的插槽——可以传输16倍的数据。您可以将显卡,网卡或其他专用卡放入这些插槽。

到目前为止,安晟培的解决方案是支持许多PCIe通道。什么是PCIe通道?可以将PCIe通道视为数据的管道或者流水线。这些管道越多,可以连接的外部硬件就越多。PCIe标准允许你将其中多达16个管道连接到一个外部硬件卡(如图形卡)或硬盘驱动器。他们还增加了对CCIX标准的支持——CCIX允许类似于苹果统一内存架构的东西。它允许外部图形卡上的GPU和安晟培CPU共享内存中的数据。不需要显式地将数据块从一个内存位置复制到另一个内存位置。

苹果进军服务器界的优劣

到目前为止,我们所讨论的可能会开始给大家一些权衡利弊的直觉。

苹果有一个优势,他们控制着整个小部件,但这只适用于同时使用硬件和软件的情况。因此,要充分利用苹果的异构计算能力,实际上你需要在云中运行macOS,而不是Linux,不是FreeBSD,当然也不是Windows否则,苹果将不得不等待Linux、BSD、Windows等支持的行业标准出现,然后根据这些标准来定制硬件。这苹果可不太可能同意。

同时,我也怀疑苹果是否愿意销售不运行其软件的解决方案。这使潜在用户陷入困境。macOS是Unix操作系统,这意味着许多Linux和BSD软件将在它上面运行良好,只需很少的改动。然而,macOS并没有真正针对服务器使用进行优化。Linux内核开发人员非常关注这一点,这推动了他们的开发工作。例如,macOS高度关注低延迟等方面,以处理实时音频和视频等问题。这些用例对从事视频和音频工作的专业人员很重要。这是苹果DNA和传统的一部分。

因此,开发人员可能会面临在macOS上运行并获得优异性能的选择,但却错过了他们喜欢的定制和完全开放的Linux。请记住,Docker等云软件的关键技术需要Linux内核才能运行。

Docker只是众多技术示例中的一个,它在服务器空间很大,而且是为Linux量身定做的。

然可以通过虚拟化在macOS上运行Linux,但是你也失去了对苹果特定框架的访问,比如Core Audio、Core ML等,这些框架使用定制的苹果协处理器。

需要记住的是,对于不能使用苹果专用硬件的服务器工作负载,可能没有充分的理由选择苹果解决方案。像苹果那样制造大型高性能内核并不是一个神奇的解决方案。这是一个深思熟虑的选择,因为他们的用户没有可以轻松利用大量CPU核的工作负载。

对于可以使用大量内核的情况,比如云服务,苹果的解决方案可能没有优势。亚马逊和安晟培只要拥有更多的内核,就可以在性能上与苹果媲美。目前,苹果只在只有4-8核可供使用的工作负载(如在现代电脑游戏中)上赢得这场竞争。

导读:32-Core Apple Silicon Macs in 2021?

苹果可能大放异彩的地方

所有的云服务都不完全一样。对于高性能计算和机器学习服务,我们希望以较低的功耗获得大量的数字处理能力。在这方面,M1芯片也许能打败所有人。由于其特殊的协处理器,它在进行高度密集的数学运算时所能提供的性能非常出色。

传言还说,苹果公司将生产多达128个GPU核的芯片。GPU往往在许多科学数字运算应用程序中占据主要优势。相比之下,Ampere和Amazon没有任何可利用的集成GPU。

研究人员可能不得不接受这样一个事实:他们需要运行macOS,因为使用苹果的解决方案可能会节省太多的钱。

因此,如果苹果要进入服务器领域,他们不应该瞄准普通服务器市场,托管网站、数据库等。他们应该专注于:

  • 数据分析。
  • 高性能计算(HPC)
  • 机器学习(ML)

为什么我不认为苹果能在服务器领域成功

虽然我已经阐述了为什么苹果可能提供强大优势的原因,而且我是苹果的超级粉丝,但我必须对我所知道的苹果历史保持现实。苹果根本没有良好的业绩记录。

他们放弃了MacOS X服务器。他们抛弃了专用的服务器机架式计算机。而在iCloud之前,他们的数据同步服务的记录相当糟糕。

苹果真的很擅长他们所做的,但在史蒂夫·乔布斯从未热衷于的领域,如B2B和游戏,苹果从未成功地把它做大。苹果电视本来是一款可以与任天堂竞争的好主机,但是苹果完全没有抓住这个机会,因为它提供了一个几乎完全不适合玩游戏的手柄。

苹果不是一个好的B2B的公司有几个原因,与他们的DNA紧密相连。是什么造就了苹果?我们对苹果的了解和热爱是神秘的。他们多年来一直在秘密研究新的革命性产品。然后他们突然冲上舞台,向我们展示了一些我们从未见过的东西,然后宣布你可以在明天(或半年后)购买。

为了让兴奋和敬畏真正起作用,你需要完全保密。在产品发布之前,你需要开发出一个真正的产品。我们在典型的苹果开发中看到了这一点。他们发布了一个令人震惊的公告,其产品超越了其他所有人。我们都排着队去拿。但随着时间的推移,我们注意到苹果产品开始落后于竞争对手,因为他们根本不做频繁的更新。

索尼的PlayStation5。苹果的产品很像游戏机——他的出现是革命性的,但往往在更长的时间里落后于竞争对手。

苹果产品之所以这么好,部分原因是因为苹果花时间真正打磨和完善自己的产品。但这意味着不会有稳定的改进版本定期推出。在这方面,苹果的运营方式与主机市场非常相似。通常,当一款新游戏机发布时,它们会彻底摧毁价格相近的游戏PC。然而,随着时间的推移,PC往往会缩小这一差距。

像苹果产品这样的游戏机是终极消费品。顾客想要高兴和眼花缭乱。这就是为什么这些东西在发布时带来了巨大的改进和漂亮的新设计。

这不是服务器市场的运作方式。该行业需要清晰的路线图和透明度。他们想知道苹果公司正在计划什么,他们目前在做什么,他们能期待什么。这些人必须做出长期的战略决策。在圣诞节等待惊喜,并不是个成功的运营企业的模式。

这些完全不同的需求总是让苹果很难与商业客户打交道。苹果想要严密的控制和精简的产品,而企业需要开放和灵活的解决方案。要想在服务器市场或企业对企业市场取得成功,苹果必须变得更像微软,我相信这是苹果最不希望看到的,也是他们的粉丝们最不希望看到的。微软与苹果所代表的恰恰相反。

微软不惜一切代价保护向后兼容性,例如在商业上有巨大价值的兼容性。但它也拖累了微软,并创造了混乱复杂的解决方案,受到遗留问题的阻碍。相比之下,苹果残酷地打破过去,创造出新的闪亮解决方案。他们在路上惹恼了很多顾客,但当我们拿到他们闪亮的新产品后,我们很快就忘记了这些违规行为。

苹果能在服务器领域起什么作用

我认为苹果与亚马逊、安晟培、谷歌和其他公司合作,将ARM打造成x86的强大替代品,而不是自己制作服务器解决方案,这要现实得多。这些公司都对此感兴趣。有了ARM,所有的大玩家都可以按照自己的需求定制解决方案,而这是x86所无法做到的。

但这个难题有两个部分。你需要服务器硬件,但你也需要流行的台式机和笔记本电脑运行ARM。如果这些都不流行,那么开发人员就不会开发出足够的ARM经验。Linus Torvalds已经讲的非常清楚,(如此的话)家庭计算机需要运行与服务器相同的硬件。

随着我们现在看到的围绕M1的兴奋,基于ARM的计算机可能会有一个重大的发展,这意味着Amazon和其他公司将最终拥有一大批拥有基于ARM的机器的开发人员,他们可以开发运行在他们的Graviton2芯片上的服务。这会让雪球滚起来的。一切都是为了达到临界质量——只要有足够多的人在ARM上运行,就会达到一个转折点——每个人都会希望将他们的服务转换到更便宜的ARM云服务。

这可能意味着大量开发者和其他专业人士涌入苹果平台。或者至少在个人电脑行业能够想出一个可行的ARM替代方案之前。正如我在前面的故事中所讨论的,我认为这需要时间。苹果现在可能有好几年的时间,在这几年里,他们将比其他个人电脑行业享有持久的优势。

最终个人电脑行业将标准化并迎头赶上。然而,一旦人们习惯了Mac平台,他们通常不会离开它。因此,这可能意味着苹果的市场份额将永久性提高。

推荐阅读
关注数
11090
内容数
1795
最有深度的半导体新媒体,实讯、专业、原创、深度,50万半导体精英关注。专注观察全球半导体最新资讯、技术前沿、发展趋势。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息