半导体行业观察 · 2020年08月20日

Arm服务器芯片重磅玩家:深度揭秘Marvell ThunderX3

来源:内容由半导体行业观察(ID:icbank)编译自「anandtech」,谢谢。

在日前的hotchips 2020上,Marvell终于揭示了有关其新ThunderX3服务器CPU和核心微体系结构的的一些细节。该公司早在三月份就发了了新服务器和基础架构处理器,知道现在,他们终于就其内部CPU设计团队如何将自己与迅速增长的Arm服务器市场竞争区分开来做了更多的分享。

我们早在2018年就对ThunderX2进行了评估 ,当时的他们才被Marvell收购几个月,产品还是Cavium时代的产品。但从那时起,Arm的Neoverse N1 CPU内核和合作伙伴设计(例如来自Amazon(Graviton2)和Ampere(Altra)的合作伙伴设计)就启动了Arm服务器生态系统计划,现在这是完全不同的情况,AMD也在市场上获得了成功的回报。

Marvell从其产品路线图开始其在HotChips上的演示,他们详细介绍了ThunderX3,指出这并不仅仅是单一设计,而是代表了使用多个die的灵活设计方法,他们2020年推出的第一代的60核CN110xx SKU使用单个die的整体设计,明年将发布旨在提高性能的96核心双die变体。

像这样的双die方法的使用非常有趣,因为它代表了完全单片设计与AMD等供应商的小芯片方法之间的中间点。每个die在意义上都是相同的,因为它们可以独立用作独立产品。

从SoC的角度来看,ThunderX3芯片可扩展至60个内核,而2个die的变体最多可扩展到96。看到这些数字时,首先想到的问题是为什么2的die的变体无法扩展到完整的120核。Marvell在演讲中没有涉及到这一点,但演示中有一些线索。

Marvell表示,在相同的功率水平下,新芯片的性能比ThunderX2高出2-3倍。后者的TDP为180W,如果TX3保持此散热水平,则意味着双die设计必须将TDP增长至360W,这远远超出了典型服务器设计的散热能力和机架的功率密度。假设线性缩减至广告宣传的96个核心,则最终功耗将约为288W,这与当前没有水冷的高端服务器CPU部署更加一致。当然这是我们自己对此事的分析和考虑。

一个die支持8个通道的DDR4-3200,这是此代服务器产品的标准配置,基本上与市场上的其他产品一致。在I / O方面,我们看到了64条PCIe 4.0通道,这与竞争对手一致,但仅相当于Ampere或AMD的高端替代产品可以实现的一半。

现在一个未知数是其爽die产品如何分割I / O和内存控制器,如果这两个芯片之间的资源分配将达到50-50,或者我们是否会看到不平衡的情况设置,平台是否可以实际处理每个骰子的全部资源并将其自身转变为16通道128通道野兽?

至少在纸面上,ThunderX3看起来与亚马逊的Graviton2非常相似,因为它们都共享相似数量的CPU内核以及相似的内存和IO配置。一个人可以立即指出的更大的区别是,ThunderX3在其CPU内核中采用了SMT4,因此每个die最多支持240个线程。TDP也存在差异,但我将其归因于Graviton2的时钟频率比较保守,而Ampere的SKU更符合ThunderX3,特别是规格最接近的64核3.0GHz 180W Q64-30。

ThunderX3的另一件引人注目的是其90MB的L3缓存,这使上一代的32MB以及Ampere和Amazon的32MB配置相形见绌。

Marvell在这里选择发展自己的互连微体系结构,该体系结构现在已经从简单的环设计演变为具有三个子环或列(sub-rings, or columns)的交换环(switched ring)。Ring stops 具有4个核心的CPU块和两个具有3MB缓存的L3切片组成。这提供了具有15个ring stops(3x5列)的完整die,以及完整的60核90MB的总L3高速缓存,这是一个相当可观的数量。

在问答环节中,Marvell透露,他们采用交换环(switched ring )拓扑而不是单环或网状设计的理由是,单核无法在更高内核数下提高性能和带宽。网格设计将是一个很大的变化,并且将需要减少核心数量。交换环代表了两种架构之间的良好折衷。确实,如果这使Marvell能够提供比其最接近的竞争对手高3倍的缓存,那似乎是一个不错的选择。

我注意到的一件奇怪的事是,该系统仍在使用基于侦听的一致性算法(snoop-based coherency algorithm),这与业界其他基于目录的系统形成了鲜明对比。这可能会降低实现的复杂性和面积,但在功率效率和芯片的一致性流量方面可能会落后。

内存控制器进入环网(rings),Marvell的插槽间/芯片间CCPI3接口可提供高达84GB / s的带宽。

Triton CPU内核:Vulcan的演变

进入核心级别,我们看到了Marvell的新Triton CPU微体系结构的首次公开。该设计是ThunderX2 Vulcan内核的改进,该公司在前端和后端都扩展了内核的许多方面。

从核心的前端开始,我们看到了一些非常重大的变化,因为几乎可以看到核心中大多数结构和带宽的字面翻倍。指令高速缓存已从32KB增加到64KB,现已增加到8-wife fetch unit,这也是上一代的两倍。

就像Arm最近的微体系结构一样,这是一个新的去耦读取单元,可以节省更多功耗。解码单元与8条指令宽度的提取带宽相匹配,实际上,它与IBM的Power10内核一起代表了目前业界最广泛的解码器,这非常令人惊讶。

在中核中,我们看到解码单元送入Marvell所谓的“ Skid buffer”,该缓冲区本质上是一个循环缓冲区,每个线程分为32个微操作,进一步分为八个四宽微操作束。它是内核中在线程之间静态分配的稀有结构之一,它代表了微体系结构的前端和中间内核之间的边界。

Trition微体系结构中最有趣和最令人困惑的部分是内核的这一部分,即使内核的获取和解码单元为8宽,微操作也会从Skid-buffer进入重命名单元并进行调度。但到内核的后端,每个时钟仅发生4微操作。因此,这里似乎正在发生的事情是,Marvell正在利用非常广泛的前端设计,而不是大型后端,他们似乎在隐藏什么。

到内核的后端,我们看到继续使用馈入7个执行端口的全局统一调度程序。在调度程序级别,我们看到条目从60增加到70。

内核的无序窗口有所增加,例如重排序缓冲区(ROB)从180个增加到220个条目。

在执行端口上,最大的变化是增加了能够执行ALU指令的第四个执行pipeline和第二个分支端口,这意味着我们看到简单整数ALU执行吞吐量提高了33%,并且分支转发量增加了一倍。除了这些改进之外,所有四个执行pipeline都已通过FP / SIMD功能进行了扩展,这意味着这些指令的吞吐量现在已成倍增长,使Triton内核成为其中罕见的4x128b机器之一。

在核心的内存子系统部分,改进相对较小,因为我们似乎没有对微体系结构进行重大的高级更改。我们仍然看到两个负载存储单元和一个存储数据单元,每个单元的带宽为16字节/周期,从32KB L1数据高速缓存中馈送和提取数据。加载和存储队列的深度已增加,加载的条目分别从64个增加到80个,存储的条目增加了36个到48个。

内核的L2也从256KB增加到512KB,但Marvell在此更改时的措辞很有趣,因为他们说它仅以“较小的增量性能优势”增加了面积和延迟,这听起来令人失望。我们将在下一张幻灯片中看到2.5%。

硬件预取器非常简单,传统的下一行,跨步和基于区域的设计将数据提取到L2中。

总体而言,新内核的世代IPC改进在SPECint中总计提高了30%,Marvell足够慷慨地向我们提供了新内核功能的概述,以及每个功能如何占总改进:

从结构方面来看,最大的改进是由于中核的OoO增长更大,尽管增长并不大,但IPC却提高了5%。与其他一些将L1I和L2缓存增加的结构加倍相比,这似乎是一个很好的折衷,这只会带来0.5%和2.5%的收益。

前端的加倍和从4到8的更宽解码仅带来性能2%的提高,这是非常温和的,但由于中核范围狭窄的dispatch和后端执行相对较窄,这可能会成为瓶颈。

IPC的最大改进是由于减少了解码器的微操作扩展。Marvell在此表示,他们在ThunderX2 Vulcan内核上就此方面过于积极,无法将指令扩展为多个微操作,因此他们已大大降低了这一点,这可能减轻了中核的瓶颈,并使每个实际指令的后端利用率更高。

IPC增益和频率增益的代代性能改进,我们预计SPECint将获得1.5倍的增益。考虑到我们在TX2上的历史数据,通过这些预测,我们应该期望TX3的性能比Graviton2好10%左右。

由于新设计具有更高的核心数量,进一步扩大了微体系结构的改进,因此SPECrate增益自然会更高,约为性能的2.5倍。

SMT4细节:每个内核四个线程

使Thunder系列在竞争中脱颖而出的原因之一是它包含4路SMT,这意味着每个内核最多可以执行4个线程。

从OS来看,每个线程都被视为完全独立的CPU,每个线程都有其自己独立的Arm架构状态,在绝大多数内核资源中共享了极少数例外,例如上述的Skid Buffer。

微体系结构一直是多线程的,但是Marvell继续重新考虑了SMT的区域影响,并透露它仅占用5%的内核。

该公司进一步详细介绍了SMT的一些机制,例如线程之间的仲裁机制。例如,在获取阶段,内核将选择当前在内核pipeline中使用的指令量最少的线程,以确保在线程之间平衡微操作和指令的数量。我们在调度阶段看到了类似的逻辑,流水线中下游指令最少的线程是从Skid Buffer中挑选出来的。

后端没有线程的概念,仅执行最早的微操作。对于具有最多备份说明的线程,优先考虑退出。

Marvell说,该线程仲裁( thread arbitrations )在大多数代码上都可以很好地工作,线程之间的执行延迟非常统一。

SMT可以带来的加速与给定工作负载的IPC成反比,这意味着低IPC工作负载将带来SMT的最大改进。描述这种情况的另一种方式是以数据平面为中心的工作负载,这些数据对于执行执行的数据提取具有较高的延迟,因此更适合于通过SMT隐藏内核的这些瓶颈和空闲周期。

将其转换为 socket-level的性能,我们可以看到最多可扩展到60个内核,这实际上是处理器的物理内核数量,而次线性的却可以扩展到240个线程,但仍然相当可观。从SMT4到Marvell内核的面积影响很小,从60线程到240线程的性能提高了大约60%,这是一个不错的收益。

当被问及其ThudnerX3在竞争中的地位如何时,Marvell说,与基于Intel的产品相比,该公司在单线程性能方面将稍有落后,但将提供更大的多线程吞吐量。与AMD(假设罗马)相比,TX3在单线程性能上表现更好,而AMD在数据共享率低的工作负载方面处于领先地位,尽管TX3在数据共享更多的工作负载(例如数据库应用程序)中表现更好。Graviton2被认为是非常好的芯片,尽管它提供了低频且不提供线程支持,因此TX3会在这些方面更好。

总体而言,TX3似乎是当前服务器领域的可靠选择,但是尽管他提供SMT支持,但我并不认为它有多与众不同。我觉得CPU的微体系结构仍然很狭窄,尽管IPC的改进在世代上都是不错的,但Marvell的发布间隔也比Arm更长。在这方面,仅稍微击败Graviton2似乎还不够,我确实希望基于Altra的设计会更快。

我们必须看看ThunderX3如何在性能和功率效率方面达到最终目标,但是除了可以充分利用SMT的数据平面繁重的工作负载之外,我觉得对于Marvell来说,舒适性竞赛可能太接近了。对于消费者和企业而言,这两种方式都令人兴奋,因为这意味着我们将在不久的将来拥有大量可行的选择。

Hot Chips 2020:Marvell ThunderX3

在日前举办的Hot Chips 2020会议上,Marvell从其产品路线图开始演示,详细介绍了ThunderX3代不仅是单一设计,而且实际上代表了使用多个die的灵活方法,其中今年发布的第一代60核CN110xx SKU将使用单个die,明年将发布旨在提高性能的96核dual-die 版本。

从SoC的角度来看,ThunderX3芯片可扩展至60核,而dual-die 版本最多可扩展到96核。Marvell宣称在相同的功率水平下,ThunderX3性能比ThunderX2高出2-3倍。在问答环节中,Marvell透露,他们采用交换环拓扑而不是单环或网状设计的理由是,单核无法在更高内核数下提高性能和带宽。网格设计将是一个很大的变化,并且将需要减少核心数量。交换环代表了两种架构之间的良好折衷。

以下是演讲PPT内容:

收藏举报投诉




推荐阅读
关注数
11298
内容数
1936
最有深度的半导体新媒体,实讯、专业、原创、深度,50万半导体精英关注。专注观察全球半导体最新资讯、技术前沿、发展趋势。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息