半导体行业观察 · 2021年10月26日

万字剖析苹果M1 Pro和M1 Max芯片

来源:内容由半导体行业观察(ID:icbank)编译自「anandtech」,谢谢。
上周,Apple 推出了他们的新一代 MacBook Pro 笔记本电脑系列,这是一系列新的旗舰设备,为公司的专业和以高级用户为导向的用户群带来了重大更新。新设备的与众不同之处在于,它们现在由 Apple 自己芯片系列中的两个新产品提供支持,即 M1 Pro 和 M1 Max。我们已经在上周发布的文章《Apple 发布史上最强芯片:M1 Pro 和 M1 Max》中对其进行了初步揭示,今天,我们将对其进行深入解读。

M1 Pro:10核CPU、16核GPU、337亿晶体管

让我men从两者中较小的 M1 Pro 开始,该设计似乎是第一代 M1 芯片的新实现,但这一次从头开始设计,以扩大规模并提高性能。在我们看来,M1 Pro 是这两种设计中更有趣的一种,因为它提供了高级用户认为在升级方面具有重要意义的所有功能。

在这个SoC 的核心中,我们发现了一个新的 10 核 CPU 设置,它采用 8+2 配置,有由8 个性能 Firestorm 内核和 2 个效率 Icestorm 内核组成。我们在最初的报道中表示,Apple 的新 M1 Pro 和 Max 芯片如果使用的不是和M1同一代的CPU IP,那么他们就使用了与 M1 相似的 CPU IP,而不是将其更新到正在使用的新一代内核A15。 我们似乎也可以证实这一点,因为与我们在 M1 芯片上发现的相比,我们没有看到内核的明显变化。

CPU 内核的时钟频率峰值最高可达 3228MHz ,但频率会根据集群中活动内核的数量而有所不同,在 2 核活动时,频率降至 3132,在 3 和 4 核活动时,则降至 3036 MHz。之所以我说“每个集群”,那是因为 M1 Pro 和 M1 Max 中的 8 个性能核心确实由两个 4 核集群组成,两个集群都有自己的 12MB L2 缓存,并且每个集群都能够相互独立地为它们的 CPU 提供时钟,所以实际上可以在一个集群中有四个活动核心,频率为 3036MHz,另一个集群中有一个活动核心,频率为 3.23GHz。

系统中的两个 E-core 时钟频率高达 2064MHz,与 M1 不同,这次只有两个,但是,Apple 仍然为它们提供了完整的 4MB L2 缓存,与 M1 和 A 系列芯片相同。

这两款芯片的一大特点是显著增加了内存带宽和接口——M1 Pro 配备 256 位 LPDDR5 内存,速度为 6400MT/s,对应于 204GB/s 的带宽。这明显高于 68GB/s 的 M1,也普遍高于仍然依赖 128 位接口的竞争对手笔记本电脑平台。

我们已经能够识别出“SLC”(我们称之为系统级缓存),M1 Pro 为 24MB,M1 Max 为 48MB,比我们最初推测的要小一点,但是考虑到 SRAM 芯片面积,这意味着比 M1 上的每块 SLC 增加了 50%。

M1 Max:570 亿晶体管的 32 核 GPU 怪物

M1 Max 是两种设计中较大的一个。从基本的角度来看,除了 GPU 之外,它与 M1 Pro 基本相同,但它们在媒体编码器上翻了一番。

该芯片的 GPU 和内存接口是迄今为止该芯片最具差异化的方面,这个芯片不是使用16 核 GPU设计,而是将其翻倍至 32 核单元。在我们今天测试的 M1 Max 上,其GPU 的运行频率高达 1296MHz——对于我们认为的移动 IP 来说,这相当快,但仍然比我们在 GPU 现在可以运行的传统 PC 和控制台空间中看到的,高达 2.5GHz 左右的频率要慢得多。

Apple 还在内存接口上进行了翻番,使用了 512 位宽的 LPDDR5 内存子系统——这在 SoC 中是闻所未闻的,甚至在历史上的独立 GPU 设计中也很少见。这为芯片提供了高达 408GB/s 的带宽——芯片上的各种 IP 块如何访问这些带宽是我们今天要研究的问题之一。

该芯片中的内存控制器缓存为 48MB,理论上可以为各种 SoC 块提供更大的内存带宽,并减少片外 DRAM 流量,从而降低芯片的功耗和能源使用。

Apple 最初提供的M1 Max die shot有点奇怪,因为我们不确定它是否真的代表了物理现实——尤其是在芯片的底部,我们注意到似乎有一个翻倍的 NPU——这是 Apple 没有的不正式透露。双重媒体引擎是有意义的,因为这是芯片功能的一部分,但是,在我们获得第三方芯片以确认这确实是芯片的外观之前,我们将避免在这方面进一步推测.

巨大的内存带宽,但不是为每个块准备

M1 Max 的一个非常有趣的方面(对于 M1 Pro 可能不那么有趣)是可用于 SoC 的海量内存带宽。

Apple 在发布期间热衷于推销他们的 400GB/s 数字,但这个数字太疯狂了,以至于关于芯片如何能够利用这种带宽的问题还有很多悬而未决,这是是首先要调查的事情之一。

从我们的内存延迟测试开始,与我们在 M1 上看到的数据相比,新的 M1 Max 显著改变了系统内存行为。在内核和 L2 方面,没有任何变化,因此我们没有看到结果有太大变化——它仍然是 3.2GHz 峰值内核,在 3 个周期的负载——负载延迟下具有 128KB 的 L1D,和一个 12MB 的 L2 缓存。

事情完全不同的是,当我们进入系统缓存时,它的数字不是 8MB,在 M1 Max 上它现在是 48MB,并且在延迟图中也更加明显。虽然大得多,但它显然也比 M1 SLC 慢——这里的确切数字取决于访问模式,但即使是线性链访问也表明数据必须比 M1 和相应的 A 芯片传输更长的距离。

DRAM 延迟,尽管理论上 M1 Max 在带宽频率方面更快,但这一代会上升。在 128MB 的可比测试深度下,新芯片大约慢了 15ns。更大的 SLC、更复杂的芯片结构,以及新 LPDDR5 内存可能更糟糕的时序都可能会增加我们在这里看到的回归。实际上,由于这一代 芯片的SLC 大得多,由于更高的缓存命中率,M1 Max 的工作负载延迟应该仍然较低,因此性能不应下降。

HPC 行业中的很多人都对具有如此巨大带宽的芯片非常感兴趣——不是因为他们关心 GPU 或 SoC 的其他负载引擎,而是因为 CPU 能够访问如此巨大的带宽的可能性,否则只能在更大的服务器级 CPU 上实现,而这些 CPU 的成本是新款 MacBook Pro 的售价。这也是我测试的第一件事 ——确切了解 CPU 内核可以访问多少带宽。

不幸的是,这里的消息并不是我们希望的最佳情况,因为 M1 Max 无法仅从 CPU 端完全饱和 SoC 带宽;从单核的角度来看,也就是从单个软件线程来看,这款芯片的表现令人印象深刻,因为它能够将内存结构增加到高达 102GB/s。这是非常令人印象深刻的,并且在多个方面都优于业内任何其他设计,我们已经注意到 M1 芯片能够通过单核完全饱和其内存带宽,而瓶颈一直在 DRAM 本身。在 M1 Max 上,我们似乎达到了内核所能做的极限——或者更准确地说,是 CPU 集群所能做的极限。

12MB 和 64MB 之间的小峰应该是 48MB 的 SLC 大小,12MB 数字处的 BW 减少表明,在将缓存线驱逐回上层内存系统时,内核的带宽在某种程度上受到了限制。我们在这里的测试包括读取、修改和写回缓存行,读/写比为 1:1。

从 1 个内核/线程到 2 个,系统实际做的是将工作负载分散到 SoC 的两个性能集群中,因此两个线程都在自己的集群上,并且可以完全访问 L2 的 12MB。12MB 之后的“驼峰”减小了大小,现在提前结束为 +24MB,这是有道理的,因为 48MB SLC 现在在两个内核之间共享。这里的带宽增加到 186GB/s。

添加第三个线程,集群之间有点不平衡,DRAM 带宽达到 204GB/s,但第四个线程使我们达到 224GB/s,这似乎是 CPU 能够实现的 SoC 结构的限制,因为在这一点之外添加额外的内核和线程根本不会增加 DRAM 的带宽。只有当自己集群中的E-cores加入时,带宽才能再次跳升,最高可达243GB/s。

虽然 243GB/s 是巨大的,并且超过了业内任何其他设计,但它离芯片能够达到的 409GB/s 仍然相去甚远。更重要的是,对于 M1 Max 而言,它仅略高于 M1 Pro 的 204GB/s 限制,因此从仅 CPU 工作负载的角度来看,如果只关注 CPU带宽,那么Max 似乎没有意义。

这就引出了一个问题,为什么 M1 Max 具有如此巨大的带宽?自然会想到 GPU,但是在我的测试中,我很难找到足以对 GPU 施加压力以利用可用带宽的工作负载。当然,这也是缺乏工作负载的问题,但对于实际的 3D 渲染和基准测试,我还没有看到 GPU 使用超过 90GB/s(通过系统性能计数器测量)的带宽。虽然我确信 GPU 能够伸展双腿,但我们还无法识别它们。

来到芯片的SoC、媒体引擎、NPU 上的所有其他内容,以及只会同时对芯片的所有部分施加压力的工作负载。M1 Pro 和 Max 上的新媒体引擎现在可以解码和编码 ProRes RAW 格式,上面的剪辑是 5K 12bit 样本,比特率为 1.59Gbps,而且 M1 Max 不仅可以实时播放-,还能够以数倍的速度完成,无缝立即搜索。在我的 5900X 机器上做同样的事情会产生个位数的帧。搜索时的 SoC DRAM 带宽约为 40-50GB/s – 我想同时对 CPU、GPU、媒体引擎施加压力的工作负载将能够利用完整的系统内存带宽,并允许 M1 Max 伸展双腿,使自己与 M1 Pro 和其他系统有更多区别。

功率行为:没有真正的 TDP,但范围很广

去年,当我们评测 Mac mini 中的 M1 时,我们根据设备的wall-power进行了一些粗略的功率测量。从那时起,我们学会了如何读出 Apple 的单个 CPU、GPU、NPU 和内存控制器功率数据,以及宣传的总封装功率。我们在此处针对 16 英寸 MacBook Pro 重复练习,重点关注芯片封装功率,以及交流有源墙壁电源,即设备负载功率减去闲置功率。

Apple 没有宣传设备芯片的任何 TDP——我们的理解是根本不存在,芯片和笔记本电脑功耗的唯一限制就是散热。只要控制温度,芯片就不会节流或不会限制自身的功率消耗。当然,在不同场景下,仍然有一个实际的平均功耗数字,这就是我们测试的目的:

从设备空闲开始,该芯片报告的封装功率约为 200mW,这是在静态屏幕上空闲时什么都不做所测试的结果。与竞争对手的设计相比,这是极低的,这可能是 Apple 能够实现如此出色的电池寿命的一个原因。闲置状态下的交流电源为 7.2W,这是在 Apple 随附的 140W 充电器上,而笔记本电脑处于最低显示亮度 - 在这种情况下,实际直流电池功率可能要低得多,但缺乏测量这一点的能力,这是我们拥有的第二好的东西。无论设备的内部 PMIC 使用电压是多少,从 230V 墙壁到 28V USB-C MagSafe 的 AC 到 DC 转换链中的效率数字都应该假设为 90%。

在单线程工作负载中,例如 CineBench r23 和 SPEC 502.gcc\_r,两者在纯计算和内存要求方面更加混合,我们看到芯片报告 11W 封装功率,但我们只是测量 8.5-8.7使用时墙壁上的 W 差异。软件可能在这里过度报告了事情。在这种情况下,实际的 CPU 集群仅使用 4-5W 左右,我们似乎没有看到在这方面与 M1 有太大区别。封装和有功功率比我们在 M1 上看到的要高,这可以解释为 M1 Max 的内存资源要大得多。511.povray 主要是内核绑定,内存流量很少,封装功率报告较少,尽管-在墙上差异很小。

在多线程场景下,封装和墙体功率在封装上得到从34-43W的不等数据,墙体有功功率从40到62W不等。503.bwaves 在墙上功率和报告的封装功率之间具有更大的差异——尽管 Apple 的 powermetrics 展示了“DRAM”功率数字,但我认为这只是内存控制器,而实际的 DRAM 并未计入封装中功率数字——我们在这里测量的额外瓦数,因为它是一个巨大的 DRAM 工作负载,将是 M1 Max 封装的内存。

在 GPU 方面,我们缺乏显著的工作负载,但 GFXBench Aztec High Offscreen 最终获得了 56.8W 封装功率和 69.80W 壁挂功率。据报道,GPU 块本身的运行功率为 43W。

最后,同时强调 CPU 和 GPU,SoC 达到 92W 封装功率和 120W 壁式有功功率。这是相当高的,我们还没有测试机器能够承受这样的负载多长时间(它高度依赖于环境),但是芯片和平台似乎没有任何实际的功率限制,只是使用任何东西只要温度得到控制,它就需要。

为了将 M1 Max 与竞争对手进行比较,我们找来了 MSI GE76 Raider ,在其上有英特尔的 11980HK。

在单线程工作负载中,与英特尔最好的 CPU 相比,Apple 展示了巨大的性能和功耗优势。在CineBench中,这是苹果核心出于某种原因性能下降的罕见工作负载之一,但这进一步扩大了功耗方面的差距,M1 Max仅使用8.7W,而11980HK的可比数字为43.5 W.

在其他 ST 工作负载中,M1 Max 在性能上更领先,或者至少在类似的范围内。这里的性能/W 差异大约是 Apple 芯片的 2.5 到 3 倍。

在多线程测试中,11980HK 显然可以达到比 M1 Max 高得多的功率水平,达到 80W 的封装功率水平,对于 105-110W 有源墙壁功率,明显超过这里的 MacBook Pro。由于内核具有更好的可扩展性,M1 Max 的性能水平明显高于英特尔芯片。这里的性能/功率差异是 M1 Max 的 4-6 倍,所有性能都显着提高,这意味着 ISO-性能下的性能/功率甚至会更高。

在 GPU 方面,GE76 Raider 配备了 GTX 3080 移动设备。在 Aztec High 上,266fps 总共使用 200W 功率,而 M1 Max 以 307fps 的速度击败它,而墙上的有功功率仅为 70W。MSI 系统的封装功率报告为 35+144W。

最后,Intel 和 GeForce GPU 一起使用时功率高达 256W,也是 MacBook Pro 及其 M1 Max SoC 的两倍多。

11980HK 并不是一款非常高效的芯片,正如我们在 5 月份的评测中所指出的那样,相比之下 AMD 的芯片应该表现得更好一些,但 Apple Silicon 可能仍以极其可观的优势领先。

CPU ST 性能:与 M1 相比没有太大变化

苹果没有过多谈论新 M1 Pro 和 Max 的核心性能,这可能是因为与 M1 相比,它并没有真正改变太多有关。我们仍然看到相同的 Firestrom 性能内核,它们的主频仍为 3.23GHz。新芯片具有更多缓存和更多 DRAM 带宽,但在 ST 场景下,我们预计不会有太大差异。

去年我们第一次测试 M1 的时候,我们已经在 Apple 的 Xcode 编译器下编译了 SPEC,我们缺少 Fortran 编译器。我们已经转移到一个普通的 LLVM11 工具链,并利用 GFortran (GCC11) 来处理这里发布的数字,让我们可以进行更多的苹果对苹果的比较。对于 C/C++ 工作负载,这些数字没有太大变化,但由于 Fortran 工作负载,我们得到了一套更完整的套件数字。我们将标志保持在非常简单的“-Ofast”上,没有别的。

在 SPECint2017 中,与 M1 的差异很小。523.xalancbmk 展示了巨大的性能提升,但我不认为这是由于芯片的变化,而是苹果在 macOS 12 中的内存分配器带来的的变化。不幸的是,我们不再有 M1 设备可供我们使用,所以这些仍然是今年早些时候在 macOS 11 上的旧数据。

与竞争对手相比,M1 Max 要么具有显著的性能领先优势,要么至少能够与 AMD 和英特尔提供的最佳产品相媲美。然而,芯片并没有太多地改变格局。

SPECfp2017 也没有显着变化,549.fotonik3d 的得分确实比 M1 好很多,这可能与更多可用的 DRAM 带宽有关,因为这种工作负载给内存子系统带来了极大的压力,但与此相比,得分变化很小到 M1,平均而言,它仍然远远领先于笔记本电脑的竞争。

M1 Max 在 SPECint2017 中成为性能最高的笔记本电脑芯片,只是距离成为 5950X 的整体最佳 CPU 略有差距,但能够在 FP 套件中从 M1 手中夺得并保持桂冠。

总体而言,新的 M1 Max 在单线程性能指标上并没有带来任何大的惊喜。

CPU MT 性能:真正的怪物

比 ST 性能更有趣的是 MT 性能。因为新芯片拥有 8 个性能内核和 2 个效率内核,这是我们目前见过的最大的 Apple Silicon 迭代。

在具体测试之前,我想对上一代较小的 M1 芯片进行一些评论。M1 上的 4+4 设置让 E-cores 实现了很大一部分 MT 性能,特别是 SPECint 得分看到了 +33% 的性能提升,而不仅仅是系统的 4 个 P 核。因为新的 M1 Pro 和 Max 少了 2 个 E-core,仅仅假设线性缩放,M1 Pro/Max 的理论峰值应该比 M1 高 62%。当然,由于更好的内存子系统,新芯片的性能应该比线性更好。

在详细分数中,我展示了新芯片的完整 8+2 分数,稍后我们将在上下文中讨论 8 P 分数。我没有运行 M1 上设置的新 Fortran 编译器的 MT 分数,因此图表中会缺少一些数字。

从数据来看——苹果在新的 10 核 CPU 上的性能定位发生了非常明显的变化。与 8 核 11980HK 或 5980HS 相比,Apple 确实有 2 个额外的内核,但在大多数工作负载中,Apple 芯片的性能优势远远领先于任何竞争对手。再次重申,我们将 M1 Max 与英特尔的最佳产品进行比较,也几乎是 AMD 的最佳产品(5980HX 的 TDP 为 45W)。

对我来说,最突出的一个工作负载是 502.gcc\_r,在这个测试中, M1 Max 几乎是 M1 得分的两倍,并且比 11980HK 领先 69%。我们在其他工作负载中看到了类似的令人难以置信的性能增量,诸如 mcf 和 omnetpp 之类的内存限制测试显然是 Apple 的强项。一些工作负载,主要是内核绑定或 L2 驻留,优势较少,有时甚至落后于 AMD 的 CPU。

fp2017 套件具有更多受内存限制的工作负载,而这正是 M1 Max 令人惊讶的地方。

503.bwaves、519.lbm、549.fotonik3d 和 554.roms 等对内存压力最大、对 DRAM 压力最大的工作负载具有多种性能优势.

这里的性能差异简直太疯狂了,并且真正展示了 Apple 的内存子系统在允许 CPU 在内存受限的工作负载中扩展到如此程度的能力方面的领先地位。

即使是更受执行限制的工作负载,例如 511.porvray 或 538.imagick,虽然没有那么显着,但仍然非常明显地有利于 M1 Max,以极低的功耗实现了显着更好的性能。

我们注意到 M1 Max CPU 无法充分利用芯片的 DRAM 带宽,在撰写本文时,我们没有测量 M1 Pro,但想象一下,这里的设计得分不会比 M1 Max 低很多。我们不禁问自己,如果集群和结构允许 CPU 充分利用内存,它们的得分会高多少。

在总分中 有两个方面。在 SPECint 工作套件中,M1 Max 领先最佳竞争对手 37%,这是一个非常明显的胜利,考虑到功率水平和 TDP,每瓦性能优势显而易见。M1 Max 还能够胜过台式机芯片,例如 11900K 或 AMD 的 5800X。

在 SPECfp 套件中,M1 Max 属于自己的芯片类别,市场上没有可比性。它完全摧毁了任何笔记本电脑的竞争者,展示了领先于第二好笔记本电脑芯片的 2.2 倍性能。M1 Max 的性能甚至超过了 16 核 5950X——该芯片的封装功率为 142W,系统的其余部分甚至远远高于该芯片。这是一个绝对荒谬的比较,也是我们从未见过的情况。

我们还运行了只有 8 个性能核心处于活动状态的芯片,正如预期的那样,得分略低,为 -7-9%,这里的 2 个 E 核心在总 MT 性能中所占的百分比比 M1 小得多。

苹果在特定工作负载方面的明显优势确实让我们质疑如何将其转化为应用程序和用例。我们以前从未见过这样的设计,所以不清楚事情会在哪里落下,但我认为 Apple 已经相当清楚,他们对这些设计的关注点是迎合内容创作人群,使用大生产力的高级用户应用程序,无论是视频编辑、音频母带制作还是代码编译。在这些领域,M1 Pro/Max 的微架构特性将大放异彩,并且可能远远超过任何其他系统。

GPU 性能:2-4 倍提升

可以说,Apple 最新款 Mac SoC 的亮点是 GPU,以及为其提供支持的重要资源。虽然 Apple 没有详细说明 M1 Max 上 570 亿个晶体管预算中有多少用于 GPU,但它及其相关硬件是唯一比原始 M1 SoC 增加四倍的部份。去年,Apple 证明了它可以为笔记本电脑开发具有竞争力的高端 CPU 内核。现在他们在 GPU 方面采取了同样的措施。

推动这一点一直是苹果最大的需求之一——也是苹果与前合作伙伴英特尔之间最大的摩擦点之一——GPU 性能。由于对其生态系统的严格控制以及对推动(或拉动)开发人员前进的恐惧,Apple 在过去二十年中一直处于扩展 GPU 在系统中的作用的前沿。GPU 加速合成(Quartz Extreme)、OpenCL、GPU 加速机器学习等都由 Apple 开发或首先实现。尽管通常植根于效率提升和从 CPU 中获得令人难以置信的繁重任务,但这些也推高了 Apple 的 GPU 性能要求。

这导致 Apple 在过去 10 年的大部分时间里都使用英特尔先进的 Iris iGPU 配置(通常是唯一大量使用它们的 OEM)。但即使是 Iris 也永远无法满足 Apple 想做的事情。对于最大的 15/16 英寸 MacBook Pro,Apple 已经能够使用独立 GPU 来弥补差异,但 13 英寸 MacBook Pro 外形尺寸中的 dGPU 缺乏空间和功率约束。最终,所有这些都促使 Apple 开发自己的 GPU 架构,不仅为低端部件提供完整的 SoC,而且还能够将 GPU 集成到其高端部件中。

后者可以说是苹果目前地位的独特之处。传统 OEM 可以使用小型(ish)CPU,然后根据需要添加独立 GPU。它具有成本效益和性能优势:您只需添加与客户需要性能一样大的 dGPU,甚至笔记本电脑级 dGPU 也可以提供非常高的性能。但与任何其他工程决策一样,这是一个权衡:独立 GPU 会导致多个显示适配器,需要自己的 VRAM,并带来了电源/冷却成本。

苹果长期以来一直是一家垂直整合的公司,因此他们也一直专注于 SoC 整合是再合适不过的事情了。将 dGPU 引入他们的高端笔记本电脑 SoC 消除了分立部件的缺点。而且,再次利用 Apple 的生态系统优势,这意味着他们可以为开发人员提供以异构计算方式使用 GPU 的基础设施——能够快速地与 CPU 来回传递数据,因为它们都在同一芯片上处理块,共享相同的内存。多年来,Apple 一直在其 A 系列 SoC 中推动这种模式,但这仍然是笔记本电脑领域的新领域——没有 PC 处理器在主 SoC 中集成了如此强大的 GPU。

反过来,苹果的权衡是 M1 继承了提供如此强大 GPU 的成本。这不仅包括 GPU 块本身的裸片空间,还包括传递大量数据所需的更大的结构、保持 GPU 立即馈送所需的额外缓存,以及保持 GPU 长时间馈送所需的额外外部内存带宽跑。集成高端 GPU 意味着苹果继承了高端 GPU 的设计和生产成本。

撇开 ALU 和 GPU 内核不谈,Apple 为使这成为可能所做的最有趣的事情是通过他们的内存子系统。GPU 需要大量内存带宽,这就是为什么离散 GPU 通常配备大量使用 HBM2 或 GDDR6 等高速接口的专用 VRAM。但是出于强大的考虑并构建了自己的 SoC,Apple 反而构建了一个非常大的 LPDDR5 内存接口;M1 Max 拥有 512 位接口,是原始 M1 的 128 位接口大小的四倍。可以肯定的是,以这种方式扩展 LPDDR 是可能的,但至少在消费类 SoC 领域,以前从未有人这样做过。凭借如此宽的接口,Apple 能够为 M1 Max 提供 400GB/秒(技术上为 409.6 GB/秒)的内存带宽,这与NVIDIA 最快的笔记本电脑 SKU相当。

最终,这些芯片使 Apple 能够为其高端 GPU 提供与独立笔记本电脑 GPU 类似的带宽,但功耗却只是其一小部分。每个引脚 GDDR6 的速度都非常快——是速率的 2 倍以上——但效率并不高。因此,虽然 Apple 确实因为需要如此大的内存总线而失去了一些优势,但他们不仅仅是通过使用 LPDDR5 来弥补这一点。这为他们在负载下节省了十几瓦,不仅有利于功耗,而且还降低了笔记本电脑产生的总热量。

(一)M1 Max 和 M1 Pro:Select-A-Size

在整个笔记本电脑 SoC 产品线中使用集成 GPU 对 Apple 来说还有一个连锁效应:他们需要某种方式来匹配 dGPU 提供的可扩展性。尽管每台 MacBook Pro 配备 570 亿个晶体管 M1 Max 是件好事,但这种东西的成本和芯片产量是不切实际的。实际的消费者需求也不存在;M1 Max 旨在与高端独立 GPU 解决方案竞争,但大多数消费者(甚至很多开发人员)的工作负载根本没有足够的像素来充分利用 M1 Max。而且这并不意味着是对 Apple 的微妙补充——对于桌面工作甚至可以说是很多 1080p 级游戏来说,M1 Max 的性能都过于强大。

因此,Apple 开发的不是一个,而是两个新的 M1 SoC,允许 Apple 在 M1 Max 之下拥有第二个中端图形选项。这款芯片被称为 M1 Pro,拥有 M1 Max 一半的 GPU 集群、一半的系统级缓存和一半的内存带宽。在其他方面都是一样的。M1 Pro 是一个小得多的芯片——我们估计它的尺寸约为 245 平方毫米——这使得苹果的制造成本更低。因此,对于不需要高端图形性能的低端 14 英寸和 16 英寸 MacBook Pro,Apple 能够提供其大型集成 GPU 的一小部分,同时与制造最新 M1 SoC 的所有其他硬件配对整体如此强大。

我们快速浏览一下 M1 系列的 GPU 规格,Apple 基本上已经将其集成 GPU 设计翻了一番(然后又翻了一番)。最初的 M1 有 8 个 GPU 核心,M1 Pro 有 16 个,M1 Max 有 32 个。这些 GPU 的每个方面都相应地进行了扩展——纹理单元增加了 2 倍/4 倍,ROP 增加了 2 倍/4 倍,ROP 增加了 2 倍/4 倍内存总线宽度等。同时 GPU 时钟速度几乎保持在 1.3GHz 左右。所以对于 M1 Pro 和 M1 Max 的 GPU 性能期望非常简单:理想情况下,苹果应该能够获得原始 M1 的 2 倍或 4 倍的 GPU 性能。

否则,没有反映在规格或苹果自己的评论中,苹果也需要扩大他们的fabric。因为连接 32 个内核意味着传递大量数据,而原始 M1 的结构肯定无法胜任这项任务。尽管如此,Apple 必须做的任何事情都非常巧妙地完成(并隐藏了)。从外观上看,M1 Pro/Max GPU 的行为与 M1 相似,因此即使有这些结构变化,这显然也是一个几乎相同的 GPU 架构。

(二)合成(Synthetic)性能

最后深入探讨 GPU 性能本身,让我们从综合基准测试开始。

为了尝试获得尽可能多的可比数据,我从 GFXBench 5.0 Aztec Ruins 开始。这是我们的标准笔记本电脑基准测试之一,因此我们可以直接将 M1 Max 和 M1 Pro 与我们最近测试的高端 PC 笔记本电脑进行比较。至于 Aztec Ruins 本身,这是一个可以从手机扩展到高端笔记本电脑的基准;它本机可用于多个平台,并且几乎没有 CPU 开销,因此对 GPU 字体的限制是无限的。

Aztec 为 Apple 的新 SoC 做了一个非常好的初步展示。M1 Max 仅差一点就位居榜首,其 FPS 落后 MSI 的 GE76(配备 GeForce RTX 3080 笔记本电脑的笔记本电脑)。正如我们将看到的,这对于 Apple 来说可能是最好的情况,因为 Aztec 如此纯粹地通过 GPU 性能进行扩展(并且具有非常好的 Metal 实现)。但它表明,当一切都恰到好处时,Apple 可以达到什么样的水平。

我们还在这里看到了 M1 系列的可扩展性。M1->M1 Pro ->M1 Max 每一步的性能提升几乎是 2 倍,

由于 macOS 也可以运行 iOS 应用程序,因此我还投入了 3DMark Wild Life Extreme 基准测试。这是另一个跨平台基准测试,可在移动设备和桌面设备上使用,Extreme 版本特别适合测量 PC 和 Mac 等设备。这是在无限制模式下运行的,该模式会在屏幕外绘制,以确保 GPU 完全被压低。

由于 3DMark Wild Life Extreme 不是我们的标准基准测试之一,因此我们没有可比较的 PC 数据可供借鉴。但是从 M1 Mac 上我们可以再次看到 GPU 性能在 SoC 之间几乎完美地扩展。M1 Pro 的性能是 M1 的两倍,而 M1 Max 的性能再次翻了一番。

(三)游戏性能

换个方式,尽管 macOS 不是一个特别受欢迎的游戏平台,但该平台上有很多游戏可供使用,尤其是像 MoltenVK 这样的工具使开发人员可以更轻松地启动和运行 Metal API 渲染后端。话虽如此,绝大多数主要的 macOS 跨平台游戏仍然仅限于 x86,因此很多游戏仍然依赖于 Rosetta。理想情况下,像新款 MacBook Pro 这样的产品也会促使开发人员开发 Arm 二进制文件,但这将是一个更大的要求。

我们将从Shadow of the Tomb Raider开始,这是我们的另一个标准笔记本电脑基准测试。这为我们提供了许多可供比较的高端笔记本电脑配置。

不幸的是,Apple 在我们综合基准测试下的强大 GPU 性能并没有扩展到我们的第一款游戏。M1 Mac 带来了 1080p 性能图表的尾端,但在 4K 时仍远远落后于 Radeon 6800M的表现。

深入挖掘,这里有几个因素在起作用。首先,尤其是 M1 Max 的 CPU 限制为 1080p;通过 Rosetta 进行 x86 到 Arm 的转换不是免费的,尽管 Apple 的 CPU 内核非常强大,但它们在这里遇到了 CPU 限制。我们必须使用 4K 才能帮助 M1 Max 充分伸展双腿。即便如此,16 英寸 MacBook Pro 也远不及 6800M。虽然我们在这一点上肯定是 GPU 受限的,正如游戏本身所报告的那样,并且从 M1 Pro 到 M1 Max 的 2 倍性能扩展证明了这一点。

我们的第二款游戏是 Borderlands 3。这是另一个仍仅支持 x86 的 macOS 端口,并且是我们较新的笔记本电脑基准测试套件的一部分。

对于 M1 芯片而言,Borderlands 3 最终表现Shadow of the Tomb Raider更糟糕。游戏似乎在 4K 时受 GPU 限制,因此这不是明显的 CPU 瓶颈的情况。老实说,我对 Mac 版本的移植工作还不够了解,我甚至不知道它是否是一个很好的移植。因此,我不愿将这一切都放在 GPU 上,尤其是当 M1 Max 落后 RTX 3080 超过 50% 时。不过,如果您希望在 Apple 笔记本电脑上修复 Claptrap,那么 2021 年的 MacBook Pro 可能不是最佳选择。

(四)生产力表现

最后,但同样重要的是,让我们来看看一些以 GPU 为中心的生产力工作负载。这些不是我们标准基准测试套件的一部分,因此我们手头没有可比数据。但是我们使用的两个基准都是标准化的基准,因此数据是可移植的(在一定程度上)。

我们将从 Puget System 的适用于 Premiere Pro 的 PugetBench 开始,这是如今事实上的 Premiere Pro 基准测试。此测试涉及多个播放和视频导出测试,以及应用大量 GPU 加速和大量 CPU 加速效果的测试。因此,它更像是一个全面的系统测试,而不是纯粹的 GPU 测试,尽管这适合 Premiere Pro,因为它具有巨大的系统要求。

在这里快速说明一下,该基准测试似乎对桌面的分辨率和刷新率都很敏感——尤其是更高的刷新率似乎可以提高性能。这意味着 2021 款 MacBook Pro 的 120Hz ProMotion 显示器在这里获得了意想不到的优势。因此,为了让这里的测试更公平,我们所有的测试都是在 60Hz 的 1920x1080 台式机上进行的。_(作为参考,MBP16 在使用其原生显示器时得分为 1170)_

我们发现这两款 Mac 在这个基准测试中表现良好——接近 1000 的分数将与配备 RTX 3080 的高端台式机相匹配——而且从我从第三方数据中看到的情况来看,这远远领先于2019 款 Intel CPU + AMD GPU 16 英寸 MacBook Pro。

至于 GPU 本身的作用有多大,我们看到的是 M1 Max 在标准和扩展分数上都增加了大约 100 分。更快的 GPU 有助于 GPU 加速效果,并且应该有助于一些播放和编码工作负载。但是还有其他部分属于 CPU,因此仅 GPU 无法进行基准测试。

我们的另一个生产力基准是 DaVinci Resolve,它是多方面的视频编辑器、调色和 VFX 视频包。Resolve 经常出现在 Apple 的宣传材料中;它不仅受到专业 Mac 用户的欢迎,而且来自编辑器的颜色分级和其他效果都经过 GPU 加速并且非常占用资源。因此,这正是得益于高端 GPU 的专业工作负载。

由于 Resolve 没有标准测试——而且 Puget Systems 的流行测试不适用于 Mac——我们使用社区开发的基准测试。AndreeOnline 的Rocket Science 基准测试使用各种高分辨率剪辑,使用一系列日益复杂的模糊或时间降噪过滤器处理它们。对于我们的测试,我们使用测试的 4K ProRes 视频文件作为输入,尽管相对于过滤器的高成本,特定视频文件的影响很小。

所有这些结果都远低于实时性能,但从filter的复杂性来看,这是可以预料的。尽管如此,M1 Max 比我预期的更接近于匹配剪辑的原始帧速率 25fps;18步模糊(18-step blur)操作依然以16fps移动,2步噪点分辨率为23fps。这是一个完全 GPU 瓶颈的场景,因此将它们提升到更大的filter集会对 GPU 性能产生预期的影响。

同时,这是 M1 Max 的 GPU 性能非常接近 M1 Pro 的 2 倍的另一个案例。除了 18 步模糊(18-step blur)之外,M1 Max 的速度提高了 80% 或更好。所有这些都强调,当工作负载将像 Resolve 一样抛出大约数十亿像素时,如果它是 GPU 加速的,它当然可以从 M1 Max 更强大的 GPU 中受益。

总体而言,很明显,Apple 在 GPU 方面的持续经验随着其 A 系列芯片以及现在的 M1 系列 SoC 的开发而获得回报。Apple 已经能够将小巧高效的 M1 扩展为更强大的配置;Apple 构建的 SoC 是原始 M1 的 GPU 硬件的 2 倍/4 倍,这几乎就是他们分别从 M1 Pro 和 M1 Max 中得到的。简而言之,新的 M1 SoC 证明 Apple 可以构建他们高端机器所需的那种大而强大的 GPU。

话虽如此,新芯片的 GPU 性能相对于 Windows 世界中最好的芯片来说,在某方面还是有提升空间。GFXBench 看起来非常好,MacBook 的性能生产力工作负载也是如此。对于真正的专业人士——使用价格与 MacBook Pro 一样多的相机和仅稍微便宜一点的软件包的人——M1 Pro 和 M1 Max 应该非常受欢迎。只要您有充分利用所需的工作负载,这些 SoC 就可以提供大量的像素推动能力。

然而,游戏体验较差,因为 Mac 没有赶上我们任何一款游戏中的顶级芯片。鉴于 x86 二进制翻译的使用和 macOS 作为传统游戏二等公民的地位,这些不是公平比较。但是随着新兵训练营的损失,这是需要记住的。如果您是那种喜欢在 MacBook Pro 上玩密集游戏的人,那么新的 M1 机制可能不适合您——至少目前不适合。

结论和第一印象

自从 Apple 宣布推出 M1 和 M1 驱动的设备以来,新的 M1 Pro 和 M1 Max 芯片是我们等待了一年多的设计。M1 是从移动平台到笔记本电脑/台式机平台的一个非常直接的跳跃,但不可否认,它是一种面向低功率设备的芯片,具有热限制。M1在单线程性能上给人留下了深刻的印象,但在整体性能上仍然明显落后于竞争对手。

M1 Pro 和 M1 Max 完全改变了叙述——这些设计感觉就像是真正为高级用户设计的 SoC,Apple 提高了所有向量的性能指标。我们预计性能会有大幅提升,但我们没想到新芯片能够实现一些惊人的增长。

在 CPU 方面,将性能核心加倍是提高性能的一种明显方式——竞争对手的一些设计也是如此。Apple 的不同之处在于,它不仅扩展了 CPU 内核,而且扩展了它们周围的一切。它不仅仅是 4 个额外的性能核心,它还是一个全新的性能集群,拥有自己的 L2。在内存方面,Apple 已将其内存子系统扩展到前所未有的尺寸,这使得 M1 Pro & Max 能够实现在笔记本电脑芯片中根本无法实现的性能数据。这里的芯片不仅能够超越任何竞争对手的笔记本电脑设计,而且还能与最好的台式机系统竞争,你必须推出服务器级硬件才能领先 M1 Max——这通常是荒谬的。

在 GPU 方面,Apple 的收益也很直接。M1 Pro 本质上是 M1 的 2 倍,而 M1 Max 在性能方面是 M1 的 4 倍。对于 macOS 和生态系统来说,游戏仍然处于一个非常奇怪的地方,也许这是一个鸡与蛋的局面,也许游戏仍然是一个利基市场,需要很长时间才能看到利用新芯片能够发挥的性能在GPU方面提供。更清楚的是,新 GPU 确实让依赖 GPU 加速的内容创建和生产力工作负载的性能实现了巨大飞跃。

为了进一步改善内容创作,新媒体引擎是该芯片的一个关键特性。尤其是使用 ProRes 或 ProRes RAW 的视频编辑人员,他们的工作流程将得到多方面的改进,因为新芯片可以轻而易举地处理格式——这可能会让许多具有该专业背景的用户迅速采用新的 MacBook。

对于其他人来说,Apple 似乎了解典型的 MacBook Pro 高级用户,并且围绕 Mac 确实大放异彩的用例设计了芯片。原始性能、独特的加速以及绝对的能效相结合,是您目前在任何其他平台上都找不到的东西,这可能使新款 MacBook Pro 不仅是最好的笔记本电脑,而且完全是最适合用户任务的设备。

推荐阅读
关注数
11058
内容数
1772
最有深度的半导体新媒体,实讯、专业、原创、深度,50万半导体精英关注。专注观察全球半导体最新资讯、技术前沿、发展趋势。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息