英特尔揭开XPU的第二篇章

今年2月，英特尔任命基辛格成为公司历史上第八任CEO。

基辛格本人是架构师出身，他不仅是英特尔80486处理器原型的架构师，领导了14种不同微处理器的开发项目，还在酷睿和至强产品系列的成功中扮演过关键角色。

我们常说，一位CEO的风格会影响甚至决定企业创新的节奏和方向。基辛格的架构师背景，决定了英特尔必然会重新聚焦架构创新。

果然，在8月19日举办的2021英特尔架构日上，基辛格在演讲中说，“这将是近十年来，英特尔在x86架构上取得的最重要的进展之一，意义重大。”

如其所说，“英特尔已经开发出了许多架构和平台,包括针对性能和能效的微架构，在各个级别和维度上的异构计算，从子芯片、主板、系统到数据中心，从边缘和终端设备到网络、再到云，一切设计旨在更智能地使用最佳计算资源，即用最优架构来完成每项任务。”

如果说，CPU体系架构成就了过去的英特尔，那么今天的英特尔已经开始跳出CPU时代，正在揭开XPU时代的第二篇章。

之所以说是第二篇章，是因为英特尔早就开启了从CPU到XPU的旅程，比如此前的奥德赛计划，以及用Xe架构补全了英特尔在GPU上的空白，英特尔正逐渐构建起CPU、GPU、ASIC、FPGA四大计算类型的芯片全覆盖。而在本次英特尔架构日，英特尔更是展现了XPU路线图上更多实实在在的新进展。

架构是硬件和软件的炼金术

有客户向英特尔提出这样一个看似不可思议的要求：到2025年，能让他们的工作负载处理能力有1000x（千倍级）的提升吗？1000倍是摩尔定律的5次方，而且仅有4年的时间。

要真正达到这样的水平，就需要英特尔在每个技术领域，实现至少4倍左右的摩尔定律提升，包括制程工艺、封装、内存和互连。这也意味着，循规蹈矩式的创新已经无法完成这样的壮举。

英特尔必须打破常规，颠覆自我，从架构层面进行彻底的创新。

英特尔公司高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri说，“架构是硬件和软件的‘炼金术’。它将特定计算引擎所需的先进的晶体管结合在一起，通过领先的封装技术将它们连接，集成高带宽和低功耗缓存，并在封装中为混合计算集群配备高容量、高带宽内存和低时延、可扩展互连，同时确保所有软件能无缝加速。随着从桌面到数据中心的工作负载变得前所未有的密集、复杂、且多样，今天公布的这些新突破也展示了架构将如何满足对更高计算性能的迫切需求。”

炼金术是中世纪的一种化学哲学的思想和始祖，虽然有一些神秘，但炼金术代表了一种化腐朽为神奇的魔力，用它来形容英特尔架构的重大变革，一点不为过。

我们知道，混合架构实际上是改变过去处理器内部的组合方式，通过不同类型的核来承载不同的工作负载，以提高整个处理器的性能，业界如英伟达和AMD也在向类似的方向演进，这也是未来处理器发展的一大核心策略。

性能与功耗的“平衡术”

简单地说，混合架构是指：用性能核去应对复杂的计算，以能效核负责日常应用，并用硬件调度器来实现基于业务需求的灵活、动态分配。

所以英特尔抛出了两个微架构创新，一是能效核，作为一个高度可扩展微架构，可以针对每瓦多核性能进行优化；第二是性能核，针对单线程性能和AI进行优化。同时，英特尔通过架构的“炼金术”，把这两个内核结合在一起，诞生了英特尔首个混合架构的英特尔产品Alder Lake。

具体的创新点在哪里呢？

按照英特尔的介绍，能效核是一个高度可扩展的x86微架构，它能满足客户从低功耗移动应用到多核微服务的全方位计算需求。对比英特尔迄今为止最多产的CPU微架构——Skylake，能效核可在相同功耗下提升40%的单线程性能，或者在提供相同性能时，功耗仅为Skylake的40%不到。可想而知，如此出色的能效提升如果体现在计算集群当中，带来的价值将会是何等惊人。

而性能核，不仅是英特尔迄今为止性能最高的CPU内核，而且在CPU架构方面也实现了阶梯式提升，可推动未来十年的计算发展。它是一个更宽、更深、更智能的架构，可提高执行并行性，降低时延，提升通用性能。值得一提的是，针对数据中心和机器学习场景，性能核还提供了更多专用硬件或者说加速器，例如新的英特尔高级矩阵扩展（AMX）来执行矩阵乘法运算，以获得显著的性能提升，如将AI INT8处理性能提升至现在的约8倍。

将能效核与性能核联接起来的，是英特尔硬件线程调度器，它能与操作系统无缝配合，在合适的时机把合适的线程分配给合适的内核。

这有点像我们熟知的“混合动力”汽车，通过油和电的混合驱动，让同样的一箱油，跑出最长的距离。

这套运行逻辑也让我想到了“平衡术”理论。

处理器的性能和功耗原本在天平的两端，性能的提升总是会带来更高的功耗，这是一件过去十几年都极难平衡的事，而英特尔的混合架构，用硬件线程调度器作为一个支点，将更高性能和更高能效置于不同的“核”，做到了更优的性能平衡。

IPU：释放CPU的内核

面对全球汹涌而来的数字化浪潮，大量新兴的云应用驱动了数据中心的快速发展，英特尔必须要从数据中心架构为起始点，为数字化和智能化转型提供“算力之源”。

过去CPU是英特尔的战略核心，所有的设计都是让越来越多的处理通过CPU来解决，如今英特尔则变得更为灵活，有选择地将一些功能从CPU当中分离出去，用更“对路”的芯片来承接和处理，这其实能够更灵活地为客户提供更为敏捷的价值，这也是英特尔强调XPU战略的原因。

比如IPU的发布。

我们知道，服务提供商和企业正大量投资于超大规模数据中心，以便为云原生应用和微服务提供高效的计算。提供这些服务的应用程序必须能够访问高速、低延迟的存储和更快和更安全的网络基础设施。但是，虚拟交换、安全和存储等基础设施相关的应用和服务可能会占用大量CPU资源。

从架构创新的角度，企业需求要一个专门的处理器，来加速这些基础设施服务，并通过把它们从CPU上卸载下来，来释放CPU的算力，用在更适于它的应用场景和负载中。这正是英特尔推出基础设施处理器 (IPU)的初衷。

简单地说，IPU是一种可编程的网络设备，旨在使云和通信服务提供商减少在CPU中的额外性能开销，从而充分释放其性能价值。

英特尔数据平台事业部首席技术官Guido Appenzeller表示，基于IPU的架构存在几个优势：

第一，基础设施功能和客户工作负载的强分离使客户能够完全控制CPU；

第二，云运营商可将基础设施类的任务卸载到IPU上，更大化提升CPU利用率和收益；

第三，IPU可管理存储流量，减少时延，同时通过无磁盘服务器架构有效利用存储容量。借助IPU，客户可以通过一个安全、可编程、稳定的解决方案更好地利用资源，使其能够更好地实现计算与存储的平衡。

我们相信，IPU将是未来数据中心架构的核心组件。目前的IPU有两类架构：第一个是基于ASIC的IPU；第二个是基于FPGA的IPU。它们各有优势：基于FPGA的IPU能够让企业快速实施新协议，应对不断变化的要求或新协议；而专用的ASIC IPU则有望实现性能和效率的最大化。

据悉，目前英特尔已与大多数超大规模云服务提供商建立了紧密的合作关系。同时，英特尔还公布首个ASIC IPU：Mount Evans（研发代号），这就是英特尔与一家一流云服务提供商共同设计和开发的，它融合了多代FPGA SmartNIC的经验。

GPU Ponte Vecchio，堪比登月难度的创新

近年来，在百亿亿次计算愿景和人工智能等新兴数据中心应用的驱动下，GPU与CPU的协作已经成为现代数据中心重要的创新方向。作为XPU战略中与此密切相关的核心产品，Ponte Vecchio的亮相备受关注。

英特尔Ponte Vecchio首席架构师Masooma说，“Ponte Vecchio是我在30年的芯片开发生涯中开发的最复杂的芯片，在合作伙伴以及IP、测试、封装、制程技术和制造团队的帮助下，我们有幸把这个架构变成现实。”

作为 “堪比登月难度创新的一款产品”，Ponte Vecchio背后又有哪些故事？

据了解，面向百亿亿次计算的 GPU——Ponte Vecchio，是英特尔至今最复杂的 SoC。它基于 Xe HPC 微架构，并采用多种先进的半导体制程工艺、英特尔的 EMIB 技术以及 Foveros 3D 封装技术，包含 1000 亿个晶体管，可提供业界领先的浮点运算性能和计算密度。

早期的 Ponte Vecchio 芯片就展示了出色的性能，在流行的 AI 基准测试中创造了推理和训练吞吐量的行业记录。比如 A0 版芯片输出了高于 45 TFLOPS 的 FP32 吞吐量，超过5 TBps 的内存结构带宽，以及高于 2 TBps 的连接带宽。

在这次架构日上，英特尔分享了一段演示视频，其中两个与Ponte Vecchio相关的数据——ResNet 推理性能超过 43000 张图像/秒和超过每秒 3400 张图像/秒的 ResNet 训练性能让人印象深刻，这两项性能都有望实现行业领先。据悉，Ponte Vecchio 已走下生产线进行上电验证，并已开始向客户提供限量样品，预计将于 2022 年面向 HPC 和 AI 市场发布，而且已被在建的百亿亿级超算系统Aurora选中，用作其核心算力组件。

做架构创新的“灯塔”

面向数据中心架构，除了IPU和GPU，英特尔还透露了下一代至强可扩展处理器Sapphire Rapids的更多细节。

英特尔首席数据中心架构师Sailesh说，“Sapphire Rapids是我们下一代至强可扩展处理器。它能够提供卓越的开箱即用的性能，为数据中心内广泛的工作负载和部署模式带来增强功能。”

Sapphire Rapids的诞生背景，还是为了实现弹性计算模型（如容器化微服务）的突破性能，以及在所有形式的、以数据为中心的计算中快速扩展 AI 的应用。

具体来说，Sapphire Rapids的核心是一个分区块、模块化的SoC架构，采用英特尔的嵌入式多芯片互连桥接（EMIB）封装技术，在保持单晶片CPU接口优势的同时，具有更优的可扩展性。Sapphire Rapids提供了一个单一、平衡的统一内存访问架构，每个线程都可完全访问缓存、内存和I/O等所有单元上的全部资源，并基于此在整个SoC上实现一致的低时延和高横向带宽。

很明显，这样的设计除了可实现了巨大的性能提升之外，还可让这些性能核拥有与之匹配的缓存，并发挥即将到来的DDR5和PCIe5.0的威力，更好地平衡计算、内存和I/O。

所以2022年，我们很可能会见到结合了英特尔的性能核与全新加速器引擎的Sapphire Rapids，并亲眼见证它变身为下一代数据中心处理器的标准。

站在今天这个原点，这些丰富的架构创新，既代表了过去十年英特尔的技术积累，也映射出未来十年英特尔要引领的行业趋势和创新方向。一句话总结的话，那就是从过去到现在，从CPU到XPU，英特尔始终是架构创新的“灯塔”。

架构是硬件和软件的炼金术

性能与功耗的“平衡术”

IPU：释放CPU的内核

做架构创新的“灯塔”

推荐阅读

目录