软硬件融合 · 2021年09月06日

全球首发5nm DPU,集成ARMv9 Neoverse N2,集成AI引擎

Marvell的OCTEON 10 DPU横空出世:一方面宣称自己一直存在于DPU市场,只是之前不叫DPU这个名称而已;并且宣称自己的DPU是当前最高规格的DPU芯片,剑头直指NVIDIA还未发布的Bluefield-3 DPU。

本文是OCTEON 10o DPU的综合介绍,以期对大家能有所帮助。孰优孰劣,留待市场选择。

1 Marvell OCTEON 10 DPU概述

WeChat Image_20210906095401.jpg

Marvell OCTEON 10 DPU面向云计算、5G通信、企业、运营商和数据中心应用场景。

OCTEON 10是业界首款5nm ARM Neoverse N2平台的处理器系列:基于台积电的5nm工艺,包含 64位ARM Neoverse N2内核。

OCTEON 10集成了1Tb的交换机,支持内联加密,并且网络包处理可编程,把功耗、控制和数据平面加速设定提升到了新高度。数据路径和安全工作负载的性能范围从50G到超过 400G。基于机器学习的硬件加速引擎,比软件处理的性能提升100倍。基于VPP的硬件加速器可将数据包处理速度提高多达5倍。

OCTEON 10支持高速I/O接口,包括DDR5、PCIe Gen5和经过高度优化的56G SerDes。

2 Marvell OCTEON 10 DPU详细介绍

WeChat Image_20210906095454.jpg

新一代OCTEON 10系列DPU,建立在TSMC的5nm工艺节点上,并且首次展示了ARM的新型Neoverse N2处理器,此外还支持PCIe Gen5。

WeChat Image_20210906095458.jpg
随着数据量的增大,从传统的“以应用为中心”变成了现在的“以数据为中心”。

WeChat Image_20210906095501.jpg

Marvell认为,DPU主要嵌入式CPU的计算、各类加速器以及高速IO接口三部分。DPU是一个用于数据的搬移、处理、安全和管理的计算实体。

WeChat Image_20210906095504.jpg

Marvell强调,它是从2005年以来,就一直在DPU的市场上,这来自于收购的Cavium的遗产。

在以前,OCTEON被称为“基础架构处理器”。随着最近DPU术语的日益流行以及竞争对手的解决方案得到支持,我们似乎看到DPU这个术语现在被广泛接受,用于此种类型的多功能芯片设计,其定义基于这样一个事实,即它是一个有助于在数据通过网络传输时处理和移动数据的处理芯片。

WeChat Image_20210906095508.jpg

Marvell新一代DPU平台OCTEON 10将提供更广泛的功能集,这包括Arm Neoverse N2 Core以及用于加密、数据包处理甚至AI推理加速的硬件加速。

WeChat Image_20210906095511.jpg

Marvell表示,OCTEON有一些与NVIDIA BlueField-3 DPU相当甚至更好的能力。例如,集成交换机的速度高达1Tbps,大大超过了Bluefield-2 200Gbps (2x100Gbps) 接口。此外,Marvell使用SPECint (2006),并宣称来自于ARM Neoverse N2 Core的性能远远超过NVIDIA BlueField-2的ARM Cortex A72。

备注:Bluefield-3使用的是Cortex A78,其性能也低于Neoverse N2。

WeChat Image_20210906095514.jpg

整个产品线在网络端口速度、数据路径、CPU Core数量以及安全加速器等方面都有了显著的提升。

WeChat Image_20210906095517.jpg

WeChat Image_20210906095521.jpg

新的OCTEON 10依然具有在上一代中看到的相同的用于构建模块的多功能阵列,这次把此阵列升级到最新的最先进的规格,并且还引入了一些新功能,例如集成机器学习推理引擎、新的内联和加密处理器以及矢量数据包处理器,并且所有这些都能够以虚拟化方式运行。

这是Marvell的第一个TSMC N5P硅设计,也是第一个采用新工艺的DPU,也是第一个公开宣布的Neoverse N2实现,具有最新的PCIe 5.0 I/O功能以及DDR5支持。

WeChat Image_20210906095525.jpg

在内部集成ML引擎,Marvell认为这是DPU功能的一个重要增强。ML IP的设计最初是为专用推理加速器创建的,最后选择将ML加速器集成到OCTEON DPU芯片中。将推理加速器直接集成到数据流水线中,对于实现此类数据流用例所需的低延迟高吞吐量处理非常重要。

Marvell在AI处理能力方面为NVIDIA的新一代BlueField-3 DPU提供了一个竞争方案,首批OCTEON 10解决方案预计将在今年(2021)年底推出样品,而NVIDIA的BF3预计在2022年推出。

WeChat Image_20210906095530.jpg

此外,全新OCTEON 10系列的一项新功能是引入了矢量数据包处理引擎,与当前一代标量处理引擎相比,它能够将数据包处理吞吐量大幅提高5倍。

由于DPU是将功能引入网络,因此矢量数据包处理是一个关键功能。VPP是网络行业的一个重要话题,尤其是在Linux网络社区,因此VPP可能会是一个“杀手锏”功能。

WeChat Image_20210906095532.jpg

OCTEON 10 DPU是第一个公开宣布的采用ARM最新Neoverse N2基础架构CPU IP的芯片。N2是ARM第一个ARMv9架构的处理器Core,与 N1相比(例如Amazon Graviton2或Ampere Altra),其IPC提高40%。

对于Marvell而言,从之前内部的TX2 CPU切换到N2,承诺将单线程性能提升3倍。去年年底,Marvell宣布已停止使用自己的CPU IP,转而支持ARM Neoverse Core,并且在可预见的未来坚持ARM的路线图,这是对ARM新IP的大力支持。这与安培或高通等其他行业参与者形成鲜明对比。

对于DPU用例来说,重要的是这是一个ARMv9 CPU,支持SVE2,包含有助于数据处理和机器学习功能的新重要指令。这实际上比NVIDIA即将发布的BlueField3 DPU设计具有很大的优势,后者是ARMv8.2+的Cortex-A78 Core。

OCTEON 10的N2使用完整缓存配置选项,这意味着64KB L1I和L1D缓存,以及完整的1MB L2。SoC集成继续使用自己的内部网状网络总线解决方案。网状总线有256位数据路径,还有一个包含2MB缓存切片的共享L3,可随着Core数量的增加而线性扩展。

WeChat Image_20210906095535.jpg

在交换机集成和网络吞吐量方面,Marvell将1Tb/s交换机与多达16个50G MAC集成在一起。需要说明的是,功能会根据实际SKU和芯片设计而有差异。

允许将DPU用作嵌入式防火墙等解决方案的一部分。2022年的时候,并非所有设备都将使用400GbE网络,因此这提供了更大的灵活性。

WeChat Image_20210906095538.jpg

作为解决方案的一部分,类似于NVIDIA的DOCA,Marvell正在考虑支持更多行业标准平台。

当前仍在DPU的早期阶段,还需要一段时间才能看到该行业的更大吸引力。

WeChat Image_20210906095541.jpg

OCTEON DPU支持虚拟功能。

WeChat Image_20210906095544.jpg

Octeon 10支持服务功能链。尽管许多DPU是为云和数据中心市场设计的,但Octeon TX2一直在销售网络设备和 5G ORAN 空间等市场,因此此类功能很重要。

WeChat Image_20210906095544.jpg

第一个OCTEON 10的样品基于CN106XX设计,在PCIe 5.0的板卡上具有24个N2 Core、16GB DDR5和2个100GbE QSFP56端口,会在2021年第四季度提供。

WeChat Image_20210906095547.jpg

WeChat Image_20210906095552.jpg

WeChat Image_20210906095555.jpg

OCTEON 10系列涵盖了广泛的应用,从4G/5G RAN数字单元或中央单元、前传网关甚至 vRAN卸载处理器。

在云和数据中心,这些解决方案可以在计算和网络吞吐量性能方面提供广泛的多功能性。

而对于企业用户,该系列提供深度集成的数据包处理和安全加速功能。

WeChat Image_20210906095558.jpg

幻灯片注:DDR5控制器是指40位通道(32+8位ECC)。

在规格方面,Marvell对各种OCTEON 10系列设计进行了细分。

性能评估仍然使用SPECint2006,因为它与上一代和竞争对手的解决方案相比具有历史重要性。

CN106XX是OCTEON 10系列的首款芯片设计,已流片,预计今年下半年出样。除了这第一款芯片之外,Marvell还有3款其他OCTEON 10设计,包括只有8个N2 Core和10-25W功耗,低TDP的低端CN103XX。以及具有改进网络连接的高端CN106XXS,最后是DPU400旗舰,具有多达36个N2内核,并具有最大的处理能力和网络连接吞吐量。即使是最大的实现,TDP也仅达到60W。

这里需要说明的是,36核解决方案的SPECint分数超过了1200,在性能方面更像是一个低端的Xeon Gold 5100 CPU,这非常令人兴奋。

与英特尔设计的基础FPGA芯片的奇特IPU不同,Marvell Octeon 10专为ARM Neoverse N2 Core的一系列应用程序而设计,并专注于支持更多的行业标准堆栈,如VPP。

Marvell表示,它在DPU出货量方面一直处于行业领先地位,并且在所有大型数据中心部署中都很普遍。从技术角度来看,这款全新的Octeon 10非常激进,具有领先的IP和制造工艺,这将使Marvell在性能和能效方面在快速发展的DPU市场竞争中具有显著优势。

3 Marvell DPU机器学习,业界首款集成AI推理平台

3.1 OCTEON DPU的背景

OCTEON DPU传统上被广泛用于企业网络设备的集成网络和安全处理器。该设备主要是为了支持核心、分布和访问的分层网络拓扑结构,并在外围保护入口和出口的防火墙。在过去的十年中,企业已经开始将工作负载和访问转移到这种受控环境之外,并通过有线和越来越多的无线通信网络进入公共、私人和混合网络。

数据中心资源的分解为将这些工作负载添加到云中的加速器提供了可能性,即所谓的工作负载加速器。除了网络和安全之外,基础设施场景用例列表中还添加了存储、视频和5G工作负载,每种工作负载都需要加速。最后,机器学习推理能力可以通过异常故障检测、安全和质量改进以及深入的应用洞察力来增强这些工作负载。并且,这些功能必须通过一个全面的、优化的、开源的软件框架来交付。

3.2 集成推理

OCTEON 10 DPU的集成机器学习推断处理器,可以以完全卸载的方式编程ML工作负载,或作为引擎加速器和OCTEON 10 Neoverse N2 Core加速器组成的混合卸载。ARMv9 Neoverse N2 Core包括针对ML工作负载的优化向量指令,使得其比上一代ARM处理器具有更高的性能。这种混合推理能力既不需要网络中执行离线处理或接近实时机器学习任务所需的其他计算设备,又将任务转换为实时处理。

集成推理消除了网络节点之间的额外数据移动,极大地减少了推理的延迟,并降低了功耗和网络需求。把ML完全包含在OCTEON 10中,为各类应用打开了方便之门,无论是裸金属、还是VM或容器。OCTEON 10的机器学习推理加速器采用了专利技术,每瓦特的性能达到了同类产品中最高水平,并且采用了易于使用、开源的软件套件。

WeChat Image_20210906095602.jpg

3.3 机器学习集成推理工作负载

集成推理有利于跨多个垂直领域的基础设施工作负载。这里有些例子:

  • 网络。ML推理加速可应用于网络设备在交换、隧道和边缘的软件实现,以及提供与网络流量的质量和遥测指标(抖动、延迟、可靠性)相关的建议。网络功能将受益于将ML与OCTEON 10数据路径中的流量管理、批处理数据包处理和调度加速器结合使用。
  • 安全。分布式的接入访问和多服务云应用程序需要流量分析(DPI、QoE、TM)、安全性(防火墙、IDS/IPS)和网络可见性,以确保数据流得到最佳映射,这是集成推理硬件加速器的理想目标场景。将基于软件的DPI与ML结合使用来识别恶意流量可用于检测不良网络行为者,以及将ML应用于网络功能流量分析以确定带宽、延迟、丢包和抖动的流量SLA是其他新兴用途非常感兴趣的案例。
  • 存储。第三类基础设施加速场景是存储——与网络服务质量密不可分——通过为静态数据和动态数据选择加密和压缩方法。根据存储资源的使用情况,推理块可以决定加密和压缩的选择、存储块的标记以及数据在热、温和冷存储区域中的放置。这种基于硬件的集成推理加速器以及Neoverse N2(与 A72 相比)超过3倍的计算性能有助于支持传统的基于软件的存储应用程序以及用于边缘部署的计算存储用例。
  • 5G/边缘。5G开启了一类新的DPU卸载,机器学习对其有希望:大规模MIMO信道估计、频谱感知、资源分配、未知网络条件下的决策是一些相关的用例。作为边缘微服务的ML是监控、监视和自我修复网络用例的另一个用例,其中具有完整容器化虚拟化软件的功率优化OCTEON 10 DPU可以适合CPU、DPU、GPU功能在单个设备中执行。
  • 汽车。机器学习在汽车领域应用非常广阔,不仅有益于机器感知和自动驾驶,还有益于驾驶员辅助、安全系统、能源效率、分析和制造。OCTEON 10出色的推理性能和效率与其他OCTEON 10工作负载加速器相结合,使其成为一个引人注目的选择。

3.4 ML软件

Marvell的机器学习软件套件包括高度优化的广泛功能工具链,用于在Arm Neoverse N2 CPU和OCTEON 10 ML推理处理器上编译和执行机器学习模型。软件支持常见的机器学习格式和开放、编译和部署框架。

WeChat Image_20210906095606.jpg

Marvell ML工具链经过优化并集成到ML编译器框架中,例如TVM和GLOW。在这些框架中开发的机器学习模型可以为OCTEON 10 Neoverse N2和/或ML推理处理器轻松编译。然后可以将这些模型部署在目标硬件上或在Marvell虚拟平台上进行测试和调整,包括功能和周期精确的 ML 推理处理器仿真器。可用的驱动程序可以轻松集成到针对网络的现有应用程序中。

END

作者:Chaobowx
来源:https://mp.weixin.qq.com/s/OY3j2mjvCBOjKx2PZZAf9g
微信公众号:
软硬件.jpg

相关文章推荐

更多软硬件技术干货请关注软硬件融合专栏。
推荐阅读
关注数
2807
内容数
108
软硬件融合
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息