39

企业存储技术 · 2022年07月14日

DPU技术大讲堂的听后感

注:本文来自一位专家朋友的原创大作,希望大家喜欢。)

感谢现在媒体的行动力和能量,邀请到大热DPU赛道上的四家头部创业新贵,让我们一众群众有机会可以深入的看一下这些创新者的行业洞察和产品计划。

以前业内有个说法,一场产品战争,是从市场部的路标PPT战斗开始的。新时代了,战斗前置从“直播”分享开始。

一、大禹智芯:从业务需求推动底层创新

大禹智芯,作为第一个分享者,开头开得很好。大禹智芯对DPU的定位是云计算的第三引擎,对自己的产品目标也描述得非常清晰:面向广泛市场提供好用易用的产品。

第一个分享者担负着科普DPU的历史的责任。同样讲历史,大禹是从业界真实产品与真实应用的角度,分析并推导了DPU背后的产品逻辑,这与大禹的创始团队都是来自公有云大厂因此他们是最懂业务的团队这一背景非常相符。

大禹智芯的CEO李爽,曾任美团云总经理,他曾经分享过团队的产品策略,“从上层场景需求出发推动芯片等底层硬件的创新”,这也是DPU产品出现的逻辑,DPU是从公有云业务发展而来,是由业务场景反推出的一个产品,而不是由半导体公司主动定义然后去做客户推广的产品。

这个产品逻辑的也解释了大禹智芯的第一代产品是一个多核的ARM通用处理器SOC构成,到了第二代才加上FPGA以加速更高带宽的IO接口。通用ARM处理器的SOC架构意味着,这是一个以解决业务卸载为切入点的产品(而不是业务加速,降成本的产品)。这跟DPU最成功案例的AWS的Nitro是一样的发展经历。别以为DPU是一个硬件产品,这种高度可编程的芯片更多的工作在软件。刚刚被AMD以19亿美金收购的Pensando,2/3的员工是软件工程师。

image.png

此次分享大禹智芯没有透露他们的第三代产品信息,只说是去年年底就已经开始研发,相信今年6月加入的HPCA名人堂成员蒋晓维蒋博士会交一份不错的答卷出来。

二、中科驭数:存储与加速

作为第二个分享者, 中科驭数感谢了大禹智芯的对DPU的全面介绍,就直奔NVMeOF的存储方案。也不知道是不是默契,四场技术分享,大禹的重点是业务全景图,中科驭数局部集中在存储,云豹把管控部分讲得比较详细, 最后的益思芯则是围绕P4重点讲网络。没有出现,你讲OpenStack的管控方案,我就拿K8s来对比,你介绍25G卡,我就拿100G卡出来的有火药味的场面。

中科驭数花了蛮长的时间,介绍了NVMeOF的协议,演进和实现难点,如果对NVMeOF有兴趣,非常值得一听。

当然,我更感兴趣的是中科驭数展示的最新的KPU 2代的架构,在那篇著名的DPU白皮书中有提到,这次算是一次更详细的解读。

我对中科驭数的这个“软件定义”加速器技术,不算太理解,请教了一下之后的理解是:“软”的意思是指KPU 2代采用了大量的专用处理器,数据的处理工作是由专用处理核上的软件代码来完成,这里的“软”体现的是可编程能力。而“硬核”加速器的“软件定义”体现在硬核的调度顺序可编程上。无所谓是对专用处理器编程,还是对硬核调度编程,都是可编程,可软件定义的,虽然听上去都是有点难度的。

KPU中的片上网络FlashNOC, 盲猜是类似AXI cross bar结构。可用P4编程的128核网络引擎PPE,加上积累来的2年多的把TCP/IP栈全硬化的网络加速引擎NOE,兼顾了网络数据面的性能和灵活性两方面的要求。数据库/大数据加速引擎DOE,是最为独特的加速引擎,这是一般DPU所没有的,我只在IBM高端CPU见过。

总之,在加速器这块,有惊喜但是不意外,一方面中科驭数的孵化于研究专用处理器设计的中科院计算所和计算机体系结构的重点实验室,手熟;另一面中科驭数的产品理论是DPU要做“CPU做不好的,GPU做不了的”计算任务,加速器是一个有效途径。这个理念,好,也不好,加速器是比较容易做出彩,做出差异化的地方,但是也是在通用标准化相反方向上行走,这个方向需要有强大的产业领导力才能驾驭。

image.png

KPU 2代目前已经流片,下半年回片,这是四家中,芯片回来最早的,虽然并没有集成ARM处理器,还不是soc方案。希望回片之后,能够读到有关FlashNOC和PPE的论文,中科驭数主导的DPU白皮书是业界一流的白皮书,有实际产品支撑的论文水平也应该错不了。

三、云豹智能:高性能芯片推动基础架构创新

云豹智能对DPU的历史解读, 是从数据中心的带宽从10G/25G向100G升级,服务器算力没有跟上数据中心的带宽发展,从而形成了剪刀差,而且一直占据核心地位的CPU更擅长做串行复杂处理,并不擅长大量并行的固定网络数据处理的技术发展本身来切入的。

相对于大禹智芯从公有云业务出发,云豹智能更像是遵循的是传统芯片公司的角度, 是从下而上的推动底层硬件创新。但云豹智能绝对不是一家传统芯片公司,它一直强调“软件定义芯片”,这个与中科驭数的“软件定义加速器技术”相同点在于通过软件可编程能力去完成DPU架构灵活性,不同点在于云豹从设计的第一天起,从需求开始,就在构建可软件定义的芯片架构。

本次的技术分享,大约遵循公司的信息分享原则, 云豹智能的发言人并没有把他们对DPU的定位,一款世界级的极度复杂的高端芯片这样的远大目标直白的说出来,而是相当保守地分享了一个简略架构图,花了更多的时间在软件框架上。这颗高端复杂芯片的定位,也是和云豹智能的创始人有深厚的半导体公司的背景相吻合。

image.png

云豹智能在去年发布了一个基于FPGA的25G网卡产品,软件栈方面,会和后续的100G DPU产品无缝对接,可以当作低速预览版。

image.png

整场技术分享中, 云豹罗列的一个DPU要解决的挑战任务表,倒是确实体现了他们对云计算业务痛点的理解。虽然他们并没有分享他们会如何一一解决。希望明年交付的云豹DPU芯片可以带来最终答案。一个打算最世界级芯片的公司还没有公布任何硬件指标, 也挺让人期待的。

四、益思芯:P4

公平讲,益思芯作为最后一个分享者,如果想避开前面已经重点分享过的内容,还是不容易的。益思芯非常小心的把自己的主题定为P4。P4这种Domain-specific编程语言,确实提供了一个简化硬件设计,也简易化的软件编程的数据包处理语言。最初P4是为交换机而设计的,发展壮大之后覆盖面扩大,包括所有从核心到边缘的所有网络设备,特别适合不停演进且定制倾向强烈的overlay网络的需求。更好的是,如果服务器网卡侧支持P4,互联的交换机也支持P4,理论上可以形成交换机+服务器的全数据中心数据面的联动,这就是data center as a computer的具体呈现了。

虽然是David Patterson把DSA这个词炒热的,AI界的人力捧,但做出彩的是网络界的人。P4是一个杰出Domain-Specific语言, 一个简单的match-action模型,精准的描述出数据包的处理模型,在抽象和具体之间,拿捏到位,既针对网络,又与协议无关,把数据面很好的抽象出来。而且近十年演进,加上Intel买了Barefoot,又在自己的IPU内加入P4引擎,AMD买了Pensando,P4跟随这两大大厂,走在成为数据面的事实标准语言的路上。

益思芯现在的FPGA版本,未来的P4引擎,大禹智芯现在的FPGA加速器,下一代SOC的DSA网络引擎,中科驭数的NP类型的PPE,云豹的完全可编程DPU引擎,都能够完成相似的P4功能。理论上CPU:NPU:FPGA:DSA的实现效率比是1:10:20:80,实际性能功耗就看各家的落地能力了,让我们坐等测试数据。

在本次技术分享中,益思芯大方地放出了目前2X25G的FPGA卡上的3层实测(非估计)转发性能,这一点值得鼓励,实测数字也是非常好。

image.png

结束语:

无论是从业务卸载隔离出发, 从上到下的推动硬件创新,还是从下向上,用DSA硬件加速业务,业界对DPU的芯片架构认识趋于一致,必要的四个大子系统:通用的CPU子系统, 可编程的快速数据面,NVMe/RDMA/安全/压缩等加速引擎,再加上高速IO与存储接口子系统。

加速引擎可能是最能区别化不同厂商设计等部分, 也会是决定性能和灵活度关键技术点。但加速引擎也是一个双刃剑,光做硬件,软件生态没有跟上,效果归零。第一代的主打加速的SmartNIC, 例如原Cavium现在Marvell的LiquidIO, 博通的Stingay的结局并不算好。

当然,这么强大的一颗DPU芯片,不会仅仅作为网卡形式出现。格局打开,更多的产品形态就出现了,防火墙,负载均衡器,5G RAN 控制器,交换机等等,例如Asterfusion公司的可编程交换机就是一个P4 Switch+DPU的超级豪华版本。

image.png

大家在白皮书/PPT/直播间里展示过的肌肉,最终都是要在机箱内,机架上实操的。Talk is cheap,show me your chips。

作者:winner shao
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏, 欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
5615
内容数
264
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息