Pensando DSC：网卡侧的数据面可编程架构

编者按：

Nick McKeown在ONF Connect 2019演讲中定义了SDN发展的三个阶段：

第一阶段（2010–2020年）：通过Openflow将控制面和数据面分离，用户可以通过集中的控制端去控制每个交换机的行为；
第二阶段（2015–2025年）：通过P4编程语言以及可编程FPGA或ASIC实现数据面可编程，这样，在包处理流水线加入一个新协议的支持，开发周期从数年降低到数周；
第三阶段（2020–2030年）：展望未来，网卡、交换机以及协议栈均可编程，整个网络成为一个可编程平台。

这预示着，未来不管是交换机侧还是网卡侧，均需要实现类似CPU与通用程序设计的完全可编程的网络处理引擎，并且要基于此平台实现一整套的软件堆栈。把一个完全可编程的网络交给用户，支撑用户更快速的网络创新。

站在业务的角度，在网卡侧实现P4的可编程平台的意义比交换机侧更加重大。在网卡侧可以实现非常多的更高层的协议甚至自定义协议支持，不仅仅是网络2-3层的协议支持。

Pensando的DSC芯片，是已知的全球第一家商用的网卡/边缘侧的P4数据面编程DSA引擎。本文将对Pensando的可编程数据面架构做一个基本的介绍。

参考文献：

https://opennetworking.org/wp...

网络边缘侧的可编程数据面架构

Mario Baldi，Pensando公司Distinguished技术专家。

他是一个非常活跃的P4社区成员，工作在可编程数据平面。

他的主题演讲是网络边缘侧的可编程数据面架构。

演讲的大纲主要如下：

第一个是，在网络边缘侧如何实现分布式服务，也即对Pensando平台的介绍。
第二个，要介绍的是关键的DSC卡的架构，它是整个问题的核心。
接下来是几个代表性的案例，来看看整个架构如何支持我们描述的这些功能。
最后，看看这张卡实现上述这些案例的性能数据。

DSC卡的主要功能是可编程处理器。我们设想，数据中心的每台服务器都可能部署这样一张卡，这样我们提供服务的范围就越广。

在卡上，我们可以实现网络服务如网络负载均衡，安全服务如状态防火墙、解密卸载、TLS卸载或微分割，或者存储服务如分布式存储。

最后是遥测和可视化服务。

我们可以从卡中收集生成的或接收的流量的有限信息，可以监控，也可以捕获需要的流量。

这些卡是分布式的，但是是通过集中式的管理程序进行管理的。我们称之为策略和服务管理器（Policy and Services Manager）。

这是DSC（Distributed Services Card）的架构图，首先这是一个Host适配器。一端通过PCIe连接Host，一端通过Ethernet连接到网络。网络一般连接到TOR交换机。

有两个Ethernet端口，DSC卡有两个版本，1个是25Gx2，另一个是100Gx2。

从网络进来的数据存储在Packet Buffer中，这是一个排队系统，通过一个交通管理器（Traffic Manager）管理。TM具有各种QoS、调度算法等。

然后数据进到一个支持P4数据面可编程的包处理器引擎。在包处理引擎进行处理之后，发送的数据会转发到Packet Buffer用于发送；接收的数据则转发到主机。

此外，集成的高性能ARM Core也可以在必要的时候进行数据处理。例如，有些复杂的处理用ARM Core要更合适一些。

其他一些卸载功能，如加解密等安全类这些数据处理密集型任务的加速，则是在Service处理卸载模块里进行处理。

最后，内存支持2/4/8GB等规格，在一些大数据量的处理中，内存的作用非常关键。

接下来，讲一讲基于Pensando创新的DSC架构加速卡，有哪些典型的应用场景。

首先是TLS卸载。这个是SmartNIC的典型场景。但DSC和SmartNIC不完全相同。

需要在DSC中完成TCP连接打开/关闭、连接状态、流量控制、拥塞控制等。

并且需要对传输的数据进行加解密，这些都是非常消耗CPU资源的任务。

所以，最终是在DSC中实现TLS代理，最终各种网络的HTTP访问在DSC中的TLS代理终止，DSC创建一个HTTPS访问到网络中。

如何在DSC架构上满足这些功能？

接收的Host侧的网络包之后，首先送到包处理引擎。通常的包直接在P4包处理流水线进行处理，如果是TCP连接和TLS会话的包则转发到ARM Core，由软件进行处理。主要进行的工作有连接建立，把状态更新到P4包处理流水线的Table中。

之后的数据包继续在P4包处理器流水线进行处理，如果需要加解密，则需要调用服务处理卸载部分的加解密引擎。

另一个案例是基于TCP的NVMeoF。

这里给裸机暴露的是NVMeoF的设备接口；而虚拟机则是通过NVMe emulation暴露的是NVMe的设备接口，但最终还是通过Host侧的NVMeoF接口连接到后端NVMeoF Target设备。

如果想要卸载这些功能，则在DSC卡上要实现NVMe Emulation，然后通过NVMeoF接口连接到后端设备。

来自Host侧的消息命令，通过基于RDMA或TCP的NVMeoF转发到后端设备。

NVMeoF卸载在DSC中的映射：

PCIe接口接收到上面的NVMe命令，然后这些命令会在P4包处理引擎中被转换成NVMeOF格式。存储数据是敏感数据，如果不希望在网络中明文传输，则可以通过服务处理卸载部分的加速引擎进行数据加解密、数据摘要的生产和验证。

DSC卡是附属到Host的，DSC是专门的集中管理工具进行管理，Host不需要安装任何其他软件。

再一个例子是东西向的防火墙。用来保护服务器之间的网络数据传输。

东西向的流量比南北向的流量大的多。

南北向的流量通常指的是流出数据中心的流量，而东西向流量则指的是数据中心内部服务器之间的流量。因此，东西向的流量对延迟也要更加敏感。

在交换机侧解决traffic tromboning不是一个很合适的地方，而应该是在Edge侧。

DSC是解决Traffic tromboning的最合适的位置。首先呢，所有的网络包都要经过这里。

在DSC侧实现防火墙，不需要网络包在网络中传输两次。

实现Flow Caching来降低延迟，首包的时候来评估规则，知乎把规则下放到flow cache里，之后的网络包则由硬件进行处理。

在DSC中，对有状态防火墙的支持。

当网络包属于已知的流时，即这个规则在Flow cache table中，这个包直接转发；当一个新的流的包时，则需要经过整个包处理的流水线进行详细的处理，来决定到底是该确认还是该拒绝。然后数据包会被送到ARM Core，由软件来创建转发和撤销Flow Cache表中的流表项。

数据包被重新送到包处理引擎，基于新的已安装的Flow Cache项进行处理。

新的流下载到流表中，有几种方式：

第一种，网络包和行动都送到CPU，CPU软件解析数据包并更新转发和撤销流表项。这种方案比较依赖CPU软件，大约一秒处理100万条新的流。
第二种，包处理引擎流水线已经解析了相关的元数据，并把他们送到CPU，CPU软件创建转发和撤销流表项。这种方式性能提升3倍，达到每秒300万新流的处理能力。
第三种，包处理引擎流水线解析相关的元数据，并送到CPU，然后流水线创建转发和撤销流表项。这种实现当前还在进行中，没有具体的性能数据。

在DSC中提供了可编程的流水线处理，实现了很多独一无二的feature；并且，流水线和其他组件紧密集成，可以实现非常复杂的应用支持以及非常高的性能。

第一个性能测试，是通过交换机相连的两个网卡进行iperf点对点测试，并且在DSC运行分布式的有状态防火墙。

性能如图所示。小包下大概有33Mpps以上的包处理能力，然后在2K及以上大小的包，基本能实现接近线速的带宽。

我们采用上图左边的连接，称之为Bump-in-the Wire模式，DSC是从一个网络口进从另一个网络口出，DSC用来做防火墙。这种方式适合于原有的系统因为各种原因不适合做改动的情况。

我们实验环境采用的是通过Server连接两个DSC的方案，如上图右上角所示。

性能数据如图所示，主要是由于数据包主要是在经过高度优化的DSA实现的P4可编程包处理引擎上进行的。

最后，总结一下。

我们给出了DSC的架构概述，也介绍了如何使用DSC卡实现各种服务和应用，实现Host侧Workload的卸载。同时，也可以把一些集中的交换机侧的任务分散到DSC去实现，降低交换机侧的复杂度。

并且，DSC卡能够实现高吞吐量、低延迟和低抖动，并且完全独立于Host工作。

（正文完）

作者：黄朝波
来源：https://mp.weixin.qq.com/s/Uesh59ita6MYGiWWSw6TOQ
微信公众号：

相关文章推荐

更多软硬件技术干货请关注软硬件融合专栏。

网络边缘侧的可编程数据面架构

推荐阅读

目录