软硬件融合 · 2021年07月27日

Pensando的DPU,分布式服务卡DSC

编者按:
Pensando 分布式服务卡DSC(Distributed Services Card)是对标AWS Nitro卡的功能,主要聚焦在数据中心加速,专门用于优化网络、安全和存储相关计算任务的处理。Pensando的最大优势在于其实现了支持P4网络数据面编程的处理引擎,是当前已知的唯一商用的芯片ASIC实现的网络侧P4数据面编程引擎。
本公众号下一篇推送文章,会聚焦Pensando的P4数据面编程引擎。

本文参考文献:

面向云运营商的分布式服务

1 云运营商面临的挑战

当涉及到客户需求、可靠性和可用性时,云运营商已经进入了一个新的领域。云运营商的基础设施现在成为无数企业、政府机构和全球企业的数据中心骨干。构建云基础设施的挑战不仅仅是为IaaS提供计算、网络和存储:

  • 规模:支持数百万条路由、安全策略、网络访问列表、隧道端点、ECMP路径、虚拟块存储等。通常,这些需求并不是相互排斥的,因此在超大规模的数据中心中,可扩展性是一个主要问题。
  • 混合工作负载:为各种工作负载提供统一的策略支持层,包括裸金属、虚拟化和容器化。
  • 安全性:租户级隔离保证。支持动态数据和静止数据的加密,以及安全的密钥管理。
  • 效率:最优的资源利用(CPU核、内存、存储和网络)是竞争的基本要求。功率的冗余很少,资源分配必须是动态的,所有功能都应该同时可用,并以最佳方式交付新功能。
  • 灵活性:云基础设施中的业务功能变化速度非常快。使用开放API,交付敏捷的基础架构应该简单而灵活。

1.jpg

传统的“纵向扩展”方法——将网络服务嵌入到机架顶端的交换机、路由器或安全设备中——已经不能跟上需求了,由于策略表膨胀和活动流的数量达到数百万,受到性能或规模的限制。这种集中式资源模型的限制和费用导致数据中心架构师将核心网络基础设施功能限制为简单地传输IP流量,延迟和抖动尽可能小。

正如计算和存储系统正在采用“横向扩展”方法一样,云数据中心的网络和安全元素也必须采用“横向扩展服务架构”,这些功能需要在这个模型中找到一个新的位置。

实例化这些服务的理想位置是服务器边缘(服务器和网络之间的边界),在这里可以以可扩展的方式提供Overlay/Underlay隧道、安全组强制和加密终止等服务。由于每个服务器边缘节点与单个服务器紧密耦合,因此它只需要知道与该服务器及其用户和应用程序相关的策略。当添加新服务器时,随着服务功能的增加,这种方法自然可以扩展。

2 Pensando分布式服务平台

Pensando分布式服务平台的架构是为了解决云环境中所有类型的工作负载(容器化、虚拟化和裸金属)的上述挑战。

Pensando分布式服务卡(DSC)是基于定制设计的特定领域可编程处理器,为包处理提供高度优化的硬件,并提供一套广泛的软件定义的网络、安全、遥测和存储服务。Pensando DSC以100G线速运行,具有高性能、低延迟、低抖动和针对最大云运营商的最高可扩展性。

Pensando DSC的一个关键点在于,不仅是提供的业务的综合数量,而且还包括将业务以可编程的顺序链在一起的能力,在不损失100Gbps性能的情况下,有几微秒的延迟。
table1.PNG
table2.PNG

3 大规模集群的性能

云部署需要非常大的规模和性能,同时启用所有功能。Pensando DSC的构建是经过仔细考虑的,它允许多个并行匹配操作处理引擎为IO处理提供缓存邻近或位置,以实现所有业务功能的规模和性能的独特组合,而不管顺序如何。

4 特定领域体系结构

当摩尔定律达到极限时,使用通用CPU来管理基础设施操作,如网络、虚拟防火墙等,对于云规模的部署并不理想。即使在可行的情况下,以CPU为中心的方法通常也是低效的(功耗/成本vs处理能力),特别是考虑到100G基础设施的需求。

Pensando分布式服务平台包括一个创新的领域特定架构,作为服务器PCIe总线上的智能加速器,允许完全控制网络转发和数据路径/流水线编程。

在每个服务器上实例化智能网络边缘可以实现固有的可扩展性。随着数据中心的快速发展,解决任何一个问题往往会产生多个不相关的问题。Pensando采取了一种可扩展的整体方法,提供了一个分布式软件定义平台。该平台不仅隐式地提供了标准网络服务,而且通过允许云运营商在服务器Edge上定制、编程和控制所有方面的网络流量,提供了敏捷性。

5 可编程数据路径

除了高级的软件定义网络和安全服务,Pensando还通过DSC提供数据平面编程,通过p4可编程的数据管道,允许对云运营商的基础设施堆栈的每一层进行定制。云计算供应商现在可以完全控制并承担网络和存储堆栈及其所有元素的全部所有权。

2.jpg

图1: Pensando分布式服务卡的可编程性

为了使云运营商能够与他们自己的云控制平面完全集成,Pensando DSC允许云运营商拥有整个软件堆栈,或者通过REST/gRPC api使用Pensando特性包。

6 分布式网络安全

Pensando为租户工作负载提供有状态的安全组和防火墙,并提供连接跟踪,实施点与这些工作负载完全隔离。云运营商可以使用DSC为裸金属、虚拟化和容器化的工作负载提供安全组或网络访问控制列表(nacl)。

Pensando的可编程数据路径允许云供应商使用各种属性(如VLAN、MAC地址或VF)来识别租户工作负载,以实现网络隔离。允许不同的租户安全地共享给定的物理服务器,以更大的灵活性提高VM密度。

7 无缝操作的集成

如下图所示,Pensando的DSC也可以在插入式线路模式下使用,以提供各种内联服务,而不需要在服务器上安装任何Pensando软件。网络策略和防火墙规则作为远程网络线路卡部署到服务器上,而不是基于主机的接口。策略管理和配置可以与云运营商自己的管理/控制平面集成。所有服务器和相关应用程序都能获得所有的安全性和性能优势,而不会产生任何CPU开销,也不会对主机操作系统造成任何影响。此外,云运营商可以通过统一的、与os无关的裸金属、虚拟化服务器和容器管理方法获得巨大的收益。

3.jpg

图2: Pensando DSC被部署为一个“Bump-in-the-Wire”

8 用于基础设施保护的Pensando HardGap™技术

HardGap™技术提供了PCIe层的安全硬件隔离,在服务器上运行的任何软件之间从DSC强制引擎。这对于云运营商来说至关重要,以确保租户在任何情况下都无法访问云基础设施。

4.jpg

图3: Pensando HardGap技术

9 Pensando DSC软件包

尽管云运营商可以在DSC上的数据路径和软件堆栈中开发定制的业务功能,但Pensando提供了一套功能齐全、高度优化的各种业务功能,专为云环境设计。可以使用行业标准的REST/gRPC接口访问软件堆栈,实现云对象模型。

10 总结

由于客户越来越多地采用混合云架构,云基础设施继续加速增长,云运营商对性能、可伸缩性和功能的需求将不会停止。

以Pensando的分布式服务卡为基础的下一代公共云架构,将实现交付云服务所需的可靠性、灵活性和可视性。这与可伸缩性和性能的数量级改进相结合,将在未来证明其基础设施的增长,并使领先的公共云运营商取得成功。

面向企业的分布式服务平台

1 云规模的网络、安全和存储服务

应用程序的数量和多样性的大规模扩展,以及通过企业数据中心生成和传输的数据量的爆炸式增长,已经推动了现代IT基础设施的架构极限。传统的“纵向扩展”方法(将网络服务嵌入到机架顶端的交换机或网络和安全设备中)已经无法跟上需求,由于策略表的膨胀和活动流的数量达到数百万,受到性能、敏捷性或规模限制的影响。这种集中式资源模型的限制和费用导致数据中心架构师将核心网络基础设施功能限制为简单地传输IP流量,延迟和抖动尽可能小。

正如计算和存储系统正在采用“横向扩展”方法一样,数据中心的网络和安全元素也必须采用“向外扩展服务体系结构”,这些功能需要在这个模型中找到新的位置。实例化这些服务的理想位置是服务器边缘(服务器和网络之间的边界),在这里可以以可扩展的方式提供加密、隧道和VPN终止等服务。由于每个服务器边缘都与单个服务器紧密耦合,因此它只需要知道与该服务器及其用户相关的策略。这种方法自然可以扩展——当部署新的服务器时,将提供更多的服务功能。

Pensando的“分布式服务平台”在计算边缘提供了一套强大的软件定义服务。Pensando的技术易于安装在标准服务器上,提供高性能的可扩展网络、安全和存储功能,消除了整个数据中心的各种离散设备,并极大地简化了IT操作,同时提供无与伦比的遥测、I/O可见性和故障诊断见解。

2 Pensando分布式服务平台

5.jpg

Pensando分布式服务卡(DSC)建立在基于P4可编程处理器的优化的特定领域硬件上,并位于服务器边缘,将软件定义的服务带到应用感知网络处理和可见性最有效的工作负载附近。

Pensando政策及服务过管理器(PSM)控制系统的所有方面,包括所有DSC的生命周期管理和运行状况监视。资源可以自动分配,新的软件定义服务可以从一个窗格中部署。PSM可以无缝地将网络配置、加密密钥等分发到主动分布式服务节点,以一致地管理网络性能,同时确保遵从性。全面的遥测功能支持全面的数据中心可见性、问题的快速故障排除,并支持在问题发生前采取主动步骤来避免问题。

3 多环境支持

在VMware ESXi等虚拟化计算环境中,Pensando解决方案通过普遍可见性增强了基本虚拟化功能,提高了性能和安全性。在裸金属和容器环境中,分布式服务平台还包括防火墙和微分割功能,对主机操作系统和应用程序完全透明。
table3.PNG

4 软件定义的基础设施服务(SDIS™)

基于服务器的网络服务将网络设备的智能和弹性扩展到服务器,大大简化了网络运行模型。与使用多供应商设备实现服务功能的传统方法相比,具有基础设施服务(如安全、加密、QoS、负载平衡和遥测)的扁平架构具有更低的延迟,更容易进行集中重新配置和管理。

网络和服务层是解耦的,因此网络决策可以独立于安全体系结构做出——不管底层传输机制如何,策略都保持不变。

5 统一管理

在云尺度上管理安全需要以一种新的方式来考虑管理和安全。Pensando的策略和服务管理器利用了一种基于意图的模型,将网络和安全策略交付给DSC节点,以便在边缘实现服务。使用基于意图的模型,IT管理员可以确保在支持数千个节点的多租户域内,所有安全和网络策略都是一致的。分布式服务节点结合了gRPC和RESTful管理api,用于管理和监控所有平台能力。

PSM系统为高可用性和容错设计,具有分布式和冗余性。它和分布式服务卡之间的所有通信都经过加密和身份验证。Pensando分布式服务平台可以通过其“北向”API与PSM通信,或者通过gRPC / REST API直接与DSC连接,与现有的中央管理基础设施进行平滑集成。

6 用例

  • 深度网络和安全能见度及遥测
  • 路由、段路由、MPLS、BGP
  • SDN和具有底层/覆盖封装的虚拟网络(VXLAN等)
  • 数据中心内部东西方加密
  • 存储虚拟化,包括NVMe-oF

7 服务包组合

定制的业务包可以满足数据中心的特定需求。通过使用安全网络(OTN)软件更新,PSM可以在现场部署额外的功能和更新。

基线DSC产品提供了全面的网络I/O功能,并与可用的软件订阅包相结合。

  • 高级可观察性-基于流的数据包遥测,状态连接跟踪,延迟指标,下降统计,阈值报警,ERSPAN(双向),NetFlow/IPFIX捕获
  • 高级网络-overlay网络(如VXLAN),软件定义网络(SDN),NAT
  • 高级安全-东西加密(IPsec), TLS/DTLS加密,TLS代理,裸金属和容器环境的有状态的L4防火墙与ALGs和URL过滤,基于微切片和报文的攻击保护
  • 增强存储-NVMe虚拟化,带TCP传输的NVMeoF,静态数据加密,数据压缩,重复数据删除加速

8 增强的数据中心安全性

越来越多的客户报告说,超过80%的数据中心流量来自东西方向。安全形势正在演变,数据中心内部普遍存在威胁,使基于边界的解决方案失效。企业正在认识到分布式主机服务的价值,而Pensando的解决方案通过将网络、安全和存储服务与服务器CPU隔离开来,提供了独特的价值:
table4.PNG

9 全天候遥测和深度可视化

Pensando DSC将复杂的遥测技术带到了边缘,在不影响应用性能的情况下提供了网络和存储的实时观测能力和洞察力。它可以关联数据包并执行消息级推断。Always-on遥测技术使主动端到端故障排除和问题报告成为可能。

Pensando PSM中的本地工具使基础设施能够自动报告潜在的问题,例如基于防火墙统计数据(策略下降、已知的攻击向量、探测多个端口)、带宽使用模式、连接持续时间(短寿命vs长寿命)、已建立连接的数量、传入/传出连接的速率、传入与传出连接的数量、数据内容(应用程序内不一致的数据模式)和其他标准。

通过其硬件加速的遥测引擎,DSC支持主动测试和探测,而不影响延迟或影响服务器CPU资源。

这些强大的可见性工具使IT管理员能够:

  • 大大提高了整个基础设施的修复时间
  • 自动化问题检测和修复
  • 主动监控和管理系统健康状况

10 全面审计和合规

明确的“零信任”策略实施和可选的数据加密能力符合受监管行业的最佳实践要求。

防火墙、Syslog和Audit日志可以导出到行业标准的SIEM软件,如Splunk、Elastic,并兼容第三方分析插件,如Bro/Zeek。PSM支持对所有审计日志保留6个月,具有灵活的归档选项。

11 行业领先的平台

Pensando定制设计的Capri™P4可编程处理器为DSC提供动力,通过隔离的策略执行实现线速性能并增强安全性。数据平面和控制平面完全由软件定义,并由硬件加速器支持。高达8g的片上高带宽内存(HBM)为最大的企业部署提供了低延迟和巨大的流表容量。

12 部署选项

table5.PNG
table6.PNG

13 部署配置

Pensando DSC被安装到标准服务器中,以提供高级服务以及高速网络I/O端口。PSM管理带内或带外DSC设备。

分布式服务卡部署在服务器上

6.jpg

14 性能

DSC向服务器提供100G线速服务,包括连锁服务,如加密和基于流的网络遥测。
table7.PNG

15 规模

分布式服务卡可以被软件定义为多种配置,以支持最大的数据中心的巨大规模,其中一个详细如下:
table8.PNG

作者:黄朝波
来源:https://mp.weixin.qq.com/s/bkJQVkhLnJoJXOGcloNc8A
微信公众号:
软硬件.jpg

相关文章推荐

更多软硬件技术干货请关注软硬件融合专栏。
推荐阅读
关注数
2803
内容数
104
软硬件融合
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息