Amiya · 2021年06月24日

FPGA近数据处理NDP

近数据处理NDP(Near Data Processing),与近内存计算相近的一种处理模型。

背景

数据中心对节能计算的需求日益增长,引发了越来越多的CPU-FPGA加速平台,这些平台可以进行重新配置,以加速性能/瓦级增益的广泛应用。连接FPGA作为IO连接的加速器是在系统中部署加速器的最常见方法,特别是对于计算密集型应用程序。虽然这种平台的性能和功耗收益是符合期望的,但其适用性受到工作集大小的限制,工作集大小不能超过加速器的专用DRAM容量。

典型的服务器工作负载可能包含一组不同的计算和通信绑定应用程序,一些应用程序,经常与内存或存储中的数据集进行交互,它们的吞吐量对用户体验至关重要。但是,当今的商用硬件解决方案通常遵循以计算为中心的设计,对于许多这样的用例来说,这种设计缺乏足够的数据访问带宽,并导致大量的数据传输延迟和能源消耗。

以数据为中心的计算带来的潜在好处使人们对近数据处理(NDP)体系结构产生了新的研究兴趣。已经提出并研究了大量的近内存Memory和近存储Storage加速器模型。希望在不久的将来看到具有一种或多种类型的FPGA资源的异构服务器机架能够用于服务器工作负载。因此,分析每个FPGA资源的适用性对于加速常用的数据中心应用至关重要。

计算为中心加速器

(1) PCIe连接专有内存加速器

最常见的集成是通过PCIe将配备专用内存的FPGA板连接到CPU。Amazon EC2 F1实例和Microsoft Catapult boards由于其灵活性和易于插入而使用这种集成。它们通常受到主机CPU和FPGA之间的有效PCIe带宽和延迟的限制。因此,它们最适合于粗粒度任务,这些粗粒度任务的初始有效负载传输量较大,其次是高数据重用。如果数据集可以放入片上内存或PCIe连接的FPGA的板载DRAM(例如32GB或64GB DDR4),则可以从该平台获益。但是,许多数据集超过了设备内存容量。

(2)共享内存片上加速器

与FPGA DRAM不同,主机端DRAM的容量可能远远大于64GB。为了利用更高的内存带宽和容量,提出了更紧密的服务器FPGA集成,将CPU和FPGA耦合到一个芯片封装package中,并提供共享内存、缓存一致性接口,以允许对CPU缓存或内存进行无缝数据访问。最近,Intel推出了两种这样的片上FPGA平台(AgileX,XeonSP),它们通过缓存一致接口将Xeon处理器和FPGA结构连接在同一个芯片中。Xilinx还引入了Versal ACAP平台,该平台使用CCIX(用于加速器的高速缓存一致互连接口)将FPGA连接到主机CPU。此外,由于通用ACAP能够在不到一毫秒的时间内交换部分比特流,因此可以同时被多个实时应用程序使用。然而,一旦工作集超过片内缓存容量,其加速就受到片外存储器访问延迟和带宽的限制。

以数据为中心的加速

(1)近内存Memory加速器

新兴内存和三维堆叠技术的进步被认为是接近内存处理的真正推动者。逻辑芯片和存储器的堆叠使用硅通孔(TSV),允许更低的存储器访问延迟和更高的带宽。AMD和Hynix的高带宽内存(HBM)和三星的宽I/O是内存行业竞争的3D内存产品。逻辑芯片包含一个专用的内存控制器,可以包含简单的SIMD内核或用于数据分析的嵌入式FPGA芯片。然而,WideIO用于移动SoC系统,而HBM用于填充服务器内存和替换传统DDR4的成本很高。

高端服务器每个插槽的内存通道数量有限。多个DIMM通常共享同一个内存通道,这限制了CPU的总体带宽。近DRAM加速器有助于实现更低的延迟和更高的带宽。例如,Copacobana将FPGA模块直接构建到DIMM中。AIM将FPGA模块放置在每个DIMM和内存总线之间,使设计不影响现有的内存控制器、内存总线和DIMM。Contutto将加速器插入POWER8机器的DIMM插槽中,并通过端到端实验展示了加速的原理。

(2)近存储加速器

随着非易失性存储器(NVM)技术的革命和更强大的嵌入式处理器的出现,近存储加速的概念最近引起了人们的极大关注。这主要是因为基于NVM的SSD通常具有非常高的内部带宽,超过其到主机的外部带宽的2倍到4倍。因此,与将数据一直传输到主机CPU相比,在存储器附近处理数据可以获得更高的性能和节省更多的能源。近年来,学术界和工业界对基于NVM的近存储加速器进行了一些研究。Samsung SmartSSD、IBM Netezza、Mobiveil、Willow和BlueDBM等项目将FPGA单元放置在闪存控制器和主机IO接口之间。

小结

基于FPGA的近存储加速器遵循类似的体系结构,以数据块粒度(4KB或8KB)访问闪存芯片。近存储加速器具有独立的1GB DRAM缓冲区,以隐藏访问粒度问题,减小响应延迟。

作者:珠穆朗玛2048
来源:https://zhuanlan.zhihu.com/p/365385814

更多FPGA智能网卡相关技术干货请关注FPGA加速器技术专栏。

推荐阅读
关注数
1601
内容数
22
阐述CPU性能瓶颈问题如何破解,FPGA如何突围
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息