焱融科技YRCloudFile率先支持 NVIDIA GPUDirect Storage（GDS）

封图.png
2020 年 GPT-3 模型的参数量首次突破千亿大关，达到了 1750 亿，堪称“大力出奇迹”。今日凌晨，万众瞩目的大型多模态模型 GPT-4 正式发布！GPT-4 是多模态的，同时支持文本和图像输入功能。该版本“更强大”，模型精度随着模型尺寸及训练数据的增加而显著提升。

训练巨量模型需要巨大的算力，但随着数据集和模型规模不断增加，应用程序载入数据所花费的时间变得越长，进而影响了应用程序的性能，缓慢的 I/O 严重拖累GPU 的强大算力。如何大幅提升 GPU 载入大型数据集的速度将是计算和存储系统共同面临的最大挑战。为更加完美地满足大规模计算集群对于存储系统的数据访问需求，进一步发挥强大的 GPU 计算能力，将性能发挥到极致，焱融技术团队历时 6 个月的时间完成对 NVIDIA GPUDirect Storage（GDS）的适配开发，实现以直接内存的存取方式，将数据传输至 GPU 内存上，显著降低 I/O 延迟，提升数据带宽。

GDS 简述

现代 AI 和数据科学工作是由大量数据驱动的，随着人工智能以及高性能运算的数据集规模不断增加，GPU 计算和数据中心存储系统之间的快速通信变得至关重要。数据从 NVMe 磁盘传输到 GPU 内存的标准路径，传统的方式是由 CPU 控制的，使用系统內存中的回弹缓存（Bounce Buffer）做数据的中转。这种操作过程会产生额外的数据拷贝工作，造成很大的系统开销。当数据集的规模不断增加，应用程序载入数据花费的时间会变得越来越长，进而影响了应用运行的性能。

NVIDIA GPUDirect Storage（GDS）技术通过 DMA 引擎将硬盘数据直接写入 GPU 显存，这种以直接内存的存取方式，避免了内存 bounce buffers 所带来的额外数据拷贝，从而实现 CPU 和主存的 IO 旁路，使 IO 吞吐能力不再受限于系统总线的带宽压力。近来，由于高速 RDMA 网络的普及，GPUDirect storage 可以高效地直接访问远端存储设备，诸如一些 NVMe的 target 方案和一些企业级分布式存储产品，它能有效减轻 CPU I/O 瓶颈，提升数据传输的 I/O 带宽的同时，降低I/O延迟。

支持 GPUDirect 技术的性能收益

英伟达开发的 GPUDirect Storage 技术，大幅提升 GPU 载入大型数据集的速度。GDS 通过更快、更直接的数据路径提高了存储和 GPU 之间数据移动的效率。数据直接从主机上的网卡(NIC)传输到 GPU，而不需要经过系统内存和 CPU。这种方式消除了系统架构中 IO 路径瓶颈，减少了不必要的数据复制，降低了延迟，同时，释放出来的计算资源还可用于深度学习中诸如图形处理等其他业务。NVIDIA 表示通过支持 GPUDirect 技术能够带来多方面的性能收益：

• GDS 在存储和 GPU 之间提升 2～8 倍的数据传输带宽。
• 避免了 CPU 在内存中的 bounce buffers 拷贝，在某些场景下端到端传输的延迟能够实现 3.8x 的降低。
• 当 GPU 并发度增加时，GDS 仍然保持稳定的低延迟输出。
• GPU 不仅作为实现最高带宽的计算引擎，同时也作为实现最高 IOPS 的计算引擎。在某些场景的实测数据表明，如果单纯使用 CPU，吞吐率仅能达到 50GB/s；而在使用 GPU 之后，吞吐率可达到 215 GB/s。因此，能支持 GDS 的存储系统更能充分匹配前端的异构计算能力。

GPUDirect Storage 架构图

焱融分布式文件存储系统 YRCloudFile 支持 GDS 的大体流程：

YRCloudFile 客户端向 nvidia-fs 注册后，cuFile 打开一个 YRCloudFile 集群文件，会将 nvidia-fs 和 YRCloudFile 的特定接口进行绑定，当 io 下发到 client 中，client 检测该 IO 是否是 GDS 的请求，如果是，则回调 nvidia-fs 的 map 接口，获得 sglist 请求的 dma 地址，借助底层驱动能力，实现数据的RMDA 传输。

写到最后

NVIDIA®Magnum IO GPUDirect® 技术，能够显著降低 GPU 服务器内的 CPU 占用率，增加存储带宽并减少延迟。焱融科技是国内支持 GPUDirect® 功能的首家分布式文件存储厂商，能够更好地管理数据路径。焱融文件存储系统与 GDS 的组合使得数据在应用程序和存储之间通过更短、更有效的路径传输，实现 1+1>2 的功能效果。从而使支持 GDS 的应用程序能够充分释放 GPU 计算能力，为人工智能和机器学习（AI/ML）以及数据分析等业务加速。

2022 年，焱融追光全闪文件一体机单存储节点达到 40GB/s+ 带宽和 200万+ IOPS 性能，并应用于人工智能、智能汽车、智能制造、教育等行业生产环境中，为企业用户成功构建高性能存储平台。在服务全球 500 强制造业的客户中，完成国内首个双 200Gb 网络聚合分布式文件存储集群部署，实现 AI 计算平台破千万 IOPS 性能实践。

推荐阅读

焱融科技

目录