AI的存储需求:训练和Checkpoint

我在昨天的撰文《VMware分层内存愿景:NVMe与CXL Accelerator方案》中,刚发过SNIA 2024 Compute, Memory, and Storage Summit的资料,今天这篇我也是整理自这次会议中的一个演讲。

链接:https://pan.baidu.com/s/1vdGW-AZ2hUaJO1TxROTNsQ?pwd=auy7

提取码:auy7

image.png

主题《Storage Requirements for AI:Training and Checkpointing》的分享人是来自Dell存储CTO部门的John Cardente。

image.png

AI的繁荣正在推动对GPU的惊人需求,这导致需要最大限度地提高它们的利用率。

image.png

最大化GPU利用率需要平衡计算、网络和存储性能。上图中的“东-西向”网络是GPU服务器节电之间的互连;而“南-北向”网络是连接到存储,用来读取训练数据,写入模型相关的内容。

image.png

存储在整个人工智能生命周期中扮演着重要角色。在数据准备——训练和调优——推理这3个阶段,本次讨论聚焦在第二阶段。

image.png

AI模型训练使用训练数据批量更新权重,并设置定期检查点(checkpoint)以进行恢复。

image.png

关于训练读取性能需求的信息有限;GPU基准测试(具体是MLCommons的MLPerf Training benchmark)提供了一种估算的方法。

image.png

训练数据存储的读取带宽需求差异很大;这取决于模型的计算约束和输入大小。

在上表列出的应用类型中,GPT3 LLM大语言模型的175B参数量、305GB的C4数据集都是最大的,但它需要的训练数据读带宽却很小(可能是平均值?)。原因应该是他的数据对象输入大小只有8K字节,使用32个H100 GPU的模型吞吐量(每秒训练样本数)只有19.5K,在这一环节中可以看作是偏计算密集型。

相比之下,3D U-Net三维图像分割的模型参数量只有19M,训练数据集也只有27GB,但输入大小(每个图像)达到92MB,并且每秒训练样本数为463,所以训练数据读带宽需求高达41.6GB/s。

另一种比较典型的Resnet-50图像分类,模型参数量也不大,输入大小中等,但每秒训练样本数较高达到55K,所以训练数据读带宽也达到41.6GB/s。

image.png

示例:由DLIO基准测试模拟的ResNet-50训练。

image.png

通过NFS(文件存储)读取训练数据会产生连续的顺序IO流,IO大小在64KB到256KB之间,且与批量大小无关。

image.png

通过S3(对象存储)读取相同的ResNet-50训练数据会产生更大的顺序20-50MB IO操作。

image.png

当多个模型实例在同一服务器上训练时,NFS会从操作系统的页缓存(Page Cache)中受益。

image.png

检查点(Checkpoints)会定期保存训练状态,以便在发生故障或中断后恢复训练。

image.png

Checkpoint的累积写入带宽需求,取决于模型大小和允许的最大时间。

如上面图表,Checkpoint的大小(GB数)为模型参数(Billion数)的14倍。以175B参数模型为例,如果在2小时的训练中,允许有5%的时间(也就是360秒)用于生成Checkpoint,它所需要的存储写带宽就是6.8GB/s,而在这360秒里相当于GPU算力就闲置了。如果Checkpoint只允许占用1%的时间,那就需要34GB/s存储写入性能,以此类推…

image.png

从Checkpoint恢复,需要将保存的状态还原到所有的GPU。

image.png
上图是不是有个笔误,好像不是5分钟,而是5小时?

Checkpoint的累积读取带宽(BW)取决于模型大小、数据并行性以及允许的最大时间。

还是以175B模型为例,检查点大小为2450GB,在5小时内恢复1个模型实例只需要0.14GB/s读带宽;而若是16个模型实例(数据并行度)就要2.18GB/s的读带宽。为什么把读取的时间放宽到5小时呢?因为Checkpoint需要定期不停地做;但用到恢复的时候相对较少。

image.png

GPU集群运行多个工作负载,依赖于对数据的平等访问,并要求可扩展的存储性能和容量。

image.png

AI存储需要在整个AI生命周期中执行和扩展。

image.png

还要考虑仍然适用于AI 的传统企业级存储要求。包括:数据保护、高可用、压缩和去重、静态加密、多协议数据访问、远程和混合云复制、安全和合规、长期归档存储,以及数据生命周期管理等。

作者:唐僧 huangliang
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
文件名 大小 下载次数 操作
SNIA 2024 Compute, Memory, and Storage Summit.zip 36.21MB 1 下载
推荐阅读
关注数
5613
内容数
260
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息