PyTorch 大杀器：用 AdaptDL 优化 GPU 集群中的 EDL

内容导读 AdaptDL 是一个资源自适应深度学习训练和调度框架，是 CASL 开源项目的一部分。AdaptDL 的目标是使分布式 DL 在动态资源环境中变得简单和高效。

本文首发自微信公众号 PyTorch 开发者社区

EDL 全称 Elastic Deep Learning，由 LF AI 基金会孵化，是一个能动态调整并行度的深度神经网络训练框架。它支持多租户集群管理，可以平衡模型训练等待及完成时间，能够提高资源利用率。

训练深度学习模型通常比较耗时，在算力资源、储存空间等方面的花费也比较高昂。

以 BERT 模型为例， GPU 上的训练过程常常超过 2000 小时，而训练 ResNet 和 VGG 模型，少说也要 100 个小时。

按照现如今的云计算成本核算，模型训练费用可能高达数千甚至上万元。为了控制模型训练的成本，计算资源共享集群应运而生。我们今天介绍的是由 Petuum CASL 团队开发的 AdaptDL，它使得 GPU 集群中的 EDL 得到了极大优化。

共享集群面临的挑战

借助共享集群，多用户可以各自提交模型训练任务。

这不仅减少了计算资源过度供应造成的浪费，而且通过利用空闲资源，用户可以在一个工作站上，只用几天甚至几小时就能训练一个复杂模型。

但是，共享集群本身也存在一些问题。

共享集群面临的典型挑战包括：

1、资源分配：多任务共用一个集群，需要仔细规划 GPU 资源的分配问题。如训练模型时，用同一台机器上的 GPU，比使用多台机器上的 GPU，训练速度要快得多。而且为了避免训练任务之间竞争网络带宽，应该将不同的分布式训练任务，分配给不同机器上的 GPU。

2、训练速度和可扩展性参差不齐：为训练任务选择合适的 GPU 配置，需要不间断地监控模型的训练速度和可扩展性，这些都是随着时间的变化而变化的。尤其是接近收敛（convergence）时，要使用较大的批尺寸。因此训练开始时，最好占用较少的 GPU 资源。

3、训练配置：通常情况下，我们需要提前知道哪些 GPU 可用，然后才能为一些重要的训练进行配置。这在共享集群中有时候无法实现的。例如，批尺寸以及学习率通常是根据 GPU 的数量来决定的，又或者已知 GPU 在不同的机器上，梯度累加能用来克服网络瓶颈等。

4、公平性和可用性：在 GPU 使用高峰，一些用户可能需要排队等待空闲 GPU，但是一些已经在跑任务的用户为了提速，还想增加 GPU 数量。如何权衡并解决二者矛盾。

AdaptDL 可以简化并加速本地机器和共享集群上的模型训练

AdaptDL让共享集群的问题迎刃而解

为了解决与组织池计算（organizations pool computing）和共享集群相关的缺点，Petuum CASL 团队创建了 AdaptDL，以简化和加快共享集群上的分布式训练。

AdaptDL 是一个资源自适应深度学习(DL)训练和调度框架。它可以实时监控训练任务的性能，并在任务运行期间，弹性地调整资源（如 GPU、计算实例等)分配。

它针对前文在共享集群中存在的问题，具有以下优势：

1、提高共享 GPU 集群的利用率：AdaptDL 可以针对所有模型训练任务进行分析，学习不同任务在不同 GPU 资源配置下的表现。利用学到的知识，AdaptDL 调度器能够公平高效地为不同的训练任务配置 GPU 资源。随着训练任务的增多，对不同任务的性能特征了解的越来越深入，AdaptDL 将学会弹性地再次配置 GPU。

2、降低云端模型训练成本：AdaptDL 可以在云端提供数量适中的 GPU 实例，避免多余的费用。当训练中使用更大的批尺寸时，AdaptDL 也能自动扩展集群。

3、轻松实现大批尺寸训练：使用较大的批尺寸可以在众多 GPU 上加速训练，但是应用起来并不简单。有些模型如果采用过大的批尺寸，可能因为降低统计效率而增加训练时长，但是使用过小的批尺寸又无法有效地利用 GPU。AdaptDL 可以在共享集群、云端环境和本地机器上，自动选择合适的批尺寸。

与 Optimus 和 Tiresias 相比，使用 AdaptDL 的模型平均训练用时更少

对于每个模型训练任务，AdaptDL 能自动调整批尺寸、学习率和梯度累加，在云服务平台中，也可以自行控制竞价实例（Spot Instance）的数量。

在 Petuum 的实践表明，借助 AdaptDL 共享集群训练模型，平均完成速度提高 2-3 倍，在 AWS 中使用竞价实例的费用也降低了 3 倍。

开始

AdaptDL 可以在两种模式下使用。

1、集群调度：允许在一个 Kubernetes 集群上运行多个任务。使用 AdaptDL Python 库，AdaptDL 调度程序可以集成到 PyTorch 代码中，自动选用最佳数量的 GPU 和训练批尺寸。

2、独立训练：在任意集群或本地多 GPU 机器上，用自适应批尺寸和学习率训练模型。AdaptDL 可以自动计算出何时可以使用较大的批尺寸来加速模型训练。

用 AdaptDL Python 库进行训练：

Adaptdl Python 库简化了 PyTorch 训练代码，使得批尺寸跟学习率都是自适应的，无需额外设定。

python3 –m pip install adaptdl

以 PyTorch MNIST 为例，只需要修改几行代码。如下图所示：

AdaptDL 提供了一个类似于 PyTorch 原生的分布式数据并行接口，可以轻松地修改现有的分布式训练代码。

第一步：

用 adaptdl.torch.AdaptiveDataLoader 替代 torch.utils.data.DataLoader。

根据程序的吞吐量和统计效率，AdaptiveDataLoader 在训练期间可以自动选用最佳批尺寸。执行 checkpoint 时还能保存状态，这样重新启动后就能从停止的地方恢复训练了。

train_loader.autoscale_batch_size(1024) 使得 AdaptDL 能为训练自动选择最有效的批尺寸，在所有训练进程中最大全局批尺寸（global batch size）合计 1024。

接下来：

用 adaptdl.torch.AdaptiveDataParallel 封装模型。

adaptdl.torch.AdaptiveDataParallel 在训练过程中会计算梯度噪声尺度（Gradient Noise Scale），它可以用于计算统计效率。当批尺寸改变时，AdaptiveDataParallel 将根据规则自动调整学习率。

默认情况下，AdaptiveDataParallel 用的是在多种任务中都性能良好的 AdaScale。

在 checkpoint 期间，AdaptiveDataParallel 可以自动保存模型参数、优化器状态和 LR 调度器状态，在重新启动训练后一键恢复这些设置。

通过以上更改，用户可以在本地计算机或分布式集群中运行训练代码。AdaptDL 为更快的分布式训练选择了正确的批尺寸和学习率，并自动执行梯度累加，以克服网络问题。

YOLOv3在Adaptive和Manual Batch Size两台机器上的训练时对比，Adaptive在训练时和批尺寸对比方面优势显著

如果不使用 AdaptDL，一旦选择过小的批尺寸，则会因为没有充分利用 GPU，导致训练时延长。相反，如果选择一个过大的批尺寸，也会因为需要更多的 epoch 来收敛，从而导致更长的训练时。对比可知 AdaptDL 无需选择固定的批尺寸，就能自动达到更好的训练性能。

用 AdaptDL 调度器进行集群管理：

AdaptDL 调度器能够自动判断训练任务要使用的 GPU 资源，这使得共享集群中的训练任务变得更智能。

利用灵活性，当集群空闲率较高时，训练任务就会扩展为使用额外 GPU；当集群使用率较高时，将收缩为使用较少的 GPU 资源，而不是暂停训练任务。

AdaptDL 调度器还提供了其他功能，如整理集群以避免不同任务之间的网络争夺，以及保持竞争性训练任务之间的公平性。

由于调度器和每个训练任务之间的协调，AdaptDL 可以让共享集群保持高效利用率。

当一个任务可以有效地使用更大的批尺寸时，AdaptDL 会自动地将更多的 GPU 转移到该工作上以加速训练。另一方面，当只能使用较小的批尺寸时，空闲的 GPU 将更有效地分配给其他任务。

AdaptDL 调度器可以使用 Helm 一键安装在任何一个 Kubernetes 实例上，命令如下:

helm install adaptdl adaptdl-sched 
-— repo https://github.com/petuum/adaptdl/raw/helm-repo 
-— namespace adaptdl — create-namespace 
-— set docker-registry.enabled=true

安装 AdaptDL 调度器后，就可以使用 AdaptDL CLI 提交训练任务了。刚开始训练任务会使用一个单一 GPU，然后使用不同数量的 GPU 多次重启，这期间 AdaptDL 会计算出最佳数量的 GPU 使用。不管有多少 GPU，AdaptDL 总能选择最有效的批尺寸，并相应地调整学习率。

AdaptDL集群跟踪示例

彩色条形图显示分配给不同任务的计算实例数量，AdaptDL 可以动态优化每个任务获得的计算实例数量

借助 AdaptDL，PyTorch 训练任务在共享集群中运行的速度提升了 2-3 倍。此外，AdaptDL 调度器还支持 AWS 竞价实例，使得费用也降低了 3 倍。

最后，还可以使用 AdaptDL 和 NNI 来加速超参数调优工作负载（AdaptDL + NNI Post）。

项目地址：点击此处

本文翻译自 PyTorch Medium 博客。

参考：点击此处

共享集群面临的挑战

AdaptDL让共享集群的问题迎刃而解

开始

推荐阅读

目录