性能最高提升50％，ECS倚天实例深度学习推理性能实测

本文转载自阿里云开发者社区/弹性计算-百晓生
https://developer.aliyun.com/article/1088946?groupCode=ecs

简介： 本次实测涵盖图像分类识别、图像目标检测、自然语言处理以及搜索推荐等四种常见的深度学习推理场景

近几年，深度学习在视觉、自然语言处理、搜索广告推荐等工业界的各个领域广泛落地。深度学习模型参数量的指数级上升、以及新的业务对复杂模型的需求，都要求云厂商的弹性计算能够降低算力成本、提高计算效率，尤其是深度学习的推理，将会成为优化的重点。在此因素影响下，阿里云平头哥团队推出了全球首个 5nm 制程的 ARM Server 芯片倚天710。该芯片基于 ARM Neoverse N2 架构，支持最新的 ARMv9 指令集，其中包括 i8mm，bf16等扩展指令集，能在科学/AI计算领域获得性能优势。

在本文中，我们聚焦于采用倚天710芯片的 ECS倚天实例g8y，对深度学习推理任务的性能进行了测试和比较。

01 Workloads

本次分析，我们选择了四种常见的深度学习推理场景，涵盖图像分类识别、图像目标检测、自然语言处理以及搜索推荐领域。所使用的代表性模型如下：
微信图片_20221124222837.png

02 Platforms

实例类型
我们在阿里云两种实例类型上进行测试，分别是ECS g8y(倚天710) 和 ECS g7(Ice Lake)，实例均为 8-vCPU。

Deep Learning Framework
在所有平台，我们使用 TensorFlow v2.10.0 和 PyTorch 1.12.1。

在 Arm 设备上，TensorFlow 支持两种后端，我们使用 OneDNN 后端。OneDNN 是一个开源的跨平台深度学习库，并且能够集成 Arm Compute Library（Arm设备的机器学习计算库）。在 Arm 设备上使用该后端能够取得更高的性能。

OneDNN 在 PyTorch 上的支持仍然是实验版本，因此在 PyTorch 框架上使用默认的 OpenBLAS 后端。

BFloat16
BFloat16 (BF16) 是一种浮点数表示形式，其指数位与单精度浮点数（IEEE FP32）保持一致，但是小数位只有 7 位，因此 BF16 的表示范围与 FP32 几乎一致，但是精度较低。BF16 非常适合深度学习，因为通常精度下降并不会显著降低模型的预测精度，但是16位的数据格式却能够节省空间、加速计算。

03 TensorFlow Performance Comparison

g8y 借助新的 BF16 指令，大幅提升了深度学习模型的推理性能，在多个场景下跑出了比 g7 更优秀的数据。此外，倚天 710 作为自研芯片，相比 g7 最大有 30% 的价格优势。

下面四幅图分别是 Resnet50，SSD，BERT 和 DIN 模型下的对比结果，其中，Resnet，SSD 和 BERT 都来自 MLPerf Inference Benchmark 项目，DIN 是 alibaba 提出的点击率预测模型。蓝色柱状条是直接性能对比，橙色柱状条是考虑了单位价格的性能对比，例如在 Resnet50 上，g8y 的性能是 g7 的 1.43倍，单位价格的性能是 g7 的 2.05 倍。

Figure 1: Resnet50 在 g8y 和 g7 上的推理性能对比图

说明：此处设置 Batch Size = 32，测试图像尺寸为 224 * 224

Figure 2: SSD 性能对比图

说明：此处 Batch Size = 1，测试图像尺寸为1200 * 1200

Figure 3: BERT 性能对比图

Figure 4: DIN 性能对比图

04 PyTorch Performance Comparison

Arm 上的 OneDNN 后端的 PyTorch 版本仍然是实验性质，因此本次实验采用默认的 OpenBLAS 后端。OpenBLAS 是一个开源的线性代数库，我们为其添加了针对 Arm Neoverse N2 的 BFloat16 矩阵乘法计算的优化实现。

OpenBLAS BFloat16 矩阵乘法优化
矩阵乘法和深度学习存在非常紧密的关系，例如深度学习中常见的 Fully Connected Layer，Convolutional Layer等，最终是被转换成矩阵乘法实现的。因此，加速矩阵乘法最终能加速模型的计算。

OpenBLAS 是一个广泛使用的计算库，默认作为 Numpy，PyTorch 等库的后端，我们在调研中发现该库不支持倚天 710 的 bf16 指令扩展，在和社区交流后，我们决定利用倚天 710 支持的 BFMMLA 等向量指令实现支持 bf16 数据格式的矩阵乘法，实现后性能的到大幅提升，性能对比如图 5 所示。该实现目前已经贡献给开源社区，OpenBLAS 的最新版本 0.3.21 也已经合入。

Figure5: OpenBLAS 矩阵乘法性能对比

说明：参与运算的矩阵的行数和列数均为 1000。

PyTorch CNN Performance
OpenBLAS 作为 PyTorch 的默认后端，在矩阵乘法上的优化可以体现在 PyTorch 实现的深度学习模型中，我们以卷积计算占比较高的模型 VGG19 为例，该模型推理时，所有的卷积算子会被转换为矩阵乘法，并调用 OpenBLAS 完成计算。下图是 VGG 19 的性能对比：

Figure 6: VGG19性能对比图

05 结论

本文的分析显示，在阿里云倚天实例g8y上，多个深度学习模型的推理性能高于同规格 g7，这主要得益于 Arm Neoverse N2 的新指令以及不断更新的软件支持（OneDNN、ACL 和 OpenBLAS）。在这个过程中，阿里云编译器团队贡献了一部分软件优化，后续我们将继续关注该领域的软硬件优化，提高 Arm 系列实例在 ML/AI 方面的竞争力。

01 Workloads

02 Platforms

03 TensorFlow Performance Comparison

04 PyTorch Performance Comparison

05 结论

推荐阅读

目录