MLperf基准测试榜首的“常青树”，浪潮攀上AI技术的“珠峰”

美国时间6月30日，国际权威AI基准测试MLPerf™刚刚公布最新一期榜单中，在封闭任务赛道的单机测试成绩中，浪潮获全部8项训练任务的4项冠军，NVIDIA、Nettrix各获得2项任务冠军。

这是继去年11月和今年4月，两次在MLPerf推理测试中夺魁后，浪潮AI服务器在MLPerf训练测试中再夺榜首。两个不同维度的AI基准测试，相同的高光表现，让浪潮实实在在成为了MLPerf测试榜首的“常青树”。

柯林斯在《基业长青》一书中总结了成为基业长青的两个关键点：第一，唯一不变的是改变；第二，拥有“正确”的价值观。对于浪潮而言，正是不断突破天花板，突破自我，才做到了今天的技术领先，正是将创新和细节当做了正确的价值观，才成为了国际认可的常青树企业。

攀上AI技术领域的“珠穆朗玛峰”

2017年的图灵奖得主大卫·帕特森在2018年，发起了AI计算基准评测组织MLPerf，并迅速成为业界最权威的测试ML（Machine Learning）硬件、软件及服务的训练和推理性能的公开基准。它囊括了AI行业中的70多个知名企业和机构，包括了英特尔、英伟达、Google、亚马逊、阿里巴巴和百度、微软，以及斯坦福大学等9所大学。

自创办以来，MLPerf一直代表了AI的发展和演进节奏，它包括用于测试推理和训练的程序、数据集以及像精确度目标和超参数值一些重要的细节，是当今权威性最大、影响力最广的国际AI性能基准测试，其高度相当于AI技术领域的“珠穆朗玛峰”。

据了解，本次的MLPerf™ TrainingV1.0基准测试，分为固定任务（Closed）和开放任务（Open）。其中，固定任务要求使用相同模型和优化器，衡量同一深度学习模型在不同软硬件上的性能，广受厂商和客户看重；开放任务则放开对深度学习模型及精度的约束，侧重深度学习模型及算法优化的能力，旨在推进ML模型和优化的创新。

最后的测试结果显示：浪潮AI服务器在语义理解（Bert）、图像分类（Resnet50）、目标检测（SSD）、智能推荐（DLRM）4项重量级AI模型训练任务中全面领先。

浪潮AI&HPC产品线总经理刘军表示，“MLperf就像提供给大家一个飙车的赛场，用各种办法，把性能飙到最高，飙到最快。而浪潮的能力证明了我们赛道中速度最快的赛车”。

作为业内最权威的AI基准测试，每一次MLPerfTM评测结果都在刷新业内纪录，不断突破AI系统性能。和2020年榜单相比，今年榜单的各项任务测试成绩均有明显提升。在单机性能上，浪潮在备受关注的ResNet和BERT上取得了新突破，创下单机27.38分钟完成128万张图片训练BERT模型的新纪录，比2020年最佳纪录耗时缩短18%；在BERT模型训练中，浪潮以21.15分钟打破2020年最佳成绩49.01分钟，用时缩短57%。

训练和推理双赛道夺魁的价值

去年10月，在MLPerf公布的AI推理基准测试成绩，浪潮打破18项记录，总成绩名列第一；今年4月的另一次MLPerf AI推理基准测试中，浪潮同样以18项性能第一，荣登榜首。加上本次在MLPerf训练基准测试中夺魁，浪潮已经算是实现了MLPerf测试的“大满贯”。

人工智能与高性能应用软件部总经理吴韶华表示，从训练和推理两个不通测试的参赛团队来看，都有芯片公司，比如谷歌、英伟达、英特尔，和赛灵思，也有和浪潮一样的主流服务器厂商。在AI计算领域有技术企图心的企业，都会争取在MLPerf上崭露头角。

训练和推理两个基准测试既有相同的模型，也有不同的模型。“例如推理任务不需要考虑CPU上面的负载，CPU参与的任务不太多，主要负载在加速器；而训练任务，CPU也要参与工作，有些任务的CPU负载还很重，所以对设备本身的要求并不一样。”吴韶华说。

也就是说能够在两个不同的测试中都能独占鳌头，就需要面向训练和推理两个不同方向的产品设计都具备领先之处。我们也看到，即便是如谷歌这样的巨头公司，因其本身业务的特性，也只是在训练基准测试中表现出色，但也没有进入推理测试的榜单。

所以，浪潮能够站上两个不同榜单的头把交椅，自身对AI服务器产品的理解，对AI服务器的设计理念和构想，都是领先于整个行业的。

例如，在本次竞赛中，浪潮是唯一凭借领先的产品设计和开发能力率先实现支持8xA100-80GB-500W GPU服务器的厂商，并且提供了液冷与风冷两种机型。

同时在不断斩获MLperf冠军的同时，浪潮也把竞赛过程中探索出的高效优化方法回馈至MLPerf社区，推动AI技术的共同进步。例如在MLperf™ Trainingv0.7中，浪潮开创性提出效率更高的ResNet收敛性优化方案：在ImageNet数据集上，仅使用85%的迭代步数就达到了75.9%的目标精度。该优化方案将训练性能提升了15%。目前，该方案已被社区成员采纳，并广泛应用到MLperf™ TrainingV1.0测试中，这也是此次RenNet任务成绩得以大幅提升的重要原因。

刘军也表示，“技术创新是开放的，浪潮愿意看到更多的厂商通过MLperf测试来提高性能，共同做大AI服务器的市场。”

把MLperf,当做能力舞台而不是应试舞台

冰冻三尺，非一日之寒。浪潮AI服务器之所以能够成为AI顶级测试榜首的“常青树”，与其对AI技术的提前布局，并通过深入行业，将场景与技术不断地相互印证而得来的。

2016年开始，深度学习迅速进化成人工智能的巨大机遇，浪潮发现之前在HPC领域所做的战略性投入，可以转变为市场上的竞争优势，开始重点开拓AI服务器市场，并一举成为市场领军企业，长期在中国AI服务器领域占据半壁江山。

所以，相比于部分企业建立专门的团队负责在国际赛事“刷榜”，浪潮反而走的是一条能力建设的路。

刘军说，“浪潮是实实在在的帮助客户去做AI模型的优化和落地，帮助产业AI化客户去实现他的应用场景，设立行业标杆，并帮助企业树立向AI转型的信心。在此过程中，我们将这些实践与客户的业务和需求更好地结合起来，并从中总结和提炼出浪潮的技术内核。”

的确，随着应用场景的不断成熟，人工智能也正逐渐渗透到各行各业，MLperf作为主流的AI基准测试，选择的也是当下最为热门的场景，如图像识别（ResNet）、目标物体检测（SSD）、自然语言理解（BERT）、智能推荐（DLRM）等等。

而浪潮已经做到了在这些场景中，为客户部署过实际的产品，这些宝贵的经验，并非一般的“应试舞台”所能比，这是浪潮的市场地位赋予浪潮的独特的能力。

一些企业会将MLperf这种测试看做一个终点，而浪潮是将MLperf作为发展路径中的一个验证业务实践的舞台。这种不同的高度，也是浪潮作为AI服务器领域领军者的独有的魅力。

攀上AI技术领域的“珠穆朗玛峰”

训练和推理双赛道夺魁的价值

把MLperf,当做能力舞台而不是应试舞台

推荐阅读

目录