IT大嘴巴 · 2023年11月10日 · 北京市

如何评估算力存力质量?一文读懂SPEC/MLPerf/SPC-1三大评测标准

时至今日,算力价值的重要性已经不言而喻。

日前,工业和信息化部、中央网信办联合国家六部门,联合印发《算力基础设施高质量发展行动计划》,从计算力、运载力、存储力以及应用赋能四个方面提出了到2025年发展量化指标,其中明确指出——到2025年,计算力方面,算力规模超过300EFLOPS,智能算力占比达到35%。

image.png

这也再次明确了算力应用的多样化。其实近些年来我们慢慢发现,随着智能计算的崛起,如今的算力就分为了传统算力和智能算力,而应用的创新也决定了评判标准的创新,我们也必须以新的眼光、新的标准来评判算力价值。

那么评判算力的工具有哪些呢?目前行业主流认识层面,对于传统算力依然是SPEC体系,而针对智能算力,近些年MLPerf成为了业界权威;至于更新的存力标准,则是SPC-1大展身手的领域。应该说,面向智能时代的标准已经多元化、多样化,但最终这些标准都反映出了应用场景下的性能、能效等核心数值表现,也将看不见摸不到的算力转变成了可以量化的指标。

从这个角度来说,SPEC、MLPerf、SPC-1将成为现在乃至未来一段时间我们对于数字化的重要评判依据,而谁能够在这些评测体系中名列前茅,谁才能够成为数字化时代的领头羊,才真正代表了未来数字时代的发展方向。下面,我们就将对这三大评测标准进行详细的介绍。

SPEC,传统算力应用的试金石

服务器是数据中心IT基础设施中最重要的设备之一,也是承载算力服务的硬件基础。一直以来,服务器性能都是行业关注的焦点,为此也产生了多种评判标准。这其中,SPEC测试因其权威、专业、覆盖面广成为行业标杆,几乎所有的服务器在出厂之前都要经过严格的SPEC测试,这也让SPEC成为了类似竞技体育中田径、游泳一类的“传统王牌项目”。

image.png

为什么SPEC会如此受欢迎呢?这还要从它的历史谈起。1988年,包括斯坦福大学、英特尔、IBM、Oracle、微软等全球数十所知名大学、研究机构、IT企业组成的第三方应用性能权威测试组织发起并成立了SPEC(Standard Performance Evaluation Corporation)标准性能评估组织,其目的就是确立、修改以及认定一系列服务器应用性能评估的标准。而多年来随着云计算、容器等应用场景的不断变化,SPEC的评定项目也从服务器硬件扩展到了云端,如今形成了覆盖性能、云环境、Java应用、能耗、虚拟化环境等5个维度的综合测试平台。

SPEC CPU是SPEC评估整机计算处理能力的测试工具,也是其“看家本领”,如今最新的版本为SPEC CPU 2017。虽然名字上是“2017”,但实际上它的测试项目却非常全面,测试项目覆盖了仿真分析、基于人工智能搜索引擎优化、视频压缩等10个典型应用场景,43个基准测试的业务负载,是反映服务器整体性能的重要参考指标,也是竞争最为激烈的赛道。

image.png

比如在上面这份榜单中我们就看到,来自浪潮信息的八路服务器TS860G7在Peak测试成绩达到了3750分,在入围榜单的34772份成绩中排名第一,从而也打破了单系统服务器性能世界纪录,定义了x86服务器的性能巅峰。

如果你觉得单机性能说服力不够的话,那么SPEC也提供了针对云平台性能测试的SPEC Cloud IaaS 2018和针对虚拟化性能测试的SPEC Virt。前者主要测试的是云平台的性能,即云平台上运行IO密集型和计算密集型负载,通过加压测试数据面性能、可扩展性以及控制面性能来评估云平台的性能;后者则是云数据中心虚拟化性能的标准测试工具,主要考察在保证服务质量(QoS)的前提下,一台服务器上能够部署多少台虚拟机,当然数量越多SPECvirt性能总得分就越高。

那么谁又是这两项测试的优胜者呢?这就不能不提到云海虚拟化平台。一方面,云海OS多次打破SPEC Cloud IaaS 2018测试纪录,可以高效完成I/O、计算等各类负载的调度,并且性能增长还具有领先的线性扩展能力,完全可以满足用户从传统业务到新型大数据、人工智能等创新应用的上云需求。而在虚拟化层面,云海虚拟化InCloud Sphere早在2021年就刷新了双路服务器平台榜单,以4679分打破了已尘封四年之久的世界纪录,成绩霸榜全球第一,较之前的测试最高分提升了39%。

可以说,SPEC奠定了服务器性能测试的基准,也是行业内广泛认可的测试方式,并被金融、电信、证券、能源等关键行业用户作为选择IT系统一项权威的选型指标。不过随着应用业务的发展,数字化业务已经不仅仅局限于单一服务器、单一集群或者单一数据中心,应用场景也从传统计算扩展到了智能计算,甚至诸如当下流行的大模型应用都需要有一套新的评价标准和体系。

MLPerf,智能时代的定海神针

如同竞技体育一样,田径游泳三大球的比赛固然精彩,但是年轻人却更喜欢滑板、霹雳舞、电子竞技等全新运动,整个大赛也需要这样的运动来赢得年轻人的关注。同样在数字化应用中,随着智能业务的无处不在,传统的算力评估平台已经不能满足场景化的需要,因此就有了名为MLPerf的全新测试,并迅速得到了全球行业用户的认可。

image.png

MLPerf由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立,但它的历史要比SPEC短得多。就在不久前的2020年,包括谷歌、英伟达、英特尔、哈佛大学、斯坦福大学等50余家全球AI领军企业及顶尖学术机构发起成立了非盈利性机器学习开放组织MLCommons,进而推出了MLPerf基准测试,以致力于推进机器学习和人工智能标准及衡量指标。

但是相比SPEC自行提交成绩,MLCommons选择了每年组织4次测试,包括2次AI训练能力测试和2次AI推理能力测试。其中,AI训练测试分为集群测试与单机测试两个场景,只考察完成AI任务训练的时间,时间越快则代表性能越强;而推理测试则提供了数据中心和边缘侧2大场景,每个场景也有不同的测试项目,精细度非常高。

image.png

AI训练是当下行业的热门,包括GPU在内的许多AI加速设备都是应用于该场景,尤其是在如今AIGC蓬勃发展的情况下,GPU可谓是“一卡难求”,也侧面证明了AI训练的火爆。而MLPerf测试这些年也在不断的迭代与演进中,从视觉、语言到智能推荐和强化学习都有对应的评判模型,并确保评测模型与业内的前沿成果同步更新,且每个模型设置多样化的考察标准,体现了测试的及时性、专业性与创新性。

浪潮信息同样是MLPerf的“常客”。自2020年伊始,浪潮信息就参与到MLPerf比赛中,通过智算架构和软硬协同的技术优势不断刷新AI计算的性能速度,连续两年夺得MLPerf的年度冠军榜首。

在不断斩获MLPerf冠军的同时,浪潮信息也毫不保留的将高效优化方法回馈至社区,推动AI技术的共同进步。在MLPerf Training v0.7中,浪潮信息开创性提出效率更高的ResNet收敛性优化方案:在ImageNet数据集上,仅使用85%的迭代步数就达到了75.9%的目标精度,该优化方案将训练性能提升了15%。目前,该方案已被社区成员采纳,并广泛应用到MLPerf Training V1.0测试中,让更多的用户因此受益。

这就好像一场比赛中,浪潮信息作为MLPerf测试中的“优等生”,不仅分享了成功经验,还优化了竞赛流程、提升了评审效率,以一己之力让MLPerf Training项目得到了跨越式发展,也帮助MLCommons完善了AI测试基准,形成了推动产业发展的良性循环。

SPC-1,多元化存储评估,让数据价值最大化

刚刚我们谈到了太多的算力因素,的确因为算力在如今的IT产业中占据了举足轻重的地位,也成为了AIGC角力的关键。但正如古语云:“不谋全局者,不足谋一域”,管理者不仅要看到眼前的需求,更需要考虑整体的、未来的长远需求。以AIGC为例,虽然目前行业对算力需求旺盛,但伴随着行业供货能力的不断提升,这股需求很快就会转移到后端的存储上来,毕竟再强大的算力和算法也要为业务服务,而数据本身就是业务直接表现。如此看来,存储也将成为继算力之后的又一个热门领域。

image.png

那么相比算力测试的SPEC和MLPerf,存储领域测试标杆又是什么呢?这就不能不提到全球存储性能委员会(SPC)。它是由世界级存储供应商联合组成的一个非盈利机构,是一个专注于存储行业供应商性能评测的中立机构。针对存储行业的需求和关注,SPC创建了全球第一个存储行业标准的性能标准——SPC-1基准测试,实现了从组件级评估到完整的存储系统测量,提供了严格的、经过审计的、可靠的和可重复验证的性能度量。

image.png

不过与算力测试不同,存储的评判标准要复杂得多。刚刚在介绍中我们提到,无论是SPEC还是MLPerf都有“成绩越高越好”、“耗时越短越好”、“跑得越快越好”等项目,评判的标准一目了然。但是对于存储来说,虽然性能也是关键性的因素,但是因为应用场景的特殊性,容量、稳定性、可靠性等标准同样非常重要。俗话说:“设备有价数据无价”,存储需要综合考量各方面的特性,而不能“唯性能论”。

为此,SPC-1基准测试也设计了多种场景,比如关键业务应用场景下的负载模型、比如覆盖结构化数据为主的数据库,再比如电子邮件等在线事务处理(OLTP)应用;在考察指标上也侧重用于读写响应时间敏感度、工作负载的多样性及动态变化、性能表现长时间稳定可靠等共计8种数据访问行为的模拟,这样就保障了测试的全面性和公正性,也因此受到了行业的一致认可。

比如可靠性和稳定性,这是存储设备的关键特性,甚至在某些特定行业中,保障数据的稳定、安全运行甚至比性能出色更为主要。为此,SPC-1在整个测试过程中的多个阶段都会检验数据的一致性,比如初始化阶段、SPC度量阶段、关电重启再校验数据的一致性等等,确保存储能够经受高可靠性的严格测试。而SPC-1长稳测试阶段则要求最大的可持续I/O请求至少需要8小时,浮动范围仅为5%,只有这样才能确保系统长期持续稳定的性能。

同样被重视的还有延时,这也是算力测试中容易被忽视的方面。SPC-1基准测试在延时方面有三个指标,分别是平均延时、延时带宽对比图和总体响应时间。就业务场景来说,这三个指标可以很好反应不同阶段的业务表现,特别是第一个平均延时更是行业通用的评判标准。我们看到,2021年8月浪潮高端全闪HF18000G5在测试中获得2300万IOPS,平均延时0.294毫秒(低于0.3ms),达到了行业领先的水平。而在响应时间与吞吐量对比方面,HF18000G5表现也非常不错,提供了不错的存储系统稳定性和应用潜力。

多元化的测试标准才能全面考察存储,那是不是意味着满足这些需求的“六边形战士”在成本上也会很高,甚至超过不少客户的承受能力呢?SPC-1也充分考虑到了这个问题,并提供了总性价比的评判标准——用系统总价格除以SPC-1 IOPS或者用总系统价格除以SPC-1 ASU的容量,这样就获得了每千IOPS或者每GB容量的性价比,帮助用户进行更好的评估。

比如刚刚我们提到的高端全闪HF18000G5,它的IOPS性能测试为2300万(精确值是23001502),这样算下来SPC-1性能方面的性价比为$375.56/SPC-1 KIOPS,远超过第二名;容量价格比为$10.58/GB,比许多人家里的电脑存储还要划算。

从算力扩张到存力爆炸,从电子时代到数字时代,正是不断的创新和变化推动了社会的发展。而面向数字化,我们需要一套针对算力、存力的评定方式,用量化的指标、前瞻性的思维让数字时代加速。无论是SPEC还是MLPerf亦或是SPC-1,正是为我们提供了一套系统、科学的评估方法,让我们能够发现什么是好的服务器、存储和云平台。而以浪潮信息为代表科技企业,在各个赛道中都有出色的成绩表现,让我们有理由相信,在未来的智算时代的生态体系中,我们将是至关重要的一环。

推荐阅读
关注数
1932
内容数
249
专注开放计算、大数据应用、人工智能、企业数字化转型、云计算等领域产业观察及产学研合作。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息