“多元”GPU，AI计算还有其他选择吗？

前几天，GPU再次成为大家关注的焦点，进而业内更多思考的应该是国产GPU到底哪家强。

与大众印象中的游戏显卡不同，这里说的GPU更多是面向高端计算应用的加速卡，这其中尤以英伟达和AMD的产品为行业的代表。中国计算产业将如何发展？是否会像某些人猜想的那样被“锁死”或者止步不前？其实针对这个问题，我国从多年前就开始进行布局，包括国产CPU和GPU在内已经有了长足的进步，在某些应用上的性能甚至实现了超越。

这可不是我的一厢情愿。就在美国时间9月9日，全球权威AI基准评测MLPerf Inference v2.1榜单公布，其中首次参加该评测的壁仞科技就凭借8月发布的、型号为BR104的通用GPU芯片拿下数据中心推理评测中自然语言理解（BERT模型）和图像分类（ResNet50模型）两类基准评测“available”（可售产品类别）单卡性能全球第一的优异成绩，其中BR104在BERT模型下达到了英伟达A100单卡性能的1.58倍。

国产GPU风头正劲，核心应用表现抢眼

许多人可能还好奇，MLPerf是什么测试？权威性有多少？其实在之前的文章中我们已经介绍过，MLPerf是业内公认的国际权威AI性能基准评测，由图灵奖得主大卫·帕特森（David Patterson）联合谷歌、英伟达、英特尔、Facebook、浪潮等全球AI领军企业，以及来自哈佛大学、斯坦福大学等学术机构的研究人员创立。该测评以其标准严格、测评严谨而著称，竞争十分激烈，各赛道均有数百项产品提交成绩。甚至你可以认为，MLPerf就是AI计算领域的“诺贝尔奖”，对于AI应用来说具备的举足轻重的意义。

而这一次，凭借刚刚发布的BR104芯片，壁仞科技成为了赛事中最大的“黑马”，也让我们对于国产GPU芯片的应用性刮目相看。

这里有必要解释下壁仞科技夺冠的两大项目。在每年4次的MLPerf测试中，分为推理和训练两大类，而自然语言理解（BERT模型）和图像分类（ResNet50模型）就是推理项目的核心内容。其实熟悉AI应用的人都知道，我们现在无论是自动驾驶还是其他智能应用中，自然语言理解和图像分类都是应用的核心，换句话说如果能够在这两项应用中取得领先，也就意味着而在AI应用中也一样，甚至代表了AI的应用能力。因此，壁仞科技这次夺冠也让我们坚定了国产GPU应用的信心。虽然只是MLPerf六大测试项目中的两项，但别忘了这也是壁仞科技第一次参与测试，相信假以时日，经过工程师们的不断改进和调优，或许未来我们会赢得更多的测试项目，自然也让国产GPU应用到更多的场景当中。

软硬件融合成新趋势，全生态把控更关键

许多人可能好奇，壁仞科技作为一家芯片企业，是如何参与到MLPerf测试中的？它使用的硬件平台是什么？软件平台是什么？又如何进行的适配与调优呢？其实针对这些问题，行业早已经有了明确的答案。纵观今年MLPerf测试，表现出的一个明显趋势就是软硬件的融合。以往我们看到的许多参赛企业都只是凭借某款产品或者某类软件参与测试，但是今年我们发现越来越多的企业通过合作伙伴形成“合力”。比如本次壁仞科技就与浪潮携手，通过浪潮AI服务器NF5468M6实现了BR104的成功搭载和高效运行，从而大幅打破相应性能世界纪录。

这也可以视为国产芯片在应用场景与生态建设层面的突破。以往我们提到某项测试或者某个奖项的时候，总是“就事论事”，强调某款平台的价值，但其实在这背后更多的是软硬件层面的不断协作，这其实也是企业级产品乃至于国产算力发展不可或缺的因素和必经之路。只有整合全产业链的能力，通过软硬件的融合协作，才能实现性能突破。

事实上在这次测试中我们看到，包括浪潮等许多中国公司也都拿出了自己不同的解决方案，这也符合当下多元化算力的趋势，针对不同的平台、不同的算力核心，我们同样需要使用不同的应用程序和软件，就更强调软硬件融合与协同的重要性。从这一点来说，本次测试中“壁仞+浪潮”的组合提供了一个很好的思路，值得其他行业伙伴的学习与借鉴。

浪潮信息AI应用一体化加速产业升级

那么问题来了——为什么壁仞会选择浪潮信息合作呢？其实答案很简单，因为浪潮信心一直是AI服务器的引领者，在全球AI服务器份额排名第一，并连续五年中国市场份额超过50%。“不想当将军的士兵不是好士兵”，同样要想在AI领域拔得头筹，那浪潮信息也自然就成为了合作伙伴的第一人选。当然除了服务器基础设施的领先优势之外，浪潮信息还致力于AI计算平台、资源平台和算法平台的全栈创新，并通过元脑生态携手领先伙伴共同加速AI产业化和产业AI化进程。早在本次测试前，壁仞科技就已经与浪潮信息已签署元脑生态战略合作，在产品开发、市场拓展、生态共建等多维度展开深入合作，本次荣膺冠军也是水到渠成。

而谈到AI能力，其实浪潮信息不仅仅有AI服务器产品，更结合当下AI应用的多元化需求推出了创新平台AIStation，为多元AI芯片开发、测试和大规模部署提供开放平台，加速多元AI芯片的产品商业化落地。正如浪潮信息所强调的“智算力就是创新力”口号一样，AIStation正在帮助越来越多的AI企业实现技术创新，通过应用赋能和场景适配，让更多企业、更多用户深入到AI场景中，共同打造数字化的多元应用。

同时在在算法基础设施上，浪潮人工智能研究院还开发了2457亿参数的“源”大模型，通过模型API服务、领域模型、开发者社区等多种形式对外提供算法基础服务，可以更加快速地生产出专业的技能模型，从而在更多专业场景中实现小型化、轻量化的落地运作，缓解企业面对大模型训练成本高、技术门槛高的问题。如今，“源”大模型上线不到5个月的时间，就已经有超过600家单位试用，支持了100多个行业应用，并在南京智能计算中心落地，与南京智能计算中心已建成的算力基础设施实现高效协同，为长三角人工智能产业发展提供更好的服务和支撑。

自MLPerf™发起至今，浪潮信息持续积极推动AI基准评测发展创新，先后10次参与评测，多次获得冠军总数第一。在本次测评中，浪潮AI服务器大幅提升刷新性能纪录，在最受关注的固定赛道全部30项任务中，获得19项最高成绩，其中在数据中心16项任务中斩获12项冠军，边缘14项任务中获得7项冠军，同时刷新了11项性能纪录，并将BERT、3DU-Net等重要任务的性能提升约100%。

浪潮信息在AI服务器的整机系统优化、软硬件协同优化等多方面持续创新，不断打破性能纪录，并将领先技术分享到MLCommons社区，被大量参赛厂商采用并广泛应用于后续评测中。

在算法优化层面，浪潮首先在MLPerf训练中应用超参优化方案，大幅提高训练性能。浪潮开创性提出ResNet 收敛性优化方案，在ImageNet数据集上，仅使用85%的原迭代步数就达到了目标精度，将MLPerf训练性能记录提升了15%；率先在MLPerf推理中使用自研卷积合并算法的plugin算子方案，优化后算法性能从原算法123TOPS提升到141TOPS，性能提升达14.6%。

在架构优化方面，浪潮率先采用JBOG方案，极大提升了AI服务器搭载超多数量GPU设备的能力。本次评测中，浪潮NF5468M6J产品突破性地实现了单机搭载24颗GPU。同时，浪潮针对高负载多GPU协同任务调度以及NUMA节点与GPU之间的数据传输性能进行了深度优化，实现了CPU和GPU的利用率线性扩展、多个任务并发场景同步运行，大幅提升性能。

据行业权威分析结构IDC预测，2025年中国AI算力市场规模将达到701.8亿美元，占整体服务器市场近三成；而中国AI算力发展领跑全球，AI服务器支出规模位列全球第一。这就意味着，AI应用将成为中国数字化发展的新蓝海，而面对这样大的市场，我们也相信有足够的产品力、创新力来推动产业的持续、快速发展。如今，以壁仞科技为代表的中国GPU芯片厂商开了一个好头，在单项应用上取得了行业领先，相信后续也会有更多的中国企业加入其中，进一步推动国产GPU的应用于发展。

相信在不久的将来，随着全产业的共同努力，我们将从单项到多项，从GPU到CPU再到多元加速芯片，真正实现算力的“自给自足”，让每个人中国人都用上自己的AI算力平台。

推荐阅读

目录