英伟达平替？国产GPU万卡集群来了

最近两年，大语言模型发展迅猛，对算力需求激增。然而，英伟达A100等高端GPU一卡难求，是挑战还是机遇？众多国产算力厂商开始寻找新的替代方案。

作为国内仅有的可以在功能上对标英伟达的GPU企业，摩尔线程试图用“集群化”的解决方案，助力国产GPU突破算力瓶颈。

7月3日，在2024世界人工智能大会召开前夕，摩尔线程宣布其夸娥（KUAE）智算集群解决方案实现重大升级，从当前的千卡级别大幅扩展至万卡规模，以此来完成对大模型的托举，为万亿参数级别的大模型训练提供持续高效、稳定、且广泛适用的通用算力支持。

AI主战场，万卡是标配

AI大模型时代，巨头们都卷入一场算力军备赛。

2023年5月10日，Google推出的超级计算机A3 Virtual Machines拥有26,000块Nvidia H100 GPU，同时基于自研芯片搭建TPUv5p 8960卡集群；

2024年3月，Meta分享了其两个新的AI训练集群，新发布的两个集群均包含24,576个Nvidia Tensor Core H100 GPU，比上一代的16,000块增长了不少；

而OpenAI开发的ChatGPT-4拥有16个专家模型共1.8万亿参数，一次训练需要在大约25,000个A100上训练90到100天。

事实证明，AI大模型的主战场，万卡已是标配。

那么，AI大模型时代，究竟需要怎样的算力？从大模型的发展趋势，我们可以窥得一二。

在2020年推出的Scaling Law（尺度规律）持续作用之下，推动了大模型的“暴力美学”趋势。以OpenAI的ChatGPT的发展为例，大模型训练的方向是参数规模从百亿增长到万亿，至少增长了100多倍；所需处理的数据量从TB级别增长到10+TB，至少增长了10多倍；计算量至少增加了1000多倍。这样的大模型必须要有规模足够大的算力，才能快速跟上技术演进。

不只是规模够大，AI算力还必须具有通用性。这是因为，目前大模型背后所基于的是Transformer架构，它虽然是当下的主流架构，但并不能大一统，它自身仍在加速融合演进，从稠密到MoE，从单模态到多模态，从扩散到自回归。同时，除了Transformer架构之外，也不断有其他创新架构出现，如Mamba、RWKV和RetNet等。因而，Transformer架构并不等于最终答案。

此外，AI、3D、HPC跨技术与跨领域融合不断加速，比如利用AI+3D实现空间智能、AI+仿真计算实现物理智能、AI+科学计算实现4Science等。计算范式的演进，以及更多场景对多元算力需求的变化，都催生了对一个通用加速计算平台的渴望。

随着模型参数量从千亿迈向万亿，大模型亟需一个超级训练工厂，即一个“大且通用”的加速计算平台，来极大地缩短训练时间，以实现模型能力的快速迭代。“只有在规模足够大、计算更通用且生态兼容好的情况下，才能真正实现好用。”摩尔线程创始人兼CEO张建中指出。

超万卡集群已成为大模型预训练的标配，对于基础设施厂商而言，有没有万卡集群将是赢取AI主战场胜负的关键。

然而，建设万卡集群并非易事。

万卡集群并不是一万张GPU卡的简单堆叠，而是一个超级复杂的系统工程。

首先，它涉及到超大规模组网互联问题，以及如何提高集群有效计算效率，大量实践表明，集群规模的线性提升无法直接带来集群有效算力的线性提升。

此外，训练高稳定与高可用、故障快速定位与可诊断工具等也很关键，超万卡集群是由数千台GPU服务器、数千台交换机、数万根光纤/数万颗光模块构成，训练任务涉及上千万器件的共同作业，任何一个部件的故障，可能都会导致训练中断。

再者，大模型的迭代和创新层出不穷，各种新类型的模型及模型架构的创新，要求万卡集群具备生态Day0级的快速迁移能力，以适应不断变化的技术需求。同时，我们也不能局限于当下的大模型计算加速场景，还需要考虑未来通用计算的需求。

建设万卡集群的道路难如登山，挑战巨大，但这却是一条难而正确的道路。

打造大模型训练超级工厂

经过近四年的积累，摩尔线程在千卡集群已获得成功验证的基础上，重磅发布了夸娥（KUAE）万卡智算集群方案，可以满足大模型时代对于算力“规模够大+计算通用+生态兼容”的核心需求，实现国产集群计算能力再升级。

摩尔线程夸娥万卡集群以全功能GPU为底座，软硬一体化、完整的系统级算力解决方案，包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台（KUAE Platform）以及夸娥大模型服务平台（KUAE ModelStudio），旨在以一体化交付的方式解决大规模GPU算力的建设和运营管理问题。该方案可实现开箱即用，大大降低传统算力建设、应用开发和运维运营平台搭建的时间成本，实现快速投放市场开展商业化运营。

夸娥万卡智算方案具备五大特点：

单一集群规模突破万卡，总算力超万P；

集群有效计算效率，目标最高可超过60%；

稳定性卓越，周均训练有效率最高可达99%以上，平均无故障运行15天以上，最长稳定训练30天以上；

具备强大的计算通用性，专为通用计算而设计，可以加速一切大模型；

拥有良好的CUDA兼容能力，生态适配Instant On，加速新模型Day0级迁移。

“我们希望，我们的产品可以为客户提供一个更好的、可选择的国产化工具，在国外产品无法使用的时候，可以很容易在国产平台上快速使用起来。”张建中表示，“对于目前国内的大模型用户来说，我们的最大优势在于生态兼容性极佳。开发者移植到我们的夸娥集群上，几乎是不需要修改代码，迁移成本接近0，可以在数小时之内就完成迁移工作。”

要让这个大模型训练工厂真正运转起来，还需要一众朋友圈的支持：

智谱 AI、智源研究院、北大兔展、滴普科技、师者AI、羽人科技、乐创能源、瑞莱智慧、实在智能、积沙成塔（Reportify）、憨猴集团、亿景智联等国内大模型企业，都成功运行在摩尔线程的夸娥集群上。值得一提的是，摩尔线程是第一家接入无问芯穹并进行大模型训练的国产GPU公司，夸娥也是业内首个成功跑通并完整运行国产大模型的集群。

让国产GPU算力集群真正用起来

万卡集群是个超级工程，需要产业界齐心协力参与建设。在发布会上，摩尔线程与青海移动、青海联通等头部央企进行了万卡集群项目的战略签约。这些合作将进一步推动摩尔线程万卡集群在各地方的应用落地。

凭借高兼容性、高稳定性、高扩展性及高算力利用率等优势，摩尔线程夸娥智算集群已成功斩获多家大模型企业的认可，成为国内大模型训练和应用的重要力量。“几年前对于客户来说，国产算力只是备胎，而现在已经成为客户的首选，因为要保证长期供应、本地服务。”张建中介绍到。

虽然构建万卡集群是一项艰巨的任务，但摩尔线程展示出了攀登的决心，这是一条难而正确的道路。但这不仅是为了解决某一家企业的算力需求，更是为了应对全行业的算力短缺问题。虽难但很有必要！

结语

摩尔线程万卡级夸娥智算中心全栈解决方案的发布，标志着国产GPU在算力水平上取得了重大突破，将优先解决复杂万亿参数大模型训练的难题。而摩尔线程的定位早已经不是一家GPU公司，而是一家专注AI的加速计算平台企业。

推荐阅读

目录