英伟达平替?国产GPU万卡集群来了

最近两年,大语言模型发展迅猛,对算力需求激增。然而,英伟达A100等高端GPU一卡难求,是挑战还是机遇?众多国产算力厂商开始寻找新的替代方案。

作为国内仅有的可以在功能上对标英伟达的GPU企业,摩尔线程试图用“集群化”的解决方案,助力国产GPU突破算力瓶颈。

7月3日,在2024世界人工智能大会召开前夕,摩尔线程宣布其夸娥(KUAE)智算集群解决方案实现重大升级,从当前的千卡级别大幅扩展至万卡规模,以此来完成对大模型的托举,为万亿参数级别的大模型训练提供持续高效、稳定、且广泛适用的通用算力支持。

AI主战场,万卡是标配

AI大模型时代,巨头们都卷入一场算力军备赛。

2023年5月10日,Google推出的超级计算机A3 Virtual Machines拥有26,000块Nvidia H100 GPU,同时基于自研芯片搭建TPUv5p 8960卡集群;

2024年3月,Meta分享了其两个新的AI训练集群,新发布的两个集群均包含24,576个Nvidia Tensor Core H100 GPU,比上一代的16,000块增长了不少;

而OpenAI开发的ChatGPT-4拥有16个专家模型共1.8万亿参数,一次训练需要在大约25,000个A100上训练90到100天。

事实证明,AI大模型的主战场,万卡已是标配。

那么,AI大模型时代,究竟需要怎样的算力?从大模型的发展趋势,我们可以窥得一二。

在2020年推出的Scaling Law(尺度规律)持续作用之下,推动了大模型的“暴力美学”趋势。以OpenAI的ChatGPT的发展为例,大模型训练的方向是参数规模从百亿增长到万亿,至少增长了100多倍;所需处理的数据量从TB级别增长到10+TB,至少增长了10多倍;计算量至少增加了1000多倍。这样的大模型必须要有规模足够大的算力,才能快速跟上技术演进。

不只是规模够大,AI算力还必须具有通用性。这是因为,目前大模型背后所基于的是Transformer架构,它虽然是当下的主流架构,但并不能大一统,它自身仍在加速融合演进,从稠密到MoE,从单模态到多模态,从扩散到自回归。同时,除了Transformer架构之外,也不断有其他创新架构出现,如Mamba、RWKV和RetNet等。因而,Transformer架构并不等于最终答案。

此外,AI、3D、HPC跨技术与跨领域融合不断加速,比如利用AI+3D实现空间智能、AI+仿真计算实现物理智能、AI+科学计算实现4Science等。计算范式的演进,以及更多场景对多元算力需求的变化,都催生了对一个通用加速计算平台的渴望。

随着模型参数量从千亿迈向万亿,大模型亟需一个超级训练工厂,即一个“大且通用”的加速计算平台,来极大地缩短训练时间,以实现模型能力的快速迭代。“只有在规模足够大、计算更通用且生态兼容好的情况下,才能真正实现好用。”摩尔线程创始人兼CEO张建中指出。

超万卡集群已成为大模型预训练的标配,对于基础设施厂商而言,有没有万卡集群将是赢取AI主战场胜负的关键。

然而,建设万卡集群并非易事。

万卡集群并不是一万张GPU卡的简单堆叠,而是一个超级复杂的系统工程。

首先,它涉及到超大规模组网互联问题,以及如何提高集群有效计算效率,大量实践表明,集群规模的线性提升无法直接带来集群有效算力的线性提升。

此外,训练高稳定与高可用、故障快速定位与可诊断工具等也很关键,超万卡集群是由数千台GPU服务器、数千台交换机、数万根光纤/数万颗光模块构成,训练任务涉及上千万器件的共同作业,任何一个部件的故障,可能都会导致训练中断。

再者,大模型的迭代和创新层出不穷,各种新类型的模型及模型架构的创新,要求万卡集群具备生态Day0级的快速迁移能力,以适应不断变化的技术需求。同时,我们也不能局限于当下的大模型计算加速场景,还需要考虑未来通用计算的需求。

建设万卡集群的道路难如登山,挑战巨大,但这却是一条难而正确的道路。

打造大模型训练超级工厂

经过近四年的积累,摩尔线程在千卡集群已获得成功验证的基础上,重磅发布了夸娥(KUAE)万卡智算集群方案,可以满足大模型时代对于算力“规模够大+计算通用+生态兼容”的核心需求,实现国产集群计算能力再升级。

摩尔线程夸娥万卡集群以全功能GPU为底座,软硬一体化、完整的系统级算力解决方案,包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)以及夸娥大模型服务平台(KUAE ModelStudio),旨在以一体化交付的方式解决大规模GPU算力的建设和运营管理问题。该方案可实现开箱即用,大大降低传统算力建设、应用开发和运维运营平台搭建的时间成本,实现快速投放市场开展商业化运营。

夸娥万卡智算方案具备五大特点:

单一集群规模突破万卡,总算力超万P;

集群有效计算效率,目标最高可超过60%;

稳定性卓越,周均训练有效率最高可达99%以上,平均无故障运行15天以上,最长稳定训练30天以上;

具备强大的计算通用性,专为通用计算而设计,可以加速一切大模型;

拥有良好的CUDA兼容能力,生态适配Instant On,加速新模型Day0级迁移。

“我们希望,我们的产品可以为客户提供一个更好的、可选择的国产化工具,在国外产品无法使用的时候,可以很容易在国产平台上快速使用起来。”张建中表示,“对于目前国内的大模型用户来说,我们的最大优势在于生态兼容性极佳。开发者移植到我们的夸娥集群上,几乎是不需要修改代码,迁移成本接近0,可以在数小时之内就完成迁移工作。”

要让这个大模型训练工厂真正运转起来,还需要一众朋友圈的支持:

智谱 AI、智源研究院、北大兔展、滴普科技、师者AI、羽人科技、乐创能源、瑞莱智慧、实在智能、积沙成塔(Reportify)、憨猴集团、亿景智联等国内大模型企业,都成功运行在摩尔线程的夸娥集群上。值得一提的是,摩尔线程是第一家接入无问芯穹并进行大模型训练的国产GPU公司,夸娥也是业内首个成功跑通并完整运行国产大模型的集群。

让国产GPU算力集群真正用起来

万卡集群是个超级工程,需要产业界齐心协力参与建设。在发布会上,摩尔线程与青海移动、青海联通等头部央企进行了万卡集群项目的战略签约。这些合作将进一步推动摩尔线程万卡集群在各地方的应用落地。

凭借高兼容性、高稳定性、高扩展性及高算力利用率等优势,摩尔线程夸娥智算集群已成功斩获多家大模型企业的认可,成为国内大模型训练和应用的重要力量。“几年前对于客户来说,国产算力只是备胎,而现在已经成为客户的首选,因为要保证长期供应、本地服务。”张建中介绍到。

虽然构建万卡集群是一项艰巨的任务,但摩尔线程展示出了攀登的决心,这是一条难而正确的道路。但这不仅是为了解决某一家企业的算力需求,更是为了应对全行业的算力短缺问题。虽难但很有必要!

结语

摩尔线程万卡级夸娥智算中心全栈解决方案的发布,标志着国产GPU在算力水平上取得了重大突破,将优先解决复杂万亿参数大模型训练的难题。而摩尔线程的定位早已经不是一家GPU公司,而是一家专注AI的加速计算平台企业。

推荐阅读
关注数
11318
内容数
1959
最有深度的半导体新媒体,实讯、专业、原创、深度,50万半导体精英关注。专注观察全球半导体最新资讯、技术前沿、发展趋势。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息