E企研究院 · 7月16日

推理之巅 超云为先 | 全栈推理架构,助力AI时代的数据中心转型

在人工智能的浪潮中,数据中心作为智能世界的基石,正经历着前所未有的变革。随着技术的飞速发展,AI算力需求的激增,数据中心的架构、硬件配置以及运营模式都在不断地演进与创新。

cy2.jpg
超云产品运营中心总经理 田锋

近日,由益企研究院和CDCC主办,OCTC开放计算委员会协办的“2024中国智算中心全栈技术大会、第5届中国数据中心绿色能源大会”在上海闭幕!超云产品运营中心总经理田锋带来了主题为《智算中心全栈推理架构与GPU指导模型实践》的精彩分享,探讨在新趋势下,如何构建高效、节能、安全的智算中心,以及如何通过技术创新来应对当前和未来的挑战。

数据中心AI重构趋势

与AIDC算力建设面临的挑战

随着AI技术的广泛应用,算力需求快速增长。传统的通用算力、信创算力正在转向通用AI算力和自主AI算力,以适应更加多样的应用场景。算力空间的重构上,从分散的机房向枢纽节点的大规模投建转变,推动了AI推理业务从中心向边缘的拓展。物理空间上,向单机柜大功率集中算力与集中配电重构,这就需要更为先进的散热解决方案。数据中心形态亦在不断创新,如液冷与风液混合数据中心、浸没液冷数据中心等,为算力提升提供了更为高效、环保的解决方案。

AI新型算力正牵引服务器、机柜、数据中心全链条变化。推理阶段正逐渐实现充分解耦,而训练阶段则预示未来的数据中心会成为一部大型计算机。现在,随着业务需求和算力基础设施的差距成指数级增长,两者之间的矛盾进一步加剧,AIDC算力建设面临着业务不确定性高、电力指标不匹配集群能力、PUE限制带来的散热升级、测试调优缺少实践、管理运维技术迭代五大挑战,为解决这些问题,构建全栈AIDC算力基础设施成为关键。

cy3.jpg
超云展位

推理之巅,超云为先:

全栈推理架构与GPU指导模型

过去一年多以来,市场上AI领域的竞争焦点集中在训练能力,训练的芯片短缺是全球的共性问题。当前,国内市场对训练设备的需求已不如往日迫切,训练过程在成本回收等方面遭遇了挑战,高昂的投入成本使得许多项目难以为继。因此,我们判断市场趋势正逐渐从训练转向推理阶段。

今年,预计市场将更多地关注推理技术的发展。通过API开放接口,国内在推理阶段将会展现巨大的创新潜力,无论是在业务模式还是硬件技术革新上。超云已完成AI推理的全栈生态的搭建,形成全链路的推理架构。

当前市场上的服务器推理机主要分为两大类:一类搭载Switch芯片,以英特尔产品为主,适合处理大体量模型的推理任务;另一类是不使用Switch芯片的直通架构,更适合中小规模模型的推理。

超云构建了符合国内实际使用场景和需求的推理生态。从推理结构和算力产出两个维度出发,以超云的产品体系为基础,已形成覆盖中心大模型推理/训推、中心推理、私有/边缘推理、本地推理的全栈推理解决方案,能够满足不同规模、不同场景的推理需求。

WPS图片(1).png
超云全栈推理硬件产品

解决方案

•搭载Switch芯片的8卡训推一体机,适用于大型模型推理;

•16卡高密度推理机,强调性价比,适合中小模型推理;

•8卡直通推理机,易于使用且产业链供应良好;

•8卡全兼容推理机,使用图形卡进行推理,以更低的成本提供同等的算力;

•液冷4卡推理机,适用于需要本地推理的社区、工厂或办公室环境;

•边缘/传统推理机,适用于边缘节点和传统的计算机视觉推理任务。

这些构成了目前适合国内市场的AI推理全栈形态。

AI算力中心如何做?超云提出了“投-建运分离”的模式,从投建,转化为投-建运分离,效率优先,如有企业需要满足能源政策规定的指标,指标有要求在本年度内必须做完的算力投资,可以考虑集装箱式数据中心部署。AI算力中心建设还要考虑高性价比算力、国产算力、新型液冷算力的要求。站在“投-建运”公司的角度,推理除算力值比较外,还需考虑场景普适性,设备回收折损。总结一下就是要精打细算。

怎样做到精打细算?从AI推理全栈角度,超云分享了GPU推理指导模型和训推效比/训推价比参数。

GPU推理指导模型的三个作用:

•能效模型:训推AIDC级,每W算力模型

•算力模型:各推理框架推理算力匹配度衡量模型

•TCO模型:推理每GPU算力性价比TCO模型

训推效比和训推价比参数的三个视角:

•训推效比面向未来,数值越高,单位能源输出训练推理能力越高;

•训推价比面向全TCO分析,电价影响此参数,越高越好;

•如考虑集群训练连续性,训推效比高会有加成。

以此实现资源的最优配置,帮助用户更好地进行AI推理全栈的规划和优化。这些工具和模型的推出,有助于企业更精准地评估AI算力投资效益,为AI技术的广泛应用提供了有力支撑。

五大核心竞争力

目标推理增速行业第一

cy5.jpg
超云展位

超云数字技术集团有限公司是由CEC和云基地联合注资成立的国家高新技术企业、工信部专精特新“小巨人”企业,是一家专注于数据中心产品及服务的本土制造商。秉承“让数据中心更简单”的价值主张,坚持自主创新和数实融合的发展路线,与高校和科研机构合作,践行“生态共荣"和“AI IN ALL”战略,推动行业数字化和智能化转型。

超云目前位于IDC产业链第八名,是NVIDIA NPN最高级精英级伙伴、华为昇腾APN首批伙伴、英特尔/AMD CPU/GPU OEM伙伴、摩尔、算能等国产AI互认证战略伙伴,全面兼容天数、昆仑芯、寒武纪、太初、燧原等国产AI。

超云凭借绿色节能、安全自主、专业算力、市场先行、软硬一体的五大核心竞争力,向推理增速行业第一的目标大步迈进。

绿色节能:代表超云绿色,在东数西算、双碳领域,深耕液冷与多项节能产品力

安全自主:加速计算硬件、AI存储、网络方案、调度软件全链路自主化、国产化,避免后门

专业算力:垂直计算、特殊计算,为客户人工智能+战略增加选择,解决客户业务问题

市场先行:率先战略聚焦推理市场,产品与市场同时布局,多款差异化产品、自主AI推理衡量模型,指导客户选择,提升推理效能

软硬一体:软硬一体的交付能力、效率等,客户共同定制产品,差异化云迹AI管理平台,使软硬件成为客户增值增收引擎

推荐阅读
关注数
5068
文章数
445
对数据中心、云计算、5G、AIoT 等科技领域的最新技术和应用的信息交流、新产品新技术的引导、技术创新与品牌打造,降低用户对新技术的接受成本
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息