大算力需求下的大模型基础设施实践

编者按:在第4届中国数据中心绿色能源大会的“算力经济算网融合”专场上，商汤科技大装置事业群超算中心总经理林海以“大模型和大算力背景下的AIDC”为题的演讲，非常具有代表性，体现了算网融合的主题思想。

商汤科技大装置事业群超算中心总经理林海

“数字中国万里行”在2022年夏天专程考察了位于上海临港的商汤科技AIDC，它作为SenseCore商汤大装置的算力基座，从数据中心基础设施的规划、建设，到服务器、芯片通过高速网络构建起大规模并行计算集群，都紧密围绕商汤科技自身的AI训练、推理和大模型服务等业务需求展开，与益企研究院倡导的“全栈数据中心”理念高度吻合。

这个演讲还讨论了大模型时代基础设施建设的几个热点问题：

GPU数量从几千到上万，算力集群扩展规模有哪些难点？

如何应对算力密度和灵活性的挑战？

网络互连如何影响机房设计？

集群规模与液冷技术有何关联？

以下内容根据林海演讲梳理

大模型与算力需求

今年以来大模型非常火热，那么到底什么是大模型？比如，ChatGPT拥有1700亿参数是大模型，那么具备1000亿参数的模型算不算大模型？或者100亿参数的模型算不算大模型？行业里面并没有严格、精准的定义，但是大模型具有一个共同的特点——其使用的数据量以及模型参数量是巨大的。从下表可以看出，大模型所需算力的量也是巨大的。

人工智能的出现至今，数据的量、模型的参数量不断增长是持续进行的。对算力需求也愈来愈大，而并不是说今年出现了某种特殊形态的模型就是大模型时代了。

2012年以前，人工智能的算力增长轨迹类似摩尔定律曲线较为均匀和线性。2012年以后人工智能神经网络的出现伴随着大数据、云计算等大量应用端的发展，人工智能对算力需求的增长突然加速，特别是2016年AlphaGo横空出世至今，每隔3-4个月对算力的需求量增长1倍。

从市场侧来看，国内的互联网大厂和人工智能企业不管出于是战略卡位还是提前布局都在加速建设算力基础设施，算力资源依然处于紧缺状态。

社会公众认知也是加速算力需求倍增的重要因素，它让大众认知人工智能原来可以做非常多事情，比如ChatGPT这种NLP的自然语言生成模型可以与人自如交互，还有AIGC模型的文生图、图生图。但在大众视野之外，从几年前开始大模型便开始赋能很多其他的学科，比如物理学、化学、材料学、生物学等，对人类社会的影响、对生产力的提升，所产生的价值远远超过公众目之所及。

同时，大模型应用的出现会加速整个人工智能产业、IT业的发展，其改变了以往的开发范式。

商汤在人工智能行业深耕多年，期间也遇到过人工智能商业落地非常困难的阶段。原因在于，在解决行业场景时，如果场景本身不够大，可能就会出现后期应用的产品收益覆盖不了产品的开发成本的情况。因为开发过程是基于20%的AI模型，还有80%的人工开发实现。

如今有了大模型，未来有80%的工作量可交由基础模型来完成，剩下的从领域模型再到行业应用逐步落地的过程，所需要的时间会缩短，效率也会提升，整体人工智能应用从开发到落地的成本得以优化。这个过程可以概括为新二八范式，让人工智能行业的发展速度加快。

大算力集群支撑MaaS

AIDC作为算力基础设施，目前面临两个比较大的困难：一是高额的成本，包括硬件、能源等方面成本；二是随着算力集群规模增大，稳定性越难做到，效率也很难提升。

三年前OpenAI做到了以1万张卡并联做大模型，但目前为止在国内可能也没有厂家能实现1万张卡的并联，商汤正在朝这个方向努力。从整个的并行效率和稳定性来来看，对算力资源和传输资源都是非常大的挑战。如何去组织、平衡算力和传输也是非常艰难的工程实践过程。

商汤于2019年就预测到了这种发展趋势，也认识到行业的困难，并于2020年商汤在上海临港启动建设第一个AIDC，打造高效率、低成本、规模化、安全可靠的软硬一体的算力基础设施。从2022年初投产开始，目前正在服务40个核心客户和10多个今年新增的大模型的客户。应对现在的市场需求，提供大模型服务MaaS（Model as a Service，模型即服务）

商汤AIDC目前达到5000P峰值算力，也是亚洲最大规模的人工智能计算中心之一，已实现国产化算力500P，拥有27000张卡，可同时支持20个千亿参数的模型训练。

正是通过这种底层能力的支撑，在当今的大模型的背景之下，今年4月10日，商汤发布了“日日新SenseNova”大模型体系。推出了商汤最新研发的语言大模型“商量SenseChat”，作为千亿级参数的自然语言处理模型，“商量SenseChat”拥有出色的多轮对话和超长文本的理解能力。

在AIGC方面，“日日新SenseNova”的具备各种AI文生图创作、2D/3D数字人生成、大场景/小物体生成等一系列生成式AI模型及应用：

“秒画SenseMirage”文生图创作平台，拥有光影真实、细节丰富、风格多变的强大的文生图能力，可支持6K高清图的生成；客户还可根据自身需求训练生成模型。

“如影SenseAvatar”AI数字人视频生成平台，仅需一段5分钟的真人视频素材，就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身。

“琼宇SenseSpace”和“格物SenseThings”3D内容生成平台，可以高效低成本生成大规模三维场景和精细化的物件，为元宇宙、虚实融合应用打开新的想象空间。

高功率密度需求及挑战

因为前期目标定位、对业务需求的理解的清晰，商汤AIDC从建设到投产运维保持三个鲜明的特点：一是高功率，二是高密度，三是高弹性。

高功率即功率很高，这个高是逐渐增高的过程。三年前商汤AIDC项目规划是5000个8千瓦（KW）机柜，但设计刚结束就发现这个功率已经难以满足下一代GPU服务器的部署要求。实施过程中调为4000个10千瓦的机柜。在交付过程中，在一些重点集群进一步提升到20千瓦的机柜。直到今天，最后一批要交付的机柜是已经按照25千瓦标准设计，这也是目前为止风冷空调的极限值。

高密度需结合网络传输要求。商汤的网络架构LLD（Low-Level Design）落到每个包间里，需要有一种更高电力供应的包间来提升传输效率。

如上图，最新待交付的几个包间里，原先一个3500平米的标准层设计有4个IT包间，但以大集群支撑大模型的业务要求出现后，被整合成两个超大包间，这两个包间提供的总电力规模是4MW（兆瓦），大大提升了整个末端功率的密度，其优势可以在同层建设三层网络架构，大大节约了互连的成本。

高弹性即适配不同的芯片和服务器，在业务发展增长灵活的背景下，如何既适配进口服务器，又支持国产服务器，既能包含训练集群，又能满足推理集群，这就要思考更灵活弹性的供给方式和调度方式。

过去两年，商汤除了建设AIDC以外，还完成了两个复杂的调整过程：一是是把分散在全国的独立的中小集群向上海的临港集中。二是所有集群集中完以后，将所有的算力资源进行重构，组成若干个以千卡为单位的POD，再把这些POD并联成若干个超大的训练集群,最终将资源池化，进行统一调度。

目前为止，商汤已经实现了但集群4000卡的并联，下一步可能要冲击万卡并联的超大集群。而目前基础设施侧25KW的机柜也将面临新的升级需求。

下一步基础设施侧需要探索的方向包括——是否出现大量的液冷GPU集群？怎么容纳更多的异构的GPU集群进行算力调度？在全国范围内如何响应国家东数西算战略，实现全国网络的算力调度？

展望下一步，液冷技术可能是很好的解决方案，它有很多优点跟商汤AIDC的发展路径相契合。但液冷技术也面临挑战。比如在整个服务器和芯片的供应链上有很多的不确定性，到底是用什么型号的服务器，国产的还是进口，供货节奏怎么样，由哪家厂做总集……需要一种更方便、更快捷、更开放、更通用，或者是模块化的即插即用的液冷方式，去达成最好的落地应用。

未来，商汤还计划致力于打造基于大数据与智能算法实现能耗监控与调优的智能决策引擎。在训练任务、推理任务时，可以预判整个IT的负载率，结合动环里的电力、冷源设施参数以及天气参数组成一个可以做智能决策的模型，实现真正靠智慧化去管理能耗效率的运维体系。

大模型、大算力的时代已经到来，以AIDC为代表的新一代的基础设施势必迎来更多的发展和挑战。未来基础设施会更加贴合上层应用的差异化需求，促进整体产业和社会的发展。而今天我们在做的事情——训AI大模型，用商汤大装置。

推荐阅读

目录