焱融科技 · 2023年05月05日 · 北京市

论存储在智算与超算平台建设中的重要性

日前,科技部启动“人工智能驱动的科学研究”专项部署工作,将推进面向重大科学问题的人工智能模型和算法创新,加快推动国家新一代人工智能公共算力开放创新平台建设,支持高性能计算中心与智算中心异构融合发展,鼓励绿色能源和低碳化,推进软硬件计算技术升级。

各个领域产业化正在经历深刻变革,“数字化”、“智能化”正在成为社会发展有效推动力,包括近来 AGI 领域的 GPT-4,已成为世界各国发力的一个方向,如同互联网浪潮一般迅猛。

01.png

本篇文章基于上述背景,帮助大家了解存储在智算和超算平台建设中的重要性。首先,我们一同了解智算与超算平台各自研究的方向及应用场景所覆盖的范围,在此基础上,分析两个平台数据在各维度的复杂度。进而更好的了解在智算 + 超算融合驱动模式下,该如何构建计算·存储·网络一体的 IT 基础设施。

智算和超算研究方向及市场规模

智算中心:全称是人工智能计算中心,是基于最新人工智能理论,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,通过算力的生产、聚合、调度和释放,高效支撑数据开放共享、智能生态建设、 产业创新聚集,有力促进 AI 产业化、产业 AI 化及政府治理智能化。智算中心以多种异构方式共同发展的 AI 服务器算力机组为算力底座,不断提升智能计算能力和速度,满足人工智能应用场景下大规模、多线并行的计算需求,为各行业各领域人工智能应用提供稳定的技术支撑,打造可持续发展的算力生态。企业和研究机构可以依托智算中心提供的强大算力,驱动 AI 模型进行数据深度加工,实现 AI 应用创新。

随着人工智能技术的高速发展,智能化正以前所未有的速度重塑各行各业,我国算力结构也随之不断演化,对智能算力的需求与日俱增。5G、工业互联网、物联网、 人工智能等信息技术加速发展带动数据量爆炸式增长。《 2022-2023 中国人工智能计算力发展评估报告》 数据显示,2021 年中国智能算力规模达 155.2 EFLOPS(FP16), 预计到 2026 年中国智能算力规模将达到 1,271.4 EFLOPS。2021-2026 年期间,预计中国智能算力规模年复合增长率达 52.3%,同期通用算力规模年复合增长率为 18.5%。一个智算中心可以同时支撑的产业场景很多,例如智能汽车、智慧医疗、智慧城市、智慧交通、智能制造等。

02.png
我国智能算力发展情况

超级计算:也称之为高性能计算(HPC,High Performance Computing),利用并行工作的多台计算机系统的集中式计算资源,处理极端复杂或数据密集型的问题。超级计算具备极强的计算能力,其浮点运算速度能够达到千万亿次每秒。超级计算作为国家科技发展的重要制高点之一不仅是国家的科技实力的体现,更是国家高精尖技术发展的重要保障。

在科技的赋能下,越来越多的企业服务场景将面临显著的高性能计算服务需求,超算服务将在社会经济、科技发展的带动下,进入新的蓬勃发展期。预计 2025 年中国超算服务市场规模将达到 466 亿元,2021-2025 年复合增速有望达到 24%。高性能计算是支撑国防、生物、能源、自然科学等高科技行业发展的坚实底座。推进超算建设是打造我国算力底座的必经之路。随着算法取得突破、数据量指数增长、诸多高科技领域快速发展,社会对超算算力的需求不断提升。

超算任务中往往伴随着大量数据产生,分析和运用这些数据就是各个领域使用超算的目的,超算通过分析这些数据来了解实验结果。超算行业利用算力资源处理来自用户的海量数据,涉及数据回收与分析、数据模拟等多个环节。传统超算行业的服务场景围绕气象海洋、地质勘探、工业仿真、物理模拟等领域,服务对象主要为高等院校、科研院所主导的科技工程项目等。

综上总结为,智算和超算作为计算领域发展的两个重要方向,两者相互补充,协同发展。超算中心偏重高性能计算,定位在国家大工程、大科学的问题求解,专注于大规模科学计算。超算中心对提升整体科研创新实力和重大工程计算能力具有重要意义。智算中心偏重人工智能的算法和模型创新,定位于赋能千行百业,推动产业智能化,提升生产效率和优化产业结构,将支持人工智能算法开发和大规模应用部署。

超算/智算平台数据各维度复杂度分析

超算场景如气象预测、能源勘探、卫星遥感等,随着观测尺度和精度的提升,数据量将越来越大;而很多新增的超算场景,基因测序等 80% 以上是 PB 级的数据密集型场景,部分业务单文件数量达到 TB 级别。更大的数据量、更多的数据类型,都需要超算存储可以提供更大的带宽、更高的 IOPS、支持超大算力的访问能力。

  • 参与计算的数据量大幅增长

随着超算业务深化,超算数据量同步增长,诸如气象预报、能源勘探、GIS 等应用的精度带来了数据量的快速增长;参与计算的数据类型更加丰富,结构化数据、非结构化数据指数级增长,如基因测序等场景均需直接使用影像数据进行运算。

  • 数据存储的并发支持

多数超算场景为多任务、多并发计算,一些作业对带宽要求很高,另一些对 IOPS 要求高,多任务并发造成存储资源抢占,导致整体计算效率降低。

  • 对可靠性有更高要求

超算作为重型计算资源,且单任务耗费时间较长,若中断,需要重新计算,时间和资源成本都比较高,所以在设计超算基础设施时需要考虑尽可能提升整体超算系统的可靠性。

智算中心主要是面向人工智能应用的数据中心,就目前比较成熟的自动化驾驶和 AGI 两个应用来分析,AI 模型需要大量数据来学习,智能程度越高,学习的有效数据量越大也越复杂。不论是自动化驾驶或者是 AGI,其基本业务原理相似,其数据处理流程包含:数据采集、数据清洗、数据标注、模型训练、仿真。不同业务 AI 算法模型不同,但业务流程基本一样,所以在智算领域,整体架构设计围绕着算法和基础计算存储资源展开。

  • 数据规模级庞大,多以小文件为主

结合 AI 业务发展,数据规模庞大,数据类型多是小文件,在 KB-MB 间居多,在生产过程中,伴随着大量的 KB 级描述文件,总体规模在数十亿乃至百亿级规模。例如:目前比较火的 GPT-4,作为语言 AI 模型,其使用的训练数据就是文字,文字在数据分配里是小文件类别。

  • 高速网络普及

AI 集群大模型参数量和训练数据复杂性快速增长,对智算的算力提出了不同的要求,比如大规模 GPU 服务器+海量存储系统的建设,高速网络的使用,目前智算领域已经普及 200Gb Infiniband、100Gb TCP RoCE 网络,并且随着网络技术的发展,智算是启用新技术最早的行业。

  • 智算并发度高

智算具备规模效应优势,计算规模越大,业务迭代进步越快,在建设条件允许的情况下,往往是大量计算同步进行,这也符合智算平台架构原理(GPU),所以智算数据需要满足计算高并发访问能力,并发规模从几百到几万不等。

  • 可靠性建设

由于智算已经发展为一个单独的大型业务范畴,业务对于连续性要求已经是企业级 SLA 范畴,所以对整体系统的可靠性提出了要求,成为建设标准之一。
在超算和智算应用中的数据具备很多共性,这些共性引领了数据存储技术未来的发展方向,即要向着具备超算和智算数据业务方向。简单总结为以下几点:

  • 首先是数据量非常大,容量均在 TB-PB 区间;
  • 其次是运算对数据的带宽和 IOPS 以及延时性都有较高要求;
  • 在数据访问架构上都面临着高并发情况;

智算 + 超算融合驱动模式

构建计算·存储·网络一体的 IT 基础设施

随着 AI、ChatGPT 等大模型场景的持续发展,未来我国超算/智算中心的市场规模有很大幅度的提升,尤其是智算中心作为构建智慧社会和数字经济的关键性公共算力基础设施,是算力供给模型精细化、算法智能化、场景普适化、能力基建化的范式创新,通过降低算力成本为各类创新企业和应用提供关键基础设施,构建计算、存储、网络为一体的 IT 基础设施整体方案,计算平台、共享存储平台以及网络系统要以平衡的方式协同工作,且相互性能必须达到高度匹配,才能很好地实现对实时、大规模、多样化数据进行高效的计算分析。

计算系统:通过高性能 GPU 进行计算加速,模块化扩展,充分发挥计算核心的并行计算能力;

网络系统:低延迟、高带宽,最大限度地减少网络数据传输过程的性能瓶颈;

存储系统:对于大、小文件能够保持稳定的高性能,具备匹配计算规模的无缝横向扩展能力,满足 GPU 计算集群高并发的数据访问需求;

当构建百亿级别的模型时,算力、网络、存储这三者共同决定了模型最终的成熟度和产品先进性。算力全面发挥前提条件是网络和存储的能力要与算力保持强一致,可提供高效的数据流转能力和存储供给能力。目前 IT 建设中高性能数据中心已经实现高速网络的全面普及,例如:200Gb InfiniBand 已经成为智算中心和超算中心内计算/存储的首选网络技术,并开始向更先进的 400Gb 网络技术迭代,这就意味着存储系统就成为决定业务发展快慢的关键因素。

YRCloudFile 是焱融科技自研的高性能分布式文件存储系统,首先它采用全分布式架构,可扩展元数据能力和负载均衡能力使得存储集群可以同步横向扩展容量和性能,YRCloudFile 单一文件系统支持 EB 级数据量及百亿级文件数量。其次,YRCloudFile 支持 NFS/SMB 协议,通过通用 NAS 文件共享服务支持 Linux 和 Windows 私有客户端,针对高性能存储需求场景提供卓越的性能表现。在智算超算平台下为了充分匹配大规模 GPU 并发数据处理需求,焱融科技基于产品先天优势顺势推出焱融全闪分布式存储一体机 F8000X ,搭载新一代 64 位计算平台和焱融高性能分布式文件存储系统 YRCloudFile,采用全 NVMe SSD、InfiniBand 等高速网络,支持 RDMA、多网卡聚合技术,以极致性能充分释放计算潜力。近日,YRCloudFile 率先支持 NVIDIA GPUDirect Storage(GDS)功能,实现以直接内存的存取方式将数据传输至 GPU,显著降低 I/O 延迟,提升数据带宽,充分释放 GPU 算力,将性能发挥到极致,帮助用户应对智算 AI 时代高性能场景下的数据问题。

03.png
焱融全闪分布式存储一体机 F8000X 性能实测数据

在云、大数据、人工智能等新技术驱动融合下,全行业新应用数据也呈现出爆发式增长趋势,为了满足不同场景存储需求,YRCloudFile 灵活对接多数据平台,在 AI/HPC 数据平台,通过在计算集群节点上部署焱融 YRCloudFile 高性能私有客户端,实现多级智能缓存、数据预读功能,显著提升性能;支持 CSI 对接 Kubernetes 集群,提供高效、可靠的容器持久化存储服务,同时支持多种容器特性,使得容器平台使用、监控、管理存储资源变得更加的灵活高效;实现对 HDFS 接口协议完全兼容,使 Hadoop 生态中的各种应用都可以在不改变代码的情况下,平滑地使用 YRCloudFile 存储并访问数据,实现更加贴合业务应用的存算分离架构,解耦资源。

针对异构存储并存的应用场景,YRCloudFile 独有的数据智能加载和分层功能,灵活高效地驱动数据在不同存储平台流动,方便用户组织数据集进行计算分析,实现全数据生命周期管理,打通云上云下数据通路。使用焱融全闪分布式存储一体机 F8000X 将数据按照生命周期管理策略分层到本地低速存储或者云端,对业务端提供统一命名空间,降低使用复杂度,提升了数据存储使用的经济性。焱融科技针对大规模 GPU 集群高性能存储解决方案总结下来为:

  • 支撑数千台节点的高并发访问;
  • 保证模型训练中存储的高 IOPS、高带宽、低延时的访问能力,为 GPU 服务器提供足够高的存储数据传输带宽,充分释放 GPU 算力;
  • 支撑百亿级别的文件的读写性能和元数据操作性能,满足大量特征文件或聚合后的文件的存储需求且存储性能需要保证稳定性;
  • 为上层训练模型应用提供标准文件接口用于数据访问,并为容器化的训练任务提供灵活的数据访问能力;
  • 在模型运算中,存储不仅需要高 IOPS,还需兼容高性能网络,支持高速 RDMA 传输协议的 InfiniBand 网络,实现高 IOPS、低延迟和稳定的数据访问性能。

焱融文件存储在大规模 GPU 集群应用实践

焱融高性能分布式文件存储 YRCloudFile 具备超算和智算数据存储所要求的共性条件,在实践中针对超算的大文件和智算的小文件场景深入优化和开发,焱融全闪分布式存储一体机 F8000X 匹配 200Gb Infiniband 网络和 100Gb TCP RoCE 网络,可提供百亿级文件处理能力和高性能的元数据处理能力,在众多超算和智算项目中匹配高性能 GPU 计算节点实现超算和智算高性能平台的建设,焱融高性能文件存储率先支持 400Gbps InfiniBand 网络,也是国内首家支持 GPUDirect Storage® 分布式文件存储产品,性能成为业界翘楚,是国内超算中心和智算中心建设的理想存储。目前,焱融全闪文件存储已在 AGI(通用人工智能)、智能汽车、智能制造、智能医疗、教科研等行业的数据中心落地应用。

👇 点击标题即刻看到完整解决方案

智谱 AI 联合焱融打造 A100+全闪存储的大规模 AI 架构

焱融全闪文件存储一体机 F8000X 立足多模态 AI 场景,适配百亿级数据规模,向计算集群提供高性能低时延的存储服务能力。在支撑海量数据存储的同时,YRCloudFile F8000X 集群中单节点可提供 200万 IOPS 和 40GBps 带宽,支持 RDMA 协议,实现存储高性能支撑,使 IaaS 层全面提升性能,为 AI 业务夯实基础能力。

大容量、高性能,国家级实验室分布式并行文件存储实践

焱融科技提供的一站式分布式并行文件存储,满足数据平台全方位需求。为实验室搭建大规模高速并行可扩展存储的数据平台,打造了一套高性能、高可用、高扩展性的 IT 存储基础设施,有效实现数字孪生建模、仿真、交互、在线服务等技术突破,并支撑示范应用、智能人机交互关键技术的突破,为实验室技术快速落地提供了关键支撑。

焱融科技助力海尔集团上云 加速“智能制造”进程

在业务全球化过程中,云计算产业平台以整个制造产业为依托,并结合物联网和人工智能,通过产业智能化协作的平台化,加速制造产业的智能升级。焱融科技作为国内唯一能够在各种云环境下提供高性能存储的解决方案的厂商,通过分层技术实现统一命名空间数据流动管控,解放业务和运维压力,满足云端服务 SLA 服务质量要求,为用户提供在存储及性能侧完善存储服务能力。

焱融全闪存储实现与美的集团破千万 IOPS 性能

焱融 F8000X 全闪分布式文件存储系统为美的集团构建的 AI 计算共享存储平台,将计算、网络、存储三个核心能力达成完美匹配,最大化提升整体平台算力输出,以满足客户业务需求和整体 AI 训练效率的提升,更好地支撑算法工程师开发和训练人工智能模型。解决用户在 AI 计算场景对存储的极高 IOPS 和带宽、极低延时需求,支撑整个创新中心的算法工程师的人工智能模型的开发和训练。

焱融科技在智算大规模 GPU 场景有着多行业的落地实践并经历了不断的技术迭代,积累了大量超算和智算 IaaS 建设经验,可以提供全面的超算和智算的 IaaS 一体化解决方案。同时,助力计算效率提升和单位算力能耗降低,构筑 AI 算力时代数据中心的低碳建设。支持高性能计算中心与智算中心异构融合发展,鼓励绿色能源和低碳化,推进软硬件计算技术升级,焱融存储一直在不断创新。

推荐阅读
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息