焱融科技 · 2022年04月08日

焱融看|AI 如何驱动存储发展

WechatIMG3670.jpeg

随着越来越多企业深入部署 AI,数据成为训练过程中必不可少的一部分,企业也开始对存储有着更强烈的需求。在此背景下,AI 和数据存储产生了自然融合,正如数据影响着 AI 的训练效果,AI 也在帮助存储提高其性能、安全性和灵活性,驱动存储技术发展。

AI 时代,存储比以往更加重要

在 AI 的快速发展下,数据量出现了爆炸式增长,AI 工具也开始在各种不同的、以存储为中心的应用程序中展开。比如,在 AI 训练工程中,需要存储智能分层;亦或者,从更实际的层面上来看,AI 训练亟待解决在多云环境下的存储问题。

为此,人们开始对于数据处理的极高需求与底层存储技术之间的不匹配感越来越强烈。当数据增长得越多,在内存和存储上的数据堵塞就越严重,人们愈发希望扩大内存,在 DRAM 上存储更多数据,同时需要保持低时延,不能和 CPU 的运算速度相差太远。于是,我们看到了来自 AI 对存储的正向驱动,也了解到企业对软件定义存储有了更大的需求。

AI 激活存储的隐藏潜力

尽管 AI 时刻在推动存储发展,但是想要进一步激活存储潜力,仍需要解决 AI 场景下,存储容易面临的挑战:

  • 海量小文件,由于训练任务需要的文件数量都在几亿到十几亿的量级,所以存储需要能承载几十亿甚至上百亿的文件数量。同时,由于很多训练模型都是依赖于图片、音频片段、视频片段文件,而这些文件基本上都是在几 KB 到几 MB 之间。
  • 读多写少,在大部分场景中,训练任务只读取文件,中间很少产生中间数据,即使产生了少量的中间数据,也是会选择写在本地,很少选择写回存储集群。
  • 目录热点,由于训练时,业务部门的数据组织方式不可控,很有可能用户会将大量文件存放在同一个目录,容易导致多个计算节点在训练过程中,会同时读取这一批数据,这个目录所在的元数据节点就会成为热点。

“工欲善其事,必先利其器”,要想发挥出 AI 人工智能技术的最大威力,解决存储挑战就成为企业构建强有力的 IT 基础设施的重要一环。如果没有高性能的存储,就会导致整个系统性能出现延迟的情况。

因此 AI 对存储性能的要求是很苛刻的,企业希望存储系统能满足高吞吐量和低延时的需求,让更多的数据能更及时地传输和执行,那么对于这个愿望应该如何实现呢?

焱融科技全方面支撑 AI 场景存储发展

为了满足上述愿望,焱融科技在设计针对 AI 场景的存储解决方案时,在保证数据可靠性的同时,针对数据高性能和高可用也做了相应的优化。

首先是海量小文件的问题。实际上,海量文件存储的核心问题是什么,是文件的元数据管理和存储。传统的分布式文件存储都是针对大文件进行设计的,如果按照每个文件 100MB 计算,只需要 1 千万的文件,其总容量就有 1PB 了。然而,在提及 AI 训练难题时,我们分析出 AI 场景中 80% 以上是小文件,一个文件只有几十 KB,文件数量动辄就几十亿,因此文件的数量成为了文件系统要解决的首要矛盾。

针对这个问题,焱融科技提出用横向水平扩展的方式,把单点的 MDS 集群化,采用静态子树+目录 Hash 两者结合的方式,将根目录在固定的 MDS 节点,让每一级目录都根据 Entry name 进行 Hash 再次选择 MDS,保证横向扩展的能力。同时,目录下文件的元数据进行存放时,不进行 Hash,而是跟父目录在同一个节点,保证一定程度的元数据本地性。

这种做法带来两个好处,其一是实现了元数据的分布存储,从而通过扩展元数据节点即可支持百亿级别的文件数量,其二是在一定程度上保证了元数据的检索性能,减少在多个节点上进行元数据检索和操作。

其次是为了提升数据读写能力,焱融科技极大程度保证了大文件 IO 的吞吐性能,采用常见的将控制流和数据流(即元数据和数据存储)分离方案,客户端在获得文件访问控制权后,直接对后端存储分片进行并发访问。对文件属性的更新采用 lazy 模式,即在客户端调用 close 时更新 MDS 中的文件信息。这种方式在减少对 MDS 更新频率的同时,大幅提高 IO 性能。同时,为了保证小文件 IO 访问性能,焱融科技采用小文件内联、元数据缓存、文件信息 KV 化等技术手段,保证了 AI 场景中大量只读小文件的训练性能。

最后是目录热点问题,焱融科技通过增加虚拟子目录的方式解决问题。这种方式虽然多了一层目录的查询操作,但是足够灵活,可以把热点分摊到集群中所有的元数据节点,同时也可以解决另外一个问题,就是单目录的文件数量问题。增加虚拟子目录可以很好地解决这个问题,使单目录可以支撑 20 亿左右的文件数量,并且可以根据虚拟子目录的数量灵活调整。

AI 时代来袭,存储做好准备

当前,AI 的发展正在加速推动技术设施的进步,数据类型和数据存储需求也在产生变化,或许很难预测未来的存储技术究竟是怎么样的,但是我们可以肯定的是,未来 AI 将持续驱动存储发展。

接下来,焱融科技不断推动存储技术的发展,满足不同场景下的存储需求,通过 YRCloudFile 为海量存储提供一个最佳的选择,焱融科技打造的优质存储产品和方案已成为当下解决不同存储需求的一大利器,未来焱融科技将在不同场景下发挥更大的价值。

推荐阅读
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息