人工智能是引领新一轮科技革命、产业变革、社会发展的战略性学科领域,正在对人类生活、经济发展和社会进步等方面产生重大深远的影响。北京邮电大学是国内最早从事人工智能人才培养和科学研究的单位之一,是中国人工智能学会(CAAI)的挂靠单位。“脑认知与智能医学系”是北京邮电大学人工智能学院的重要组成部分,正逐渐发展成为支撑该学院“智能+医学+X”交叉学科建设的重要力量,依托脑认知与智能医学系,瞄准国家重大需求和人民生命健康,深度参与国家科技创新2030-脑科学与类脑智能重大项目等。
AI 驱动 智能医疗大有可为
当今信息技术蓬勃发展,医疗领域的变革往往关乎着人类健康,数字医学正积极推动着医疗行业变革的步伐,医疗人工智能适逢其时,支撑着丰富的健康医疗应用,造福人类生命健康。在医学影像和病理图像智能分析领域,人工智能也有着广泛应用。人工智能在医学影像中的应用,其作用大体上可分为两个层面:一是增强成像效果,包括摄影和图像处理,提供更加能够诊断疾病的影像;二是分析诊断,利用人工智能技术对影像进行分析,从而给出诊断结论。简单来说,人工智能可赋能医学影像诊断,承担分类检出工作,提高诊断的效率和精准度,越来越多地帮助医生完善临床决策中的隐藏见解,减少医生的重复劳动,提供具有附加值的工作,将患者与资源联系起来进行全面管理,缓解看病难的问题,并从以前无法访问的非结构化数据资产中提取有意义的数据,进而提高综合医疗水平。医学成像数据是关于患者的最丰富的信息来源之一,并且通常是最复杂的信息之一。整理并解读这些海量图像数据也是一项挑战,稳定可靠的存储管理和服务系统对人工智能赋能医学图形影像处理和应用至关重要。
北邮 AI 医学图形图像研究平台需求分析
本项目为人工智能学院医学图形图像研究建设一套人工智能研究平台,主要用于支持人工智能医学影像处理、智能医学图像理解、医学影像分析等方面的科学研究工作。
智能医学平台数据存储的主要特点包括:
- 需要承载的文件量大,增速快,现有数据量在数百 TB 且数据以 TB 级 增长。海量的文件数量及快速增长驱使存储系统拥有海量文件存储能力和强大的扩展能力;
- 大小文件混合场景,智能医学图形图像系统中,包含了诸多类型的数据,大文件(医学影像、图片等)和小文件(描述信息、文本等)混合场景。对于存储系统来说需要兼顾大文件读写性能-带宽和小文件读写性能-IOPS;
- 数据存量大、增量快的数据特点要求 AI 平台能够快速地处理数据,同时,存储作为 AI 平台最重要组成部需要有足够高的性能,满足数据处理要求;
- 每次运行 AI 训练任务,涉及大量数据读写及运算,运行时间较长。长时间运行的任务对于存储的稳定性提出了极高的要求,需要拥有稳定的数据服务能力和稳定的系统状态;
原有的存储方式不能很好地满足科研工作的需求,主要体现在以下几个方面:
- 在整体架构方面,目前的存储方式是使用各个计算节点的本地硬盘来存储数据,这样带来了多方面的问题。例如,通过共享本地硬盘的方式能够支持的训练客户端非常有限,在这种存储方式中,本地硬盘的性能成为瓶颈,影响训练效率;其次,由于数据都存放在独立的硬盘中,存在数据孤岛问题,节点与节点之间无法实现数据共享,数据需要在节点间反复拷贝,浪费时间及存储空间;
- 在性能方面,本地硬盘的性能难以满足高性能,海量文件的人工智能场景的存储需求,影响系统效率。人工智能平台会处理海量数据,就需要存储系统能够高性能地提供待处理数据,同时 200Gb Infiniband 网络在 AI/HPC 场景中已经普及,存储系统必须能支持高速网络;
- 在可扩展性方面,现有的存储方式不能很好的支撑海量的数据存储需求,也难以跟上数据激增的步伐,平台的可扩展性也受限;
YRCloudFile 构建国家级研究平台建设
为建设先进全面的科研模式,该院研究平台选择与焱融科技达成此次合作,共建高效的国家级研究平台,为科研工作长足发展奠定基础。该人工智能学院过采用焱融 YRCloudFle 分布式存储集群提升 AI 平台整体效率,这带来了立竿见影的效果:新建的人工智能平台由计算集群,200Gb Infiniband 网络及 3 台焱融 YRCloudFile 分布式存储节点组成。在计算集群上运行医学处理分析应用,通过 200Gb Infiniband 网络连接存储系统。
业务平台建设方案架构图
焱融科技所提供的存储解决方案,该研究平台建起大规模高速并行可扩展存储的数据平台,满足了基础研究需要的同时,有了更多性能方面的提升。
合理分配高效利用
采用焱融分布式文件存储 YRCloudFile 支持目录配额管理和用户/组配额管理,使用一套存储集群满足不同用户的数据存储需求,多用户之间共享存储空间,实现了存储资源的合理分配和高效利用。采用目录配额功能为不同用户设置独立的使用空间大小,避免了多个用户对于存储空间的抢占问题,实现了存储空间的合理分配;通过设置 QoS 功能解决了存储性能抢占问题,保障不同用户的不同业务获取合理的存储性能。
高性能线性扩展
存储集群通过 200Gb Infiniband 与前端计算节点相连,该平台具备了高性能的存储服务。焱融分布式文件存储 YRCloudFile 可将多台存储服务器上硬盘的读写能力聚合形成聚合带宽,搭建通用 X86 服务器,实现软硬件解耦,可按需部署,灵活扩展,使存储系统总体性能呈线性增长。实验室后续可通过增加服务器的方式,提升整个存储系统的容量及性能。
海量文件支持
医学影像图片业务包含大量文件,这些文件既有大文件,如图片、图像等,也有海量小文件,如文本文件、描述信息文件等。作为数据的核心层,焱融分布式文件存储 YRCloudFile 具备海量结构化和非结构化数据管理能力,海量小文件操作和大文件处理的能力,深度优化的元数据服务提供了卓越的海量数据存储和访问能力。不同科研人员可根据业务需求采用相应存储接口对接到计算平台,YRCloudFile 所具备的大集群资源管理功能 QoS、配额管理等服务,能够更好地提升整体存储服务能力。
北邮 AI 医学图形图像研究平台采用 YRCloudFile 提供的解决方案,打造了一套高性能、高可用、高扩展性的 IT 存储基础设施,在提升海量文件数据存储能力的同时,智能医学平台也实现了全生命周期的数据管理能力,在保证百亿级文件操作性能提升的基础上,全面提升了数据管理效能,满足了研究平台高并发访问数据、数据共享安全及数据可扩展能力的需求,为研究平台技术快速落地提供了关键的存储支撑。北邮智能医学平台是学校加强新型交叉学科建设、助推“脑认知与智能医学”科研学术水平提高和推进医学科学进步、促进人类健康发展的重要依托。