焱融科技 · 2022年11月18日 · 北京市

YRCloudFile V6.9.0 加速企业在大数据应用技术创新

6.9.0封面.png

近日,焱融科技发布分布式文件存储产品 YRCloudFile 6.9.0 版本。该版本在功能和性能方面有多项技术性突破,主要包括大数据应用无缝对接 Hadoop ,为大数据应用提供高性能存储平台;独有的 Dataload 功能和智能分层细粒度化,更加精确丝滑地响应业务需求;同时实现 NFS/SMB 协议节点的动态管理,使并发访问性能进一步提升;最后在产品运维和管理方式上更加贴合系统运维人员的使用场景,操作快速便捷。

YRCloudFile 是焱融科技提供的新一代独立的混合云文件存储系统,基于灵活的 SDS 架构, 可提供 POSIX、NFS、SMB/CIFS 等丰富的文件服务,不仅可以用于企业的文件共享,大容量数据存储等通用场景,还能更成熟的应用于智能汽车、多模态 AI 、HPC 高性能计算、生物信息、GIS 等高性能计算应用场景。

在 6.9.0 版本中,YRCloudFile 主要进行了以下重要更新:

产品性能:动态增加 NFS/SMB 协议节点,提升整个 YRCloudFile 集群对外提供 NFS/SMB 并发访问性能。

产品功能:YRCloudFile 无缝对接 Hadoop 平台,将更易于扩展的存算分离架构与Hadoop 兼容,通过 YRCloudFile 可完美替代 HDFS。

用户体验:优化了资源占用等的界面统计信息。细化了智能分层、Dataload、日志审计、运维界面等,提升用户体验。

HDFS 100% 兼容大数据应用 + 极致性能文件存储平台

HDFS(Hadoop Distributed File System,即 Hadoop 分布式文件系统)作为 Hadoop 生态系统的一个重要组成部分,是 Hadoop 中的的存储组件,负责海量数据的存储。

随着大数据、数据湖在各个行业中的广泛应用,原生的 HDFS 在支撑大数据应用时,存在存算耦合、扩展不灵活的问题。YRCloudFile 6.9.0 版本,支持大数据相关框架,实现与 Hadoop / Spark / Hive / Presto / ClickHouse 的完全兼容,通过 YRCloudFile 可完美替代 HDFS。Hadoop 生态中的各种应用都可以在不改变代码的情况下,平滑地使用 YRCloudFile 存储并访问数据,实现更加贴合业务应用的存算分离架构,解耦资源。

YRCloudFile 提供的大数据存算分离解决方案中的文件存储服务避免在管理和运维上投入过多精力,使计算资源弹性伸缩,满足客户对计算资源的灵活调度,更好地利用公有云计算弹性伸缩的能力。与此同时,YRCloudFile 还支持对数据进行冷热分层,可将冷数据下刷到更低成本的对象存储中,大数据分析的存储成本大大降低。

例如在 AI、自动驾驶等场景中,大数据处理作为整个数据处理流程中的重要环节,通过 YRCloudFile 对大数据框架的支持,用户仅在一套 YRCloudFile 集群上,就轻松实现对所有数据处理环节的支持,减少数据在不同集群之间的重复拷贝,进一步提升企业内部对非结构化数据的处理效率。

功能优化又双叒叕增强

冷热数据治理粒度更细

智能分层在海量数据全生命周期管理中非常实用,YRCloudFile 6.9.0 版本将分层策略粒度更加细化,新增分层下刷的任务状态和执行情况以及数据的历史记录功能,用户可实时掌握数据在冷热数据层之间的流动情况,更加强化管理。

数据流动功能更强大

为适应跨云和不同数据平台之间的数据流转需求,减少数据在不同集群之间的重复拷贝,进而提升企业内部对非结构化数据的处理效率。新版本 Dataload 功能支持用户多次导入导出的操作,随时满足在数据不断变化的状态下的数据更新需求。

日志审计功能

数据的关键操作记录,是系统管理员非常关注的系统运维工具。新版本增加日志审计功能,系统管理员可追溯客户端的删除、打开文件/目录等重要操作的相关信息;同时支持对接 ELK 等工具对审计日志进行分析处理。

在 Fluid 中增加 YRCloudFile Runtime 支持

Fluid 是一个开源的基于 Kubernetes 的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如:大数据应用、AI 应用等。在计算和存储分离的大背景驱动下,Fluid 的目标是为 AI 与大数据云原生应用提供一层高效便捷的数据抽象,将数据从存储抽象出来。

通过 Kubernetes 服务提供的该数据层抽象,可以让数据在诸如 HDFS、OSS、Ceph 这样的存储源和 Kubernetes 上层的云原生应用计算之间灵活高效地移动、复制、驱逐、转换和管理。而具体的数据操作对用户透明,用户不必再担心访问远端数据的效率,或是管理数据源的便捷性,以及如何帮助 Kubernetes 做出恰当的调度决策等运维问题。用户只需以 Kubernetes 原生数据卷的方式直接访问抽象出来的数据,剩余任务交给 Fluid 完成。

YRCloudFile 开发了符合 Fluid Runtime 接口的 YRCloudFile Runtime,使用 Fluid 的接口来对接 YRCloudFile 的 DataLoad 功能,让容器用户在 YRCloudFile 中创建存储卷,只使用 Kubernetes 的 API 接口就可以高效地使用对象存储中的数据 ,大幅提高数据访问的速度和效率。

性能强化又双叒叕提升

NFS/SMB 协议节点动态管理

系统管理员可以在集群运行过程中,动态增加 NFS/SMB 协议节点,通过调整 NFS/SMB 的协议节点,提升整个 YRCloudFile 集群对外提供 NFS/SMB 并发访问性能。

追加写性能优化

新版本在确保不同客户端、多进程之间追加写的数据正确性的前提下,提升了客户端追加写性能。经过实际测试,在单客户端对文件进行持续追加写的场景下(日志的典型 IO 模型),性能提升 3-5 倍,在全闪环境下,性能提升更为显著。

运维管理能力又双叒叕增强

在 YRCloudFile 6.9.0 版本中,我们持续优化增强监控告警、运维的能力,包括对 InfiniBand Multi-Channel(多个 InfiniBand 网卡)聚合网络的监控、客户端简化安装配置、系统参数动态配置、集群扩容的优化等功能。让运维管理人员更清晰地了解存储系统工作情况,灵活管理数据,使 YRCloudFile 的易用性再次加强。

总结

YRCloudFile 在持续深化性能优化的同时,不断适应用户在更多使用上的业务需求,拓宽在应用场景、接口上的支持。后续我们会进一步分享大数据存储解决方案以及性能深度解读的文章,让大家更好地了解 YRCloudFile 6.9.0 版本新功能,敬请期待。

推荐阅读
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息