毫无疑问,随着数字化转型的提速,越来越多的海量数据正呈现出爆炸式增长,企业的存储基础设施也正面临着“翻天覆地”的变化,特别是新的数据形态、新的部署环境、新的安全需求,也都对存储的发展提出了新的挑战。 而分布式存储凭借高安全性、可靠性、可用性以及易于扩展等特性得到了快速发展,在数据存储市场上也越来越受到高度重视。特别是在“十四五”规划中,国家更是将超大规模分布式存储技术创新列在数字经济重点产业云计算专项的首要位置。
背后的原因在于,由于本身技术架构的“制约”,其也有着存储效率低下、资源调配分布不均等“局限性”,而随着用户需求场景的不断变化,对分布式存储的需求也呈现出多样化的趋势,这也让分布式存储面临着更多的挑战。
在此背景下,英特尔打出“组合拳”,基于多项英特尔软硬件创新解决方案,优化分布式存储的性能、可靠性以及安全性,满足用户对于分布式存储的需求,让更多的行业客户能够在更多的应用场景中得以实现业务的创新,进一步激活数据潜能,加速企业数字化转型和上云之旅。
分布式存储四重挑战
众所周知,传统企业最强的数据存储能力往往都是在几百TB或者几个PB的级别,但如今基于云化数据中心的存储交付规模正开始以10PB甚至百PB起跳,由此也就带来了一个新的难题,那就是如何解决如此大规模的数据管理、运维以及分析的问题,过去传统的集中式存储对于这种庞大数据量的支持能力往往比较有限,而分布式存储凭借高扩展性和易管理能力,正在成为承载海量数据的主流选择。
市场数据也印证了这一点,IDC报告预测,到2025年全球数据将达到175ZB,其中全球非结构化数据存储容量的60%将部署在分布式存储之上,而在中国市场,分布式存储未来五年复合增长率更是超22%,成为中国数据存储市场的增长“新引擎”。可以看到,目前分布式存储开始广泛应用于云服务商、高性能计算、视频、运营商资源池、政务大数据等多个行业和领域,其存储容量和市场份额也在连年提升。
但与此同时,分布式存储也并非是“无往而不利”的,尤其是随着今天行业客户应用多元化导致的需求多样化,分布式存储也面临着更的挑战和压力,具体体现在以下四个方面:
一是,在海量小文件存储方面,由于分布式存储对元数据的管理、数据布局、缓存管理等的实现策略侧重于大文件,导致在海量文件的场景下,分布式存储的性能会出现极度的“衰减”,特别是在目前互联网、云计算、物联网等应用爆发的情况下,往往会产生数亿级别的海量小文件,因此从元数据管理、存储效率、还是访问性能等方面,都给分布式存储带来了新的挑战。
二是,在高并发与低延迟方面,随着5G、全光网等联接技术的广泛应用,越来越多的新应用,如移动支付、游戏、直播、远程会议、线上教育和智能制造等需要实时响应的业务场景,不仅每时每刻都在产生着海量的数据,同时也需要更加实时地传输和高效处理数据,满足业务场景的高并发和低延迟的需求,而这也是分布式存储必须要解决的问题。
三是,在数据的安全可靠方面,存储在整个企业的关键业务系统中一直起着核心支撑的作用,一旦数据遇到破坏或丢失,将对核心业务造成巨大损失。而在分布式存储系统中,虽然出现了“三副本”这样的方案能够一定程度上保障业务的高可用性,但仍然无法保证副本之间的一致性,因此这就需要无论是I/O节点、存储交换机、还是存储阵列、存储介质等,各个环节都要保证高可靠和高可用,这样分布式存储才能发挥出更好的价值。
四是,在节能减排方面,随着全球和中国推进“双碳”战略,节能减排逐渐成为企业实现可持续性发展的重要内容。数据显示,目前全国数据中心的PUE值(能源使用效率)依然偏高,平均PUE值为2.46,远远达不到国家规定的PUE值1.4以下的指标,因此降低分布式存储的能耗水平,走分布式存储的绿色创新之路也将是未来的唯一选择。
由此可见,在海量数据爆发,分布式存储驶入“快车道”的关键时刻,如何破解其中的海量小文件、高并发和低延迟、数据的安全可靠以及节能减排方面的全新挑战,不仅是“当务之急”,更是“刻不容缓”。
英特尔打出“组合拳”
也正是洞察到这种变化,英特尔打出“组合拳”,通过第三代英特尔® 至强® 可扩展处理器、英特尔® 傲腾™ 持久内存、英特尔® 傲腾™ 固态盘以及多项英特尔软硬件创新解决方案,优化分布式存储的性能、可靠性以及安全性,满足越来越多的用户对于分布式存储的需求。
首先,针对海量小文件存储的挑战,英特尔通过英特尔® 傲腾™ 固态盘+英特尔® QAT,为行业用户提供实时性更强、更灵活可扩展的、更具成本的全闪存存储服务。
以英特尔® 傲腾™ 固态盘P4800X为例,其具有高达55万IOPS的随机写能力、读写延迟低至10微秒,足以应对大部分对存储性能有着较高要求的业务场景,如在百度智能云ABS Storage高性能全闪对象存储方案中,引入英特尔® 傲腾™ 固态盘作为缓存,优化读取效率和同步时延,就能够有效提升元数据的处理效率,可从容应对1000亿+的网页,2000PB存储数据以及100PB日处理数据的挑战。
不仅如此,最新推出的英特尔® 傲腾™ 固态盘P5800X/P5801X更进一步实现了“升级”,不仅在任何工作负载情况下响应时间都能达到近乎纳秒,同时还具备专为元数据用例设计的512B的读取能力,在混合工作负载情况下IOPS也能够达到500万次,因此在未来越来越多实时响应要求高的应用中,也可以发出更强的优势。
值得一提的是,为了追求极致性能,利用重删、数据压缩等软件来优化存储空间,发挥全闪存储的性能,降低分布式存储TCO也是目前行业客户的重要方法,但是对于分布式的全闪存储而言,重删压缩操作也会在性能、可靠性和元数据等方面带来更大的挑战,而英特尔® QAT则可以有效提升整体的加密和运算能力,显著降低硬件的支撑压力,大幅提升重删压缩计算速度,降低前台的I/O的处理时延,从而有效提升全闪存存储实时业务的处理效率,进而为用户提供实时性更强、更具成本效应的全闪存存储服务,更好地应对海量小文件的存储问题。
其次,针对高性能存储的挑战,英特尔® 至强® +英特尔® 傲腾™ 持久内存,不仅能够让分布式存储突破性能瓶颈,稳定性也更加优异。
其中,第三代英特尔® 至强® 可扩展处理器,与前一代产品相比,整理能力就获得了大幅的提升,其内存带宽提升高达1.6倍,内存容量提升高达2.65倍,PCIE通道数量至多增加1.33倍,结合全新升级的英特尔® 傲腾™ 持久内存200系列,能够更好的帮助用户应对高并发与低延迟的需求。
此外,英特尔® 傲腾™ 持久内存也能够更好地应对分布式存储超高的I/O以及多种类存储的需求,不同于传统的DRAM,其集大容量、经济性和持久性于一身,读写带宽也比NVMe设备高数倍,可大幅降低分布式存储的时延问题,而背后正是源于英特尔® 傲腾™ 持久内存提供的两种不同模式,在内存模式下,它虽然与普通的易失性系统存储器完全一样,但成本更低,能在保持系统预算的同时实现更好的容量,而在应用直接访问(AD)模式下,应用程序和操作系统会有两种可用的内存,而系统将决定是从DRAM还是英特尔® 傲腾™ 持久内存中写入或读取数据,这种模式的优势在于,能够增加系统的业务弹性、缩短重启时、提升业务恢复速度。
测试显示,联想DXN8000 5G 8K高性能分布式存储系统采用英特尔® 至强® +英特尔®傲腾™ 持久内存的“组合”,在开启英特尔® 傲腾™ 持久内存缓存功能的情况下,其存储系统写操作性能提高了8倍,读操作性能提升了6倍。此外,英特尔® 傲腾™ 固态盘也让分布式存储系统的存储性能获得了更加显著的提升,其稳定性也更加的优异。
第三,针对云上数据安全,英特尔® 傲腾™ 持久内存+英特尔® SGX,在不妥协性能的前提下,能够为数据安全提供强有力的保护。
一方面,为了确保静态数据的安全性,英特尔® 傲腾™ 持久内存使用了256位AES-XTP硬件加密保护持久内存层中的数据,在内存池模式下,即使关闭电源,在重新启动后也会生产一个新的加密密匙;而在AD模式下,持久性内存可以将使用模块中的密匙进行加密,且只能由存储控制器访问。此外,英特尔® 傲腾™ 持久内存还具备安全加密擦除功能,能够进一步增强数据的安全性。
另一方面,英特尔® 至强® 可扩展处理器集成的英特尔® SGX技术也有助于进一步加强数据在传输中的安全。以云上数据安全为例,目前企业在使用云计算时,数据传输到云是加密的,在云端的数据也是加密存储的,但是在云端计算的过程中,由于云端服务器要实现对数据的操作和处理,因此对数据的加密难度也随之增加,而英特尔® SGX技术能够有效隔离数据中心、云计算服务器中的指定内存区域的数据和当前的操作系统和硬件,实现敏感数据的安全处理,由此强化了云上数据的安全性。值得一提的是,英特尔® SGX技术不同于传统的软件加密方式,而是由处理器专门进行加密解密操作,因此即使是操作系统、虚拟机管理程序这些高权限的软件,或者攻击者、恶意访问者都无法得到内存中加密后的数据。
最后,针对节能减排的挑战,英特尔还与合作伙伴一起合作共同降低功耗,其中在技术创新方面,英特尔不仅可以为合作伙伴提供风冷和液冷的技术支持,同时还能够为合作伙伴提供电源转换效率、主板的低损耗设计等技术支持,同时也推出了英特尔DCM数据中心管理平台方案,该方案能够通过实时精确获取服务器设备能耗及环境温度等信息,进而实施智能分析与策略匹配,有效提升数据中心的机柜密度,增加单位面积计算和存储能力和能效水平。
在产业实践方面,英特尔也携手包括百度、宁畅、浪潮、中国电信等伙伴,采用高密度机架方案,推出了各具特色的数据中心机架产品和节能方案,在显著降低数据中心碳排放水平的同时,又进一步扩展了数据中心节能减排的思路和场景,可以说真正帮助了更多的行业用户实现了节能减排。
创新分布式存储应用场景
在此基础上,英特尔还积极创新,在容器云落地实践、支撑数据分析等云上实时性能等场景上,突破分布式存储的瓶颈,加速优化企业云上数据管理和高效调用。
以容器云场景为例,今天容器云已逐渐成为企业构建下一代高效云服务能力的重要选择,而英特尔也正在为容器云提供一系列可用于从数据中心到边缘节点的解决方案,从而为容器云服务提供各类严苛工作负载所需要的基础能力。
这些方案中同样也包括了第三代英特尔® 至强® 可扩展处理器、英特尔® 傲腾™ 持久内存、英特尔® 傲腾™ 固态盘等全新产品,同时凭借数十年来为优化架构代码而对软件生态进行的不断优化,也使得容器云方案能够在基于英特尔® 架构的平台上获得优势,从而帮助更多的用户在容器云中部署各类的创新应用。
例如,在部署了集成容器原生存储的Red Hat OpenShift容器平台中,就针对英特尔® 傲腾™ 固态盘实现了有效优化,可为临时数据或持久性存储卷提供良好的块存储性能。此外,面向Google Anthos的英特尔® 精选解决方案,以及基于灵雀云企业级云原生平台的英特尔® 精选云平台解决方案,都通过集成了全新一代的英特尔云原生组建,不仅能够发挥英特尔先进的硬件产品在云原生场景中的性能表现,进而让更多的容器云有了更为强劲的弹性伸缩能力。
而在云上AI和数据分析云场景中,英特尔也能够为云赋能,为AI添效能,从硬件到软件,英特尔都提供了基于云端数据分析和增添AI效能的全栈能力和工具。其中,硬件方面,英特尔通过从CPU、GPU、VPU、到FPGA全面计算类型的芯片全覆盖,可满足不同任务类型的数据分析和AI工作负载;此外,英特尔还将傲腾™ 持久内存、智能网卡、甚至SSD等硬件高效组合在一起,从而在数据的存储、传输、计算等各个环节助力云端高性能、高性价比的云上数据分析和AI的基础设施,而在软件方面,英特尔也通过对各类主流深度学习框架的全面优化,使得硬件能力得以充分释放和提升,并通过提供OneAPI、OpenVINO™工具套件、Aanlytics ZOO等一系列开源软件及工具,进一步降低开发门槛,助力企业实现降本增效。
不难看出,在英特尔创新产品和技术组合的支持下,分布式存储能够更好地改善当下数据过于集中造成的安全隐患、提升系统整体容错率,加快数据的存储与读写速度,在高性能计算、大数据视频云应用、大数据分析以及AI等更多场景中得到应用,并不断催生新产业、新业态、新模式,助力更加广泛的业务场景不断拓展更多地可能性。
总的来说,随着数据的爆炸,以及大量新型工作负载的兴起,无疑赋予了分布式存储更大的活力,而这也给行业客户带来了前所未有的挑战。而在此过程中,英特尔始终保持着不断的投入与创新,以及对行业需求的前瞻认知和准确判断,从而以软硬件创新“组合拳”的方式,帮助了更多的行业用户在分布式存储中获得了更好的性能,更好的安全性以及更佳的性价比,提高了投资回报率,更让行业用户在更多的新型应用场景中得以实现业务的创新,其价值可谓“不止于现在,更关乎未来”。