“数据爆炸”的影响有多大?
据全球领先的存储解决方案供应商希捷科技公布的相关统计数据显示——从1979年到2015年共计36年的时间里,希捷第一次实现了发货总容量1ZB(一万亿GB)的目标,而在不到4年后的2019年底,这个数字变成了2ZB;时隔两年后的2021年3月,希捷实现了3ZB的发货总容量,将翻番时间缩短到了2年。这足以说明,我们如今正处于数据大爆炸的时代,数据量正以指数级的速度提升,而且还在不断提速。
智慧城市、智慧工厂、智能驾驶、生物基因研究……这些规模庞大、覆盖面极广的新兴应用成为了推动数据增长的重要力量。我们已经深处智慧应用的包围之中,无论是生活还是工作的每时每刻都在产生着数据。我们不经意间随手拍的照片、社交软件中转发的内容、办公室中多方会议的视频、工厂生产线上自动化的流水线记录、马路上智能摄像头的每一次抓拍……这些数据最终都会汇总到后端的数据中心,成为数字时代生产生活的重要“原材料”。
许多人将数据比喻为数字化时代的“石油”,这说明了数据的宝贵价值,但同时也意味着数据管理的难度。如何保障数据安全可靠的存储、如何对数据密度实现有效管理?以往我们对数据的要求就是“存起来”,而如今我们更希望这些数据能够“用起来”,要让数据流动起来产生价值,通过智能化的管理和有效的利用指导业务发展,同时还要考虑到低碳环保等特性。一句话,在企业数字化转型过程中,数据成为了不可缺失的重要环节。
为此,希捷科技推出了一款名为Exos Corvault的系统级解决方案平台,它最大的特点就是在提供海量存储的同时还具备了强大的智能自我修复功能,这样一来保证了数据存储的安全、可靠和稳定性,二来哪怕是遇到意外导致数据丢失或者损坏,系统还可以进行自我修复,第三就是智能化的管理系统大大简化了原有的管理操作,快速部署、智能升级等等都是它的“基本操作”,而独家的ADR硬盘自主恢复功能和ADAPT纠删码数据保护功能也让数据应用变得更为轻松。
“Exos Corvault平台从开发到发布,差不多用了6年时间。刚开始构思的时候叫Super Drive超级磁盘,就是希望像单个磁盘一样提供给客户。随着磁盘容量增长,又改为PODS(Petabytes of Disk Storage)),PB级的存储系统。到产品发布的时候改名字叫CORVAULT,COR是联合合作的概念,Vault是仓库的意思。我们这样命名,是希望这个像一块磁盘、块存储那样放在服务器后端,但不排除未来希捷会把软件直接集成在CORVAULT控制器,直接从对象、文件接口出来”,在谈到Exos Corvault定位与发展的时候,希捷科技中国区高级技术经理戴小勇介绍说。
希捷科技中国区高级技术经理戴小勇
由此看来,希捷对于这款平台的定位是明确的,就是在目前通过块存储的方式,解决客户在数据爆炸时代面临的数据存储与管理的诸多问题。从设计初衷来说,海量存储、智能易用是它的两大特性。而在海量存储的方向上,希捷早就有了成熟的、也是业界领先的解决方案——4U106。
你觉得在4U的空间里,最多能放下多少块硬盘?32块?48块?还是96块?为了最大限度提升容量和密度,降低系统成本,希捷在Exos Corvault系统上使用的依然是招牌的4U106架构,即在4U的空间内搭载106块Exos X18大容量磁盘,使得单台系统的容量达到了1.9PB以上。这并不是希捷第一次提出4U106的框架,早在几年前希捷就有名为“Exos E 4U106”的银河系列数据存储系统,并获得了行业、媒体、客户等多方的肯定。
你可不要以为4U106就是简单的“叠罗汉”。要知道,传统的HDD硬盘作为机械盘,最害怕的就是碰撞和共振,而如何让106块硬盘“共处一室”却互不干扰,还要保证良好的散热和供电,这都是让工程师们头疼的问题。经过希捷研发人员的不懈努力,Exos Corvault实现了抵御震动和声音相关干扰,既耐热又能承受供电异常状况,更达到了 99.999%的冗余模块设计可靠性,其内部的风扇、电源、控制器包括硬盘都实现了热插拔,在硬件层面保障了系统安全。
解决了数据存储的问题,接下来就是如何让数据应用更安全、更方便。根据多年与数据打交道的经验,希捷发现其实许多时候磁盘故障并没有客户想象的严重,甚至其中误报错的问题也不少。“希捷一直在做硬盘回收,解决电子垃圾的问题。但是在检测中我们发现,返回的有些磁盘并不是真正完全不能用的,大概有30%的磁盘我们叫NTF(no trouble finding),就是没有任何故障的盘。而有些客户无法处理的盘,我们也可以通过刷新Firmware的方式继续使用”,戴小勇表示。
这意味着一个问题——与其让客户很麻烦的将硬盘拆卸送修,为什么不能通过在客户本地进行类似的操作,甚至可以借助于智能化的手段让磁盘自身具备这样的能力,这样就能在故障发生的第一时间帮助客户解决问题,节省大量的成本,也能让客户业务实现不间断运行。正是基于这样的考虑,希捷推出了ADR硬盘自主恢复功能和ADAPT纠删码数据保护功能,通过智能化的修复手段和软件优化,解决客户在数据存储中面临的特定故障。
ADR硬盘自主恢复功能是如何实现的呢?简单来说就是当硬盘检测到故障的时候,控制器会第一时间将数据转移到其他硬盘中,并将故障硬盘下线,随后这个硬盘会经过控制器诊断并进行修复,最后修好的硬盘会被控制器重新添加到系统中恢复正常工作。这个过程可以看作是硬盘与控制器的配合,也就需要硬盘本身和Exos Corvault系统的双重支持。更重要的是,整个过程是无感实现的,丝毫不影响前台业务的运行。
“在自我纠正过程中,硬盘是离线的过程,但是如果要是想保证数据继续在线的话,系统这边要做配合,这是系统的技术加上磁盘本身firmware固件特别的功能,才有了我们ADR硬盘自主恢复功能能够提交给客户的这些可用性”,戴小勇介绍说。同时值得一提的是,目前支持这项技术的包括希捷EXOS X18、ExosX20企业级硬盘,同时还需要ADAPT(希捷高级分布式自动保护技术)的支持。
如果说ADR只保护了单块硬盘的话,那么另一项名为“ADAPT纠删码数据保护功能”的技术则实现了对存储集群的保护。所谓“纠删码”就是一种数据保护的形式,比如我们常用的RAID阵列就是其中的一种。RAID通过多硬盘数据的相互备份实现了冗余性,保障了数据安全;但这样的坏处就是如果遇到故障,我们就需要更换整块硬盘,这不仅带来资金上的成本,更重要的是对于类似EXOS X18企业级硬盘的大容量存储来说,恢复数据的时间会相当漫长,通常需要几天甚至一周的时间,也会影响到业务进度。
而ADAPT则是利用了RAID和ADR两种技术的优势,通过精细化的条带和离散化操作,将故障定位在磁盘的某张盘片或者某个扇区,这样在进行故障修复的时候就可以进行精细化的操作,从而大大降低修复风险,也明显缩短了修复时间。以EXOS X18企业级硬盘为例,这款硬盘具备了9张盘片,当出现故障的时候只要确定是哪张盘片或者哪个磁头出现了问题,再进行针对性的修复就可以了。来自希捷官方的数据显示,容量10TB的集群在遇到2个硬盘故障的时候,系统恢复时间只要2个小时,而传统的RAID6面对同样情况需要55个小时,效率提升了96%。
除了这些安全防控功能之外,在智能化方面,每个CORVAULT控制器都有一个内置的Web服务器,提供易于使用的基于Web的 UI以及可以通过SSH访问的CLI,这样运维人员就可以方便的获取系统当下的运行状况,并能够借助于图形化的界面对于磁盘状态、运行温度、系统日志等等信息进行监控,并对可能发生的故障风险有效预警,最大限度降低管理难度,提升运维效率。
如今,希捷Exos Corvault平台已经在CSP云服务提供商、HPC高性能计算应用和媒体视频等行业有所应用。我们发现,这些行业都是对海量数据存储极为敏感的行业,尤其是在HPC和媒体视频中,经常要存储大容量的数据,而数据量的增加也带来了安全隐患。Exos Corvault平台就很好的解决了这方面的问题,并解决了这些行业普遍运维能力不足的问题,帮助他们实现安全、便捷、高效的数据应用,也可以作为日常的备份或者归档系统来使用。
正如希捷科技中国区新兴市场业务与存储系统业务负责人张晖介绍的那样:“希捷专注于如何帮助客户降低数据的存储成本,利用不断推陈出新的产品,帮助客户以最优的产品,用最高的存储空间……降低总体拥有成本,降低电子垃圾的消耗量,绿色环保。未来我们还是沿用这个理念,提供更多、更好的产品,满足客户在新的数据爆发年代基本的需求,保证他们业务的发展,提供良好的支撑”。