数据是21世纪的石油,但稍有不慎,数据也可能演化为颠覆企业的洪流。
时至今日,几乎没有人会否认数据如石油般的价值,但这建立在一定的前提之下。“甲之蜜糖,乙之砒霜”——使用得当,数据就是石油,使用失当,数据就是洪流。数据应用水平成为数字时代左右企业成功的胜负手。
据IDC预测,到2025年,全球数据圈将增至175ZB,届时中国将成为全球最大的数据圈,其中80~90%都是非结构化数据,潜藏着无法准确计算的价值。
相比石油本身,“数据石油”未免爆炸式增长得太快,石油形成的时间轴以百万年计,不可再生,我们有足够的时间慢慢开采。而数据每时每刻都在生成,很多数据边产生边流失,何谈开采。
让数据能够合适的沉淀、备份,在应用时又能快速的开采、恢复,这是数字化转型中各行各业面临的共性挑战。
与结构化数据相区分,非结构化数据具有内部结构,但又没有预定义的数据模型,不便用数据库二维逻辑表来表现,我们常见的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等,都是非结构化数据。
市场分析机构Igneous在2018年发布的《非结构化数据管理状况》显示,40%的组织至少拥有少于10亿个文件,60%的组织拥有超过10亿个文件,其中6%的组织拥有超过1500亿个文件,超过83PB,如今数据只会更多。
拥有“数据石油”最多的企业,也面临着最大的难题,怎么管理、备份、恢复以及归档海量的非结构数据,过去企业只能尽力而为。
企业用于解决海量非结构数据备份和恢复的方案主要有三种:NDMP备份、NAS存储复制和对象存储,然而这三种方式各有缺憾:
●NDMP是为磁带介质而设计,为了防止增量备份过多影响恢复,所以NDMP必须做周期性全备,并不支持海量数据场景;
●NAS是目前非结构数据的主要存储方式,一般来说分布式存储至少需三个节点,建设成本较高,而且NAS存储各厂商之间并不互通,存在厂商锁定风险;
●对象存储是近年来的新趋势,不少企业也正在把数据从NAS向对象存储迁移,但对象存储实际上是生产存储或者归档存储,不是数据备份,存放企业最新的数据,没有历史时间点,无法解决企业备份和恢复的问题。
如上三种传统方式都不能很好地解决海量非结构化数据的备份和恢复的问题,根本原因是没有解决文件读写I/O的瓶颈。
无论哪种方式,都要对文件进行读写,在单文件不同大小的备份/恢复性能对比中,文件大小为10M或更小时,备份和恢复性能呈现一条加速向下的折线。显然,传统方式在面对海量的小文件时尤其手足无措。
数据备份与恢复市场正迎来历史高点,数字经济驱动企业数据存储量成倍增长,企业不仅要求存储解决方案能够辅助其数字化转型进程,还要求这些解决方案可以使数据更加准确和满足合规。在传统市场之外,数字化转型和物联网、人工智能等新兴市场也在催生新解决方案,这些需求共同推动了数据备份和恢复市场的持续增长。