E企研究院 · 2020年04月23日

云智能时代,着眼布局开源技术之多云数据管理

本文将继续延续之前两篇文章(可以在文末查看链接),意在为在为开源云从业者道明开源与产业的发展方向及技术布局储备。前面两篇文章笔者从开源技术实践者的视角回顾云计算的发展演进历程,也大胆做出了未来云计算发展的预测,其中描绘了以5G加持的边缘计算将会得到快速发展的场景。

近期被微盟事件刷屏了,整个事件是因为数据被程序员删除,导致瘫痪。不过还好经过腾讯云众多大佬连夜抢救,最后官方宣布数据全部找回,并发布了赔付计划。

通过这个事情以及以前众多删库的教训,告诉我们数据的重要性以及数据备份的重要性。微盟官方发布的赔付计划中有这样一条信息比较吸引我,那就是数据安全保障计划,其中一共提到三点,首先是权限安全方面,第二多云异地备份,第三全面上云。(感兴趣的可以浏览查看:https://mp.weixin.qq.com/s/vZ...

我们主要关注后面两点,多云异地备份和上云。目前大家都在谈数字化转型——似乎这又是一个不谈就会落伍的概念,数字化转型时代热词:上云、混合云、工业互联网、两化融合、边缘计算、智能制造等。数据是联通和实现这一切的基础,数据的重要性不言而喻。我在上一篇文章《云智能时代,开源软件的演进历程》中就提到过,未来需求场景将会以数据智能、技术产业场景协同为主。
zrdqjno3cj.png

今天咱们本文的重点探讨数据智能,IDC和Gartner的报告中均提到2022年,将有一半以上的企业数据在数据中心或云外创建和处理,而这些数据将在远程办公位置进行管理。这也就意味着在数字化转型过程中会遇到很多问题,比如前面说到的上云、混合云、边缘计算等场景就会涉及到数据的迁移、复制、同步等等,这时候就需要一个统一的多云数据管理平台,来统一管理本地与云端的数据,让数据流动起来,充分发挥数据的最大价值,从而完成数据的备份,融合,分析等。

笔者个人理解试图整理了下多云数据管理的优势及场景分享给大家,不恰当之处还请大家多多交流。

多云数据管理解决的问题

l 数据孤岛

l 数据融合、数据分析

l 数据灾备(备份、迁移、复制)

多云数据管理的优势

l 自由选择最佳云提供商

l 数据移动性无需担心云/存储提供商锁定

l 通过多个云架构分布的数据集增强数据可用性和持久性

l 减少成本,简化管理

l 让数据流动起来,充分发挥数据的最大价值

多云数据管理的场景

l 异构存储管理

l 数据备份到云

l 长期数据归档到云

l 数据灾备到云

l 边缘计算

l 大数据分析

l AI模型训练

l 异地分支机构数据统一管理

广义和狭义多云数据管理平台
笔者经过调研认为多云数据管理平台分为广义与狭义,狭义多云数据管理平台主要包含多云对象存储管理及北向应用接口层,而广义多云数据管理平台不仅包含了狭义的多云数据管理部分,还应当包括本地异构存储管理、数据备份、迁移、运维管理(监控、安全、编排自动化等)以及北向应用接口层等。无论广义还是狭义,笔者认为存在即合理,选择哪种还要看具体场景需求,比如边缘计算仅仅狭义就好,比如数字化转型可能广义更为合适。

多云数据管理与云&存储的关系-相辅相成 未来趋势
随着云计算发展,越来越多的企业开始采用多云IT架构。根据RightScale “2019 State of the Cloud Report ”调查报告显示,在1000余家受访企业中有84%采用了多云战略。

而在多云应用中,企业又面临着云上云下数据统一管理,数据自由流动,以及跨云应用联动等问题。所以说多云数据管理为存储发展指明了方向,在多云时代,数据不仅仅是存,还要本地与云端交互,让数据流动起来,发挥最大价值。

举个例子来说明,比如大量数据需要上云,同时部分数据需要本地存储的场景,我们上篇文章提到过,边缘计算在进行云端传输时通过边缘节点进行一部分简单数据处理,当面对大量数据时,可以采用一定的压缩算法,提取到有用信息之后再进行传输,能够大量节省数据带宽的消耗。那这时候就需要一个本地的数据中转站来临时存放以及闲时回传到云端进行数据融合确保数据长期保存及未来分析。

再比如医院或者安防行业数据都有严格的保存时间限制,比如保存90天或3年以上,这时候为了节省成本同时符合行业发展趋势,完全可以把长期保存的数据放到云端进行数据的长期保存以及利用和挖掘分析。

看产业发展-布局未来开源技术储备
说完了产业发展以及一些概念之后,我们聊聊开源软件是如何适应产业发展的,Linux基金会顶级开源项目SODA,网上资料很少哈,其原来面目是OpenSDS但有些童鞋可能看了还是很晕,我简单快速的带你了解这个项目是干嘛的。

数据智能生命周期管理平台--Smart Open Data Autonomy

p15y219plm.png

SODA主要解决的问题就是异构存储统一管理智能化运维,屏蔽底层存储统一接口对接北向应用;其次是数据生命周期管理,所谓数据生命周期管理是说从数据的产生到数据的跨云流动及挖掘利用等。(https://www.opensds.io/

关于SODA安装部分感兴趣的可以阅读官网或者看我博客都可以。

https://blog.51cto.com/deving...

对象存储网关Yig
nu71uoyuf9.png
Yig 是 S3 协议兼容的分布式对象存储系统。它脱胎于开源软件 Ceph ,在多年的商业化运维中, 针对运维中出现的问题和功能上的新需求,(https://github.com/journeymid... radosgw 用于解决以下问题:

Ø 单 bucket 下面文件数目的限制

Ø 大幅度提高小文件的存储能力

Ø bucket 下面文件过多时,list 操作延迟变高

Ø 后台 Ceph 集群在做 recovery 或者 backfill 时极大影响系统性能

Ø 提高大文件上传并发效率

Ø 同时也可以做对象存储迁移及未来增加针对seaweedfs的管理

至此云智能趋势与开源技术系列三篇文章到此结束,笔者从开源技术实践者的视角回顾云计算的发展演进历程,也大胆做出了未来云计算发展的预测,其中描绘了以5G加持的边缘计算将会得到快速发展的场景,也讲述了未来数据智能发展的趋势,意在为开源云从业者道明开源与产业的发展方向及技术布局储备,仅供参考,无法覆盖更多的开源话题,还请读者见谅。

关于作者:

本文作者耿航,中国开源云联盟副秘书长,腾讯云TVP(最具价值专家), E企研究院专家顾问,Ceph中国社区联合创始人,曾获2018中国开源云超级人物奖、2018年云计算开源尖峰人物奖、中国开源云联盟2016年度杰出个人等。先后担任运维工程师、研发工程师、技术专家等职位,主要致力于国内公有云、私有云、开源云计算方面的工作,曾参与国家部委的多个私有云项目建设、象云公有云2.0建设以及推动企业内部开源参与社区建设并且在开源社区中国区排名前10;同时从2014年,以志愿者身份积极在国内进行开源布道,直接或间接影响了国内多个行业用户从使用到贡献Ceph源代码的全过程。主导并参与了国内Ceph相关书籍和标准的编写和校审工作,如《Ceph分布式存储实战》、《Ceph Cookbook中文版》、《Ceph分布式存储技术与应用白皮书》、《分布式块存储系统总体技术要求》。

推荐阅读
关注数
5032
内容数
335
E企实验室由E企研究院专职产品技术分析师针对数据中心、云计算、AI和5G等领域最新技术和应用研究、验证、试用、分析,数据中心级新产品新技术的市场教育,国内唯一同时研究互联网和传统企业IT基础设施的机构和部门
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息