墨天轮社区 · 2022年03月15日

墨天轮国产数据库沙龙 | 四维纵横姚延栋 :MatrixDB,All-in-One高性能时序数据库

分享嘉宾姚延栋
北京四维纵横数据有限公司创始人、原Greenplum 北京研发中心总经理、Greenplum中国开源社区创始人、PostgreSQL中文社区常委、壹零贰肆数字基金会(非营利组织)联合发起人
整理:墨天轮社区
导读

物联网、车联网、工业互联网的快速发展,标志着我们正在加速进入万物互联的时代,时序数据库成为数据架构技术栈的标配。

MatrixDB作为全球超融合时序数据库开创者,专为物联网、车联网、工业互联网和智慧城市打造的一站式数据平台。今天我分享的内容分为四个主题:时序数据与时序数据库,MatrixDB特点、MatrixDB案例。

时序数据

1、什么是时序数据

首先,时序更多是一种视角,用来洞悉过去、分析未来、决断现在

在每一个时刻都会产生各种各样的数据,比如指标数据、位置数据、点云数据、图像数据等,类似于一个快照。不同时刻持续的数据积累下来,就形成了一个时间序列,这就是时间序列数据。

在某一个时刻我们可以知道当下的状态,这些时刻的叠加就可以洞悉过去分析、决断未来,这就是时序数据库的巨大价值。

时序数据处处皆有,且快速增长。在未来时序数据的体量将会越来越大,且处处皆有。时序数据一定要有关系数据的整合,才能发挥真正的价值。

2、基本概念和建模

时序数据三种建模方式分为:窄表模式、宽表模式、树形模式。

  • 窄表模式:类似Sorted KV,⼀条表示⼀个数据点,核⼼是指标,弱设备概念
  • 宽表模式:⼀条表示多个数据点,核⼼是设备或者实体
  • 树形模式,核⼼是指标,与窄表区别是以层级⽅式组织元数据

三种模式,窄表写⼊灵活,宽表查询灵活,树居中。


图1 三种建模模式的对比

时序数据库

1、时序数据库的发展演变

时序数据库的发展最早可追溯到上世纪80年代。而在早期时序数据库都是针对特定的场景。

MatrixDB在2020年创立,在万物互联的趋势下,为物联网、车联网、工业互联网设计的一款特特色的数据库。


图2 时序数据库演进历史

2、时序数据库的发展趋势

  • 第1大趋势:从监控走向分析

过去时序场景主要用于服务器监控,服务器不过几万台,存储7天到30天的数据,数据量小且主要目的是监控;但随着物联网、工业物联网、车联网的崛起下,数据量大且主要目的是分析,通过分析挖掘海量时序数据的价值。

  • 第2大趋势:数据模型从窄表走向宽表

相比于“窄表”,“宽表”能够业务相关的测点、维度和属性信息放在一张或者几张数据库表中,存储效率高,速度快,适合大数据量及复杂业务场景

在物联网、工业物联网、车联网的场景的崛起,时序数据库越来越重视分析,宽表模型越来越多,近几年出现的新时序数据库也都是以宽表模型为主。

  • 第3大趋势:数据规模走向PB级

随着物联网的发展,数据规模将会越来越大,从之前的GB/TB级走向PB级。

  • 第4大趋势:技术栈走向超融合时序数据库

从各种开源软件拼搭起来走向 ONE FOR ALL 的架构方式。借鉴奧卡姆剃刀原理:“如无必要,勿增实体”。一个数据库可以完成的事情,就不需要太多的数据库来处理。

因此,MatrixDB的目标是把“极简”、“极速”留给用户,把复杂留给数据库开发人员。


图3 时序数据库的未来发展趋势

MatrixDB特点

1、MatrixDB产品简介

MatrixDB是全球首款超融合时空数据库,基于自主研发的多项专利技术,实现海量时空数据的快速采集、高效存储、实时分析以及深度学习(ML+AL),比传统的时序数据库InfluxDB、OpenTSDB性能快50倍,空间节省60%以上,比传统的MPP数据库快到3-100倍。

Matrix DB广泛应用于能源、航空航天、汽车和车联网、智能制造和工业互联网、金融、保险、证券、5G通信、雷达和气象、智慧农业、生物医疗研发、智慧城市、智能家居等各行各业,覆盖智能监控、实时控制、设备溯源、用户画像、行为分析和预测分析等多种应用场景,为物联网、车联网、工业互联网和智慧生活提供坚实、简洁的数据基座。


图4 MatrixDB全景图

2、MatrixDB产品优势

  • All in One:一个数据库直接处理各种数据类型,不管是时序数据、GIS 数据、传统的关系数据、KV 数据或 JSON 数据等。
  • 稳定可靠:MatrixDB 基于开源的 Greenplum 及 PostgreSQL 来开发,这两个产品都经过几十年的积累沉淀。研发内部也有很多的测试用例,分两大类:几十万的静态测试及混沌测试 ,可以说 MatrixDB 是站在巨人的肩膀上。
  • 大规模:海量的数据规模已经达到 PB 级的数据量,数据库要能支持100 PB 级,大量节点的可扩展性,线性扩展能力强可以随时加节点,能力是呈现线性增长的,在线性扩展点上,最小的集群能支撑多大的数据量。
  • 高性能:MatrixDB 是支撑于 Greenplum,使用核心的 MPP 为主体架构,在此基础上加了专门优化时序场景的执行器,以及为时序场景优化的存储器。
  • 企业级特性齐全:对于数据库而言,POC 关注性能,一旦上了生产,更关注稳定性、可运维性,MatrixDB 有监控报警、在线扩容、备份恢复及安全控制等企业级特性非常的齐全。
  • 生态完备:与 PostgreSQL 12 / Greenplum 兼容,无缝对接Hadoop生态,在数据库内部进行 Machine Learning 训练,支持 Python 及 R 等 UDF。


图5 MatrixDB产品优势

MatrixDB案例

MatrixDB 的应用案例主要分为三大类:数字孪生智能设备工厂大脑智能制造经典数仓实时分析


图6 MatrixDB案例场景分类

1、案例一:某造车新势力

新能源造⻋新势⼒快速发展,销量年增⻓率超过200%,过去基于 OpenTSDB+Hive 的技术架构⽆法⽀撑其快速增⻓的数据量和业务,创新迭代速度受限,成为发展瓶颈。

使用MatrixDB 建设后效果明显,硬件成本节省80%,写入效率提升10倍、特定查询效率提升100倍、开发运维效率提升1倍。


图7 MatrixDB 在造车新势力的应用案例

2、案例二:某能源科技巨头

动⼒电池制造巨头,基于电池充放电数据分析,⽀持电池健康状况检查、电池⻛险预警、电池⼯艺优化等关键业务。由于业务快速增⻓,基于 Spark + Hive 的⽼架构成为瓶颈。

通过MatrixDB 建设后,实现了存储500TB电池充放电数据、计算开销节省85%、存储开销节省30%的效果。


图8 MatrixDB 在新能源科技的应用案例

3、案例三:某装备制造业巨头

智能装备运维和优化某装备制造业巨头对分布在全球各地的产品进⾏智能化改造,使其对产品的使⽤过程了如指掌,为客户提供运维管理、预测维修、动⼒优化等。

用All-in-One替代MySQL/TDEngine/Greenplum/Spark,实现集群硬件节省⼀半,性能提升6倍的效果。


图9 MatrixDB 在装备制造业的应用案例

4、案例四:某物流物联⽹服务商

建设效果:

  • 数⽉数据量:300TB

    • 实时定位:100ms返回,1000并发
    • 1天轨迹500ms内返回,3天轨迹1秒返回
  • 数据延迟不超过1分钟


图10 MatrixDB 在物流互联网服务商的应用案例

5、案例五:某省工厂大脑

2021年11⽉完成多条总装⽣产线、裁切机和数控机床的接⼊以及安吉、越南两套ERP系统和⼀套MES系统的全部数据清洗和标准化接⼊⼯作,实现了第⼀阶段透明⼯⼚建设⽬标,22年全省推⼴。


图11 MatrixDB 在某省工厂大脑的应用案例

6、案例六:某制药企业

传统的⼯业⼤数据“复杂”、“低效”,投⼊巨⼤产出甚微,使得很多⼯业企业谈“⼤数据”⽽⾊变。基于MatrixDB的⼯业⼤数据平台解决⼤数据复杂度问题,把“极简”、“极速”留个客户。


图12 MatrixDB 在某制药企业中的应用案例

7、案例七:某制造企业

某国际知名制造业企业通过收集⼯⼚的各种数据,分析影响成品率的主要因素,改进⽣产流程,降本增效,⼤幅提升利润率。


图13 MatrixDB 在某制造企业的应用案例

以上就是我今天的分享内容,谢谢大家!

更多精彩内容,欢迎大家观看视频回放与会议资料
视频回放:https://www.modb.pro/video/6115
会议资料:https://www.modb.pro/doc/57017

墨天轮,围绕数据人的学习成长提供一站式的全面服务,打造集新闻资讯、在线问答、活动直播、在线课程、文档阅览、资源下载、知识分享及在线运维为一体的统一平台,持续促进数据领域的知识传播和技术创新。

关注官方公众号: 墨天轮、 墨天轮平台、墨天轮成长营、数据库国产化 、数据库资讯

推荐阅读
关注数
10
文章数
224
开放、便捷、专业的数据库社区 www.modb.pro
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息