申耀的科技观察 · 2022年12月12日 · 山东

定义下一代云原生实时数仓,SelectDB Cloud“打了个样”

2020年,国家在《关于构建更加完善的要素市场化配置体制机制的意见》中,首次将数据与土地、资本、劳动力并列为关键生产要素,并提出加快培育数据要素市场的愿景,此举可谓意义重大。

背后的原因是,当下中国企业正在加速从数字化走向智能化,对数据的应用也提升到了一个全新的高度。例如,企业对数据的即时分析、按需分析、即时部署变得更加的强烈;同时,随着数据的广泛流动,企业为了管理好这些数据,其数据基础设施也必须要横跨边缘端、私有云、公有云和混合云等环境。

事实上,Gartner在2020数据和分析技术十大趋势中就预测,到2022年,公有云服务将会成为90%的数据分析的基石,这也表明了一种新的趋势,即越来越多的数据分析服务会迁移到云上;与此同时,数据分析技术也开始从传统湖仓并存方案逐渐转向“云原生”数仓——数据仓库结合云的软硬件创新、资源弹性、安全可靠、随需而用等云原生特色,从根本上能带给用户极致性价比和极简使用体验。从最初的 Snowflake, Redshift,到如今云原生数仓市场百花齐放,国内也涌现出越来越多创新、独立的数仓厂商。

12月8日,北京飞轮数据科技有限公司(以下简称 SelectDB ),宣布推出云上数据仓库产品 SelectDB Cloud ,这是一款性能强大、运维简便、性价比高的多云一致全托管SaaS化的云数仓产品,一经发布就引起了业界的高度关注。

究其原因,在于当前中国以数字产业化、产业数字化为核心的数字经济步伐正在全面加速,因此无论是数字经济的发展还是千行百业的数字化转型都会产生海量的数据,而这些数据唯有运行在全新的数据分析基础设施中才能产生更大的价值。

从这个角度来说,SelectDB Cloud 的出现,不仅为新一代云原生实时数仓的迭代演进“打了个样”,同时也为数据生产要素的价值释放贡献了源自中国的技术创新力量,相信将会为千行百业的数字化转型提供更大的驱动力。

云原生数仓时代未来已来

1991年,有着“数据仓库之父”称号的比尔·恩门(Bill Inmon)出版了他的第一本关于数据仓库的著作《Building the Data Warehouse》,标志着数据仓库概念的正式确立,而历经三十多年的发展,数据仓库大概经历了三个阶段的发展。

从早期诸如 Teradata、Greenplum 为代表传统数仓时代,到后来离线存储计算平台(Hadoop、Hive、Spark、Flink)和实时数仓技术(Druid、Clickhouse、Doris)与平台同时涌现的湖仓并存时代,技术在发展的浪潮下快速迭代,以云原生数仓为中心的现代数据栈时代已然到来。

云原生实时数据仓库成为今天企业数字化基础设施中的关键“底座”。背后的核心的原因在于,这个阶段企业实时数据分析的需求变得越来越迫切,特别是金融、电信等行业,由于日常需要处理大量人工智能、机器学习以及海量的结构化或者非结构化的数据实时分析等业务,而传统的数据仓库乃至“数据湖”技术等都难以满足这些需求,其挑战主要体现在以下几个方面:

一是复杂性高,主要表现在传统的数据仓库使用上复杂性高,软件维护以及业务系统的维护的复杂性也很高;二是灵活性差,过去的数据仓库技术并不能很好地满足今天越来越多样化的分析数据类型与分析工作负载,对半结构化和非结构化的数据也无法提供原生的高效支持,此外也没有针对数据科学,机器学习等深度分析场景的优化;三是性价比低,随着新硬件特别是闪存技术的发展,以及数据仓库部署模式的多样化,都意味着存算分离,弹性使用正在变成企业的刚需,这也让过去数据仓库的付费模式变得性价比越来越低;四是开放性弱,随时开源开放时代的到来,越来越多的企业也期待市场上有第三方厂商推出多云中立的、统一结构和体验的、开源开放的云数仓产品,由此才能更好地满足企业日益增长的实时数据分析的诉求。

换句话说,云和云原生技术正在全面重塑数据分析技术和平台,其所具备的资源弹性、安全可靠、随需而用等特点,为新一代云原生实时数仓的诞生奠定了关键的基础,而 SelectDB Cloud 也由此“应运而生”,它的出现能够很好的解决上述中传统数据分析技术出现的复杂性高、灵活性差、性价比低的一系列问题。

SelectDB Cloud 是 SelectDB 基于Apache Doris构建的新一代云原生实时数仓,它曾在近期由ClickHouse发起的分析型数据库性能测试排行榜ClickBench中 强势登顶,性能表现超越一众国内外产品。

SelectDB 强势登顶并不是“一蹴而就”的,早在2017年,Apache Doris的前身正式开源后,便一直在通过社区的反馈和案例实践优化得更加成熟可用。2022年1月,作为 Apache Doris 的商业化公司, SelectDB正式成立;今年4月,SelectDB 完成天使轮和天使+轮融资,由 IDG 资本、红杉中国等顶级 VC 投资,融资金额超过 3 亿元人民币;而历经一年的技术迭代和场景实践的“打磨”,SelectDB 又正式发布了面向企业级市场的开箱即用和多云一致的商业版本——SelectDB Cloud。

截止目前,SelectDB Cloud 已成功上线阿里云、腾讯云、华为云、亚马逊云科技等主流云平台之上,成为了国内首家真正实现多云中立的云数仓,通过各大云厂商提供一致性的数据分析服务,真正做到了让即时大数据分析的体验“触手可及”,也引领了新一代云原生实时数仓的技术创新范式。

定义下一代云原生实时数仓

对此,SelectDB CEO 连林江表示,作为一款构建在多家云上、完全托管 SaaS 化的企业级云原生数仓产品,SelectDB Cloud具有极致性价比、融合统一、简单易用、企业特性和开源开放等特点,具体来看:

首先,极致性价比方面,主要体现在性能和成本两个维度,其中性能表现方面,以宽表聚合为例,在 SelectDB Cloud 上选择 3 台 medium 套餐(即单节点 16 core vcpu,64G 内 存),同时选择了各种主流的云数仓和开源数仓,在相同资源配置的套餐上进行测试。

数据显示, SelectDB Cloud 在宽表的性能遥遥领先,大概是性能最好友商的 3.4 倍 (clickhouse),是性能最差友商的 92 倍(presto),是业界标杆产品 snowflake 的 6 倍。

在多表关联场景下,在同样 3 台 medium 集群下的 tpch sf100 测试中,SelectDB cloud 的性能是友商的1.5 倍(redshift)到 49 倍 (clickhouse),是业界主流友商 snowflake 的 2.5 倍。

笔者了解到,虽然仅仅成立一年,但 SelectDB 已经通过它极致的性能,为遍布金融、物流、互联网等多个行业的公司在整体数字化转型的过程中带来的明显的效果提升。

在成本降低方面,SelectDB Cloud基于云原生的存储分离架构打造,使得成本低至自有部署成本的 1/2—1/5,关键在于其实现了本地磁盘缓存和对象存储的分层分级存储引擎,不同层级的存储成本带来综合成本大幅下降;此外,通过充分利用计算节点的分离和弹性,也使得计算资源根据业务的波峰波谷特点随需弹性扩缩容,由此实现了成本的大幅度降低。

其次,在融合统一方面,SelectDB Cloud实现了在一个系统中满足多种工作负载的需求,包含实时报表分析,adhoc 分析,批量数据处理,湖仓加速联邦查询;同时,不仅支持结构化数据分分析,也原生高效支持半结构化数据的存储和分析。 此外,借助存算分离的架构,存储共享一份,不需要冗余的存储;在此基础上,计算资源不同的工作负载也可以采用不同的cluster(集群),也做到真正的负载的隔离。

除了实时报表、adhoc分析等传统OLAP场景外,也支持批量数据处理(ETL/ELT): 在云上使用单独etl集聚做隔离场景下且都使用相同资源的测试下,基于 SelectDB Cloud 的性能是 hive 的 54 倍,是spark 的 12 倍,某云数仓的 8.4 倍。

同样,SelectDB Cloud也原生支持半结构化数据的表达存储和检索分析,降低了系统的复杂,带来了成本和性能的明显收益。数据显示,SelectDB Cloud 在日志存储分析典型场景下,相比传统的 ElasticSearch 的方案,能够达到 4.2 倍写入性能提升,占用 1/5 的磁盘空间,达到 2.3 倍的查询性能提升。

与此同时,SelectDB Cloud还能对已经建设的离线数仓和数据湖进行联邦查询,在实现高性能的同时,不需要迁移历史数据。

最后,在简单易用方面,SelectDB Cloud也大大降低了使用门槛,提升了人员效率。比如,SelectDB Cloud 支持 MySQL协议,这样MySQL 的数据通过 binlog 这种 CDC 机制导入到 SelectDB 的时候,兼容性也会表现得更好。另外,支持MySQL的可视化的数据库管理工具和可视化 BI软件等,都可以方便快捷的连接到SelectDB。

SelectDB Cloud还提供了丰富易用的多种数据导入方式,包括HTTP Load,主要是适合数据量比较少,比如 GB 以下的数据,可以做到秒级数据导入;Stage Load,适合数据量比较大的批量数据导入;Connector,则可以为周边的大数据生态工具(flink,spark,kafka)提供了相应的数据导入插件。

为了让用户拥有更好的使用体验,SelectDB Cloud 也提供可视化控制台,可以帮助企业完成对仓库、集群的创建、伸缩、升级等;同时借助web上的 SQL 查询编辑器,也能够代替 SQL 完成很多的管理。

此外,SelectDB Cloud还为企业关注的数据安全性提供了一系列企业特性支持;而在开源开放方面,SelectDB Cloud基于 Apache Doris 研发,系统开放,与开源 Doris 高度兼容;同时还具有多云中立的特色,支持企业在多云环境下的部署等,可以说SelectDB Cloud真正以高性能低成本,融合统一、简单易用等优势,让企业在多云时代下的云原生实时数仓应用变得“事半功倍”。

四大场景创新释放新价值

值得一提的是,作为全新数据分析基础设施,SelectDB Cloud针对任何工作负载,在任何应用场景中也能体现出独特的竞争优势,由此能够更好地帮助企业加速数字化转型。

第一,是企业内部的数据平台,这是SelectDB 的主要应用场景。同样,它也是传统数仓时代、湖仓并行的大数据平台时代的主要应用场景。可以看到,目前企业内常用的数据平台往往都有如下的“痛点”,包括复杂性高、性价比低以及实时性差,此外传统的数仓平台“开放性”也不够,往往只能运行在自己的云上,而现在多云、混合云已成为企业普遍采用的云架构,因此开源开放也是不少企业的一大诉求。

针对此,SelectDB Cloud能够把数据仓库和数据湖“统一”到单一的平台上,提供面向企业内部的 BI 报表和 Adhoc 分析,以及批量和增量 ETL 数据处理,由此带来的好处是,企业内部的数据平台的复杂性降低了,并且云数仓提供的是云服务模式,不需要客户自己运行和维护,由此使用成本和管理成本都得到了下降;SelectDB Cloud的优势还不止于此,由于采用新型的 ELT 数据集成,企业也可以利用SelectDB的世界领先性能,给整个平台的实时性带来“质”的提升,在加上SelectDB的多云可用能力,也能让企业可以和开源系统的数据之间实现“自由迁移”,成为一个真正开放的系统,不用再担心被锁定的问题。

第二,客户的报表和分析也是数仓的主要应用场景,这类场景的应用特点主要体现在以下几个方面,即高并发、低延时;数据流延时低;数据要求不丢不重;需要支持数据更新等。

针对这些需求,基于SelectDB Cloud的方案也能够有效解决这些问题,如SelectDB Cloud 针对报表场景能够达到上万并发;支持毫秒级别响应;针对数据流延时低的诉求,SelectDB的数据可见性可以做到秒级响应级别;SelectDB Cloud基于云的对象存储做数据持久化,也能够保证了数据可靠,不丢不重;同时能够以小批量的形式便捷更新数据。在具体的业务实践中,数据显示,基于 SelectDB Cloud 的方案,在广告业务场景下,就实现了上万 QPS 的高并发,查询延时 99 分位 200ms 以内,每天支持新增数十亿条记录。

第三,行为分析和用户画像场景中,当前用户面临的挑战更大,这类场景目前呈现出三个特点,包括表结构持续快速变更;行为分析十分复杂且查询的延迟要求比较低。基于此,SelectDB Cloud做了进一步的分层数据的处理创新,如针对上游不同的数据源,热数据支持同步到 SelectDB 中做实时行为分析,冷数据同步到数据湖中做低成本数据存储及数据挖掘;在数据存储层,SelectDB可通过行为数据抽取出标签数据分层存储;在查询应用层,基于不同的业务,SelectDB 也提供了丰富的漏斗,留存、路径及数组分析函数,实现精确去重和留存分析的业务查询;在数据管理层,SelectDB 还可以维护高性能表结构变更及宽表部分列更新操作等。

在具体的应用实践中,通过MPP框架向量化执行引擎以及分析函数这些特性的加持,SelectDB Cloud的行为分析在3000亿活跃数据的场景下,平均延迟小于 10s,P95 延迟在 20s 左右;同时,SelectDB 通过特色的高表正交位图来实现秒级圈人,也可以做到千亿数据、10个标签秒级人群预估和圈选,100个标签10秒级。

最后,日志存储和分析场景中,日志对于保障系统、业务稳定性至关重要,随着企业业务的不断增加,日志存储和分析也出现了新的挑战,包括数据写入吞吐量大,还要实时可见;数据量大,还要成本低;交互式查询速度快,且需要支持半结构化、非结构化文本检索、按时间排序等。为此,SelectDB Cloud也针对数据写入进行了大量优化,比如为了降低客户端复杂度,SelectDB Cloud在客户端支持实时小批量写入,在服务端内存“攒批”,达到内存或者时间阈值后写入文件,可以避免大量小文件写入降低吞吐,又能做到秒级实时可见;针对日志数据大致按时间有序的特点,SelectDB Cloud将相邻时间的小文件合并成大文件,降低系统资源消耗,提升整体吞吐;同时,SelectDB Cloud数据和索引也都采用列式存储,用于全文检索的倒排索引采用向量化实现加速。

数据显示,SelectDB Cloud 方案的综合能力表现十分优异,相比传统的方案能够达到4.2倍的写入性能提升,只占用1/5的磁盘空间,2.3倍的查询性能提升。

从上述的应用场景中可以看到,云原生时代,大规模多样性数据爆发,加之对数据分析的复杂度也呈指数级上升,多重压力下催生了数据处理底层技术深度变革,驱动云数仓行业的迅速创新发展。在此过程中,以SelectDB Cloud为代表的新一代云原生实时数仓,以其技术创新能力,针对应用场景的持续优化和“多云中立”的独特定位,可以说为企业的实时数据分析乃至数字化转型提供了更好的选择。

更为关键的是,SelectDB Cloud的正式发布,还标志着在云原生实时数仓领域,源自中国本土市场的公司在产品和技术的领先性,乃至在应用实践和验证方面也都走到了市场的前列,而这也让中国的数据库产业在世界范围内具有了更大的竞争力,相信未来更多的技术创新和更多的应用场景,也正等待着SelectDB去再次开拓和重新定义。

推荐阅读
关注数
2384
内容数
381
专注产业互联网、企业数字化、渠道生态以及汽车科技的 观察和思考。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息