甲子光年 · 2020年12月08日

数据中台的云原生机会 | 甲子光年

WechatIMG52.png
云原生将给数据中台带来XaaS模式。

作者 | 赵健
编辑 | 火柴Q

从2015年阿里提出中台概念,到2018年阿里升级数据业务双中台战略并对外输出,再到2019年数据中台全面爆发,数据中台一直是一个争议和热度并存的创业风口。

资金层面,虽然对于数据中台的准确定义,业内仍然莫衷一是,甚至爆出茅台这类客户不满意的负面新闻,但是资本还在源源不断地向数据中台赛道涌入。

一方面,投资机构在袋鼠云、智领云、奇点云、滴普、数澜等老玩家身上继续加码,另一方面,九章数据、元年科技、科杰大数据、创略科技等数据中台赛道新面孔也纷纷涌现。

人才和团队层面,当下数据中台赛道的一个有意思的现象是,最初的一批数据中台明星公司大都是“阿里系”:奇点云CEO张金银是阿里云大数据和人工智能平台数加的创始人,滴普科技CEO赵杰辉(厚坤)是前阿里云企业事业部总经理,数澜科技创始人甘云锋(风剑)曾担任阿里集团数据平台事业部数据服务部负责人。

正是看中了阿里系创业者的“玩过”,IDG资本合伙人牛奎光几乎将阿里系的数据中台创业公司投了个遍,他曾经告诉「甲子光年」:“见过猪跑,是一个很重要的先进生产力。”

而本文要分析的案例却是一个非阿里系的“另类”,硅谷背景的创业公司——智领云。

在硅谷,虽然没有数据中台的说法,但从2005年前后,Google、Facebook、Twitter等很多科技公司都开始构建自己的大数据平台,这些大数据平台都包含了类似现在数据中台的功能,都是解决企业数据能力的抽象、共享与复用的难题。

其中,今年9月登陆纳斯达克的Snowflake,其实做的就是大数据平台中的一个细分层:数据仓库。

所以,如果说“玩过”是做数据中台的充分条件之一,那曾经的大数据平台实践者也有发言权。

2016年8月,在Twitter担任大数据平台负责人的彭锋回国创业。由于同处在硅谷的程序员圈子,彭锋在与Facebook、LinkedIn、Airbnb、Uber等公司的大数据团队交流时发现,他们公司的数据架构都是类似的,都在做着“重复造轮子”的事情。

彭锋敏锐地捕捉到了这一点。2017年4月,彭锋开始研究如何将大数据平台做成一个产品——这就是智领云数据中台产品的前身。

相比国内众多阿里基因的数据中台厂商,智领云的一个强标签就是“云原生”。

从2018年9月推出云原生架构的数据中台产品至今,智领云已服务了服装定制平台衣邦人、武汉市卫健委等数十家能源、教育、医疗健康、物联网、金融领域的客户,彭锋称复购率为100%。

本文,「甲子光年」采访了智领云创始人&CEO彭锋,线性资本董事总经理郑灿,金沙江联合资本投资人李居真,以及智领云客户衣邦人CTO杨阳,来探讨云原生数据中台的价值和潜力。

云原生的数据中台,到底有何不同?

1.云原生:云计算时代的最优解

在2019年之前,云原生似乎还只是一个程序员才懂的词。然而,到了今年,云原生开始有破圈的迹象。

最声名遐迩的当属今年9月,云原生的数据仓库SaaS厂商Snowflake成功上市,让54年来远离新股发售的巴菲特也来打新,将云原生的讨论热度推向一波高峰。据36氪报道,“投资人已闻风而动,有先人一步的快枪手早已将云原生‘概念公司’扫了一遍,寻找着下一只独角兽。”

什么是云原生?简单来说,云原生是一种专门在云上(而不是传统的数据中心)构建和运行应用程序的方法论。企业的业务或应用生在云上,长在云上,即Cloud Native。

因此,云计算是云原生的基础,没有云计算就谈不上云原生。

智领云创始人&CEO彭锋告诉「甲子光年」,云原生的核心要求之一就是所有的应用都必须能够以类似于容器的方式,无差别地在任何一个节点上运行。

近两年中国轰轰烈烈的、以企业上云为代表的企业数字化转型,正是云原生发展的最大推手,疫情更是成为加速企业上云的催化剂。

更进一步来说,只有基础的云服务足够普及,企业才会意识到自己存在着进一步对云上数据应用和管理的需求,而这一需求,会被一种“云原生”的方式加以解决。

金沙江联合资本投资人李居真对云原生热潮到来的时机有自己的判断标准,看“云服务的渗透率”。李居真告诉「甲子光年」,如果按照美国企业的标准,当云服务支出达到IT总支出的9%~10%时,云原生将会迎来爆发期。李居真认为,在2018、2019年前后,中国也开始进入这样一个阶段。

李居真打了一个比方:“云服务有点像微信,只有微信普及之后,才会产生像微商这样的商业活动,以及基于微信的数据管理需求。云原生体系架构就是云服务时代的数据管理方法论。”

从技术角度来说,云原生的兴起是为了解决企业IT系统越来越复杂而带来的管理难题。

阿里云容器资深专家易立曾经谈到:企业IT系统的复杂性(熵)符合热力学第二定律,随着时间的推演、业务的变化,企业IT系统的复杂程度会越来越高。

IT系统熵增的第一个原因是,在非云原生的架构之下,当企业想要扩展业务、增加应用的时候,需要添加额外的服务器来运行这些异构的应用,添加的应用越多,整个IT系统就变得越来越复杂,这也是数据孤岛产生的原因。

另外还有一个云服务普及之后带来的现实问题:中国的大企业出于数据安全等因素的考量,往往会采用混合云——把核心业务放在私有云上,把非核心业务放在公有云上,甚至会选择采购多家服务商的公有云,这就产生了多云管理的需求。这对企业内部跨平台、跨系统之间的数据传输、同步和管理提出了挑战。

不过,这些问题都可以通过容器的方式来解决,这也是最近几年云原生技术大火的原因。

容器的第一个好处是能更高效地使用计算机资源,其实质是一种虚拟化的技术,是虚拟机的“升级”。一台主机可能只能虚拟出上百台虚拟机,但可以虚拟出上千个容器;同时,容器的启动时间更快,占用空间更小,而且可以根据实际应用的大小来弹性分配资源,企业无需额外采购服务器。

容器的另一个好处则是满足了多云管理的新需求,它就像一个水瓶,可以把水当做应用“打包起来”,这样,当企业开发新应用时,就不需要直接调度“水”,仅需调度水瓶,实现在公有云、私有云之间的无缝发布。

641.png
容器与虚拟机的区别 图片来自阿里云开发者社区

而智领云就是国内最早将云原生应用到数据中台的厂商之一,在2018年9月,智领云就推出了第一款基于云原生架构的数据中台产品。

做云原生的数据中台,实际上是智领云创始团队工作经验的延续。

彭锋曾任Ask.com分布式系统及大数据工程总监,2011年加入Twitter,成为Staff工程师、公司架构师组大数据架构师与大数据平台负责人;智领云CTO宋文欣2009年在Ask.com从事大数据开发工作,担任Ask Analytics团队技术经理,2012年加入游戏公司EA(电子艺界),负责大数据团队和大数据平台的建设,担任EA Digital Platform高级研发经理。

硅谷并没有中台这个词,但是硅谷的大部分公司都有自己的类似数据中台的架构。而云原生理念中所用到的Docker、Kubernetes(简称为K8S,在2014年由Google贡献给云原生开源社区CNCF)、Mesos等技术,则让数据中台的建设变得非常简单。

彭锋告诉「甲子光年」:“2005年在硅谷时,要做一个大数据集群,需要十几个博士,几千万美元才能搭建起来,现在,用云原生的技术搭建同样的系统,只需要30分钟。”

不过,云原生技术是都开源技术。同样的技术,我能用你也能用,智领云的数据中台建设理念又有什么独特之处?

2.自研派与社区开源派

实际上,不同的数据中台厂商所建设的数据中台,在解决的需求上并无二致,但是所采取的技术路线并不相同,技术的不同也将最终体现在用户体验上的不同。

云原生具体涉及的容器技术包括容器创建技术,容器调度技术和资源管理技术。简单来说,容器创建顾名思义就是“搭建、发送、运行”一个轻量级虚拟化的容器,来进行开发和测试;当容器越来越多,几千个容器同时运行的时候,运维就容易手忙脚乱,这时候就需要容器调度系统来监控、编排和管理;资源管理系统则是给创建容器、调度容器分配服务器资源。

而目前最主流的容器创建技术是Docker,最主流的容器调度技术是K8S,最主流的资源管理技术是Mesos;以上三者都为开源系统。

但实际上,要实现容器创建、调度和资源管理也都可以采取别的方法,这就分出了云原生的不同路线。总体来说,目前有两大派:自研派和社区开源派。

前者以科技巨头为主,他们有大量的研发人员和研发能力,而且往往对性能有一些特殊要求。

这其中的代表就是阿里,阿里也是数据中台的提出者,也是数据中台的布道者。

阿里将其数据中台建设方法总结为OneData体系——包括数据构建管理的OneModel,实现数据融通连接的OneID,再到提供统一数据服务的OneService。

WechatIMG53.png
阿里数据中台的OneData核心资产核心方法论

简单来说,这是一套有效的数据治理和数据仓库建设的方法论。

不过,阿里的数据中台目前并没有完全采用云原生的主流技术,这是因为一些开源技术最初不能满足阿里的需求。比如现在使用人数最多的K8S在最初不能适用于非常大规模的计算集群,一般不会超过5000节点(若超过限制可以通过集群联邦来扩展),所以阿里开发了自己的调度工具Sigma。

金沙江联合资本李居真告诉「甲子光年」:“阿里本身的开发能力很强,会更多地自己定制很多组件,而非直接用类似于K8S这样的开源体系。”

第二种“社区开源派”,则以创业公司为主,他们更倾向使用社区的开源资源并不断回馈社区,对他们来说,这是更高效的研发方式,好处还在于,未来服务客户时,开源系统的兼容性更强,且客户自有的研发、运维人员更容易上手,客户的安全感也更强。

即使是从阿里走出的众多阿里系数据中台创业公司,也会在阿里的OneData体系之上,更多结合开源技术,特别是拥抱K8S。

智领云的特殊之处则在于,团队还对使用Mesos管理云原生大数据平台有丰富的经验。金沙江联合资本李居真告诉「甲子光年」:“大部分创业公司可能更多基于K8S的方案进行深度定制。而智领云选择了K8S与Mesos的深度融合。”

Mesos和K8S都支持大规模集群管理,不过Mesos可以调度的集群节点更多,可以轻松调度万级以上节点。一般说来,如果只是用于容器集群管理无状态应用,K8S更加合适;如果定制需求比较多,或者要搭建包含很多有状态组件的大数据平台,架构相对松耦合的Mesos更加合适。在不少生产系统中,例如联通,浙江移动,都采用了Mesos+K8S的技术架构,来应对业务系统和数据平台的混合调度需求。

Mesos在大规模生产系统中已经有较多的实际验证,彭锋告诉「甲子光年」,他们在Twitter基于Mesos做的大数据平台,支持8000多个集群节点。在国内,也有不少公司选择了Mesos,比如爱奇艺、中国联通、三一重工、去哪儿、携程、当当等,爱奇艺用Mesos管理着大约2000台物理机,联通的“天宫”平台支持6200+的集群节点。

这些不同的技术发展路线,让不同的数据中台厂商各有所长。

在彭锋看来,以阿里为代表的OneData的数据中台建设方法论,优势在于数据仓库的建设、数据的治理,而智领云的优势在于基于云原生的底层架构建设。

线性资本董事总经理郑灿将智领云的产品优势总结为“分布式”“可伸缩”,他认为,目前一些头部数据中台厂商可能也还不具备“分布式”与“可伸缩”能力。

如何建立一套真正的分布式、可伸缩的云原生底层架构?智领云有两个实践:Total Platform和Total Insight。

3.大数据的操作系统

如果说,“数据中台”的概念仍然比较抽象的话,用“大数据的操作系统”来定义智领云的产品,似乎更加准确和直观。

智领云的“大数据的操作系统”建设分为三步,第一步是“打地基”,也就是彭锋总结的Total Platform。

具体而言,就是将创始人团队过去十几年来在硅谷做大数据平台的方法论进行产品化。

彭锋表示,实现数据中台高扩展性的关键点在于降低系统耦合度,而容器技术则是解耦的核心手段。因此,智领云通过开源的Docker、K8S、Mesos等技术,对主流的Hadoop、Hive、Spark、Kafka等多种大数据技术组件进行了容器化集成,实现大数据应用与底层运行环境之间的解耦,推出了应用云平台(PaaS)与容器大数据平台。

不过,应用云平台和容器大数据平台并不能单独交付来完成数据中台的建设任务,就好比刚刚打好地基的房子。要想把房子建好,还需要各种建房子的工具。

智领云做的第二步,就是把“盖房子的工具”做好。

2018年9月,在经过一年半的研发之后,智领云推出了数据集成开发平台,包括数据采集、数据共享、数据探索、数据服务、数据治理、数据开发等多项工具。数据集成开发平台与应用云平台(PaaS)与容器大数据平台打包交付。

值得一提的是,数据集成开发平台对标的就是阿里的OneData体系。

643.png
智领云的Total Platform和Total Insight体系

相比其他厂商的数据中台产品,智领云有两个“更懂用户”的优势,第一就是对私有云的支持。

听起来很简单,但很实用。衣邦人CTO杨阳告诉「甲子光年」:“去年在我们接触过的一些厂商中,确实有一些厂商是不提供私有云服务的,甚至连数据存储都不在我们公司。我们肯定不愿意选择这样的厂商嘛。”

除了私有云之外,智领云也支持公有云、混合云和多云。在多云管理方面,智领云也帮一个客户实现从私有云到阿里云再到腾讯云的迁移,整个过程仅需要几周。

智领云第二个更懂用户的优势,是为有一定IT开发能力的客户提供“保姆式”的个性化配置和开发需求。

衣邦人就是这样的一个团队。在建设数据中台之前,衣邦人已经建立了自己的数据产品和报表系统,所有的业务都在云上,他们更在乎自己是否有自主配置能力。

杨阳告诉「甲子光年」:“有的厂商一上来就想完善我们的IT系统,实际上我们并不需要这一步,反而我们更需要的基础开发平台能力他们却不能提供。有些大数据厂商的产品是黑盒子,无法看到底层的逻辑,他们能够提供具体的解决方案,但不开放底层的平台。这些公司一撤,我们立马失去控制力。”

相比之下,智领云的产品,客户可以在上面“随意折腾”,既授人以鱼,又授人以渔,这也是衣邦人最终选择与智领云合作的原因。

在与衣邦人的合作中,智领云仅仅耗时2个月,就帮助衣邦人建立了投放渠道评估系统。

衣邦人在各个渠道投放广告进行客户转化。在规模较小的时候,这一工作是人力完成;随着公司规模越做越大,衣邦人每天要花费三个人三个多小时在效果统计上,而且渠道效果评估有接近一周的延迟。而现在,通过智领云的投放渠道评估系统,打通从广告平台到ERP、CRM的数据体系,节省了人力和时间成本,更重要的是可以实时看到广告投放效果。同时,这样的实时系统可以自动发现效率低下的渠道,实现广告费用的优化配置。

衣邦人代表了一类有数据治理的需求,并且需要从0到1建设大数据平台的中小企业。智领云既可以为他们提供完整的解决方案,又可以提供基础开发平台。

而对于有大量数据沉淀、已经建立了大数据平台的企业,如银行这类大客户,智领云也针对性地在2019年底推出了一套完整的解决方案——数据资产运营平台,也就是Total Insight。

数据资产运营平台,可以看作是“在盖好房子的基础上进行精装修”。

对于这类客户来说,他们的痛点是很难掌握数据资产的全景,也无法快速厘清数据间的关联,更无法准确得知数据和应用建设的投入产出比(ROI)是多少。

数据资产运营平台运用图数据库记录并发现数据之间的关系,比如数据和应用之间的生产和引用关系及应用和应用之间的关系,并记录数据应用的元数据,从而使得企业可快速定位所需的数据源,实时掌握数据资产及ROI的情况。

该平台也是企业内部数据应用资产的搜索引擎,企业通过它可以清晰快速地查询到各类数据以及它们的应用,例如业务应用的调用次数、核心指标的计算方式等数据细节。

对于这一类客户,往往本身已经建立了自己的大数据平台,因此并没有对应用云平台、容器大数据平台以及数据集成开发平台的需求。为此,设计之初,智领云就将数据资产运营平台与上面提到的三个平台进行解耦,也就是说,数据资产运营平台可以单独发布和使用,也可以单独售卖。

至此,智领云完成了这套“大数据的操作系统”的构建,并且已经服务了能源、教育、医疗健康、物联网、金融等领域的数十家客户,据智领云透露,他们的客户复购率为100%。

彭锋坦言,这个速度并不算快。不过,数据中台乃至to B行业本来就是一个慢赛道,以今年上市的云原生数据仓库SaaS厂商Snowflake举例,从2012年1月成立到2015年8月份近四年的时间里,总共才不到80个客户。

然而,转机正在出现。金沙江联合资本李居真表示,如果是早几年做数据中台赛道的创业,可能要想平安度过2018年都是一个有难度的事情,大部分公司其实是这两年才起量。随着云原生技术的成熟和普及,数据中台赛道正在迎来一个爆发点。

据Gartner的报告显示,到2022年有75%的全球化企业将在生产中使用容器化的应用(当前不足30%),还有50%的应用软件将运行在容器化PaaS平台。

在国内,已经有一批科技公司和金融公司已经开始云原生化了。

2011 年,阿里巴巴内部系统开始向容器等云原生技术进行演进,并将云原生社区的新技术引入阿里巴巴内部进行实践;京东云也在进行微服务和容器化改造;中国移动使用容器取代虚拟机,以轻量级的方式在其平台上运行各种应用程序。金融行业,网商银行2019年将应用程序调整为云原生架构,众安保险也从2017年起,构建基于云原生架构的系统。

而对于数据中台厂商来说,谁能抓住这一波云原生的机会?

4.谁的机会?

在数据中台赛道,除了智领云之外,也有越来越多的厂商开始强调云原生属性。如果说云原生是一个大的机会,要想抓住这个机会的玩家可不在少数。

首先是绕不开的科技巨头。和当年的数据中台类似,在大厂之中,阿里依然是拥抱云原生最积极的一员。今年的杭州云栖大会上,阿里宣布成立云原生技术委员会,标志着云原生升级为阿里技术新战略。

不过,在数据中台的赛道,阿里或许并没有想象中可怕。

一是阿里业务庞大,技术复杂,要想实现数据中台的云原生还需时日。目前,在阿里巴巴经济体中,Lazada(阿里巴巴集团东南亚旗舰电商平台)已经实现100%云原生,淘宝和天猫的核心系统已经实现云原生化,而数据中台相关的部分还未实现。

船大难掉头,这一时间窗口是创业公司难得的机会。

其次,大厂往往对中小客户不够友好,并不提供咨询服务。

阿里的强项在于做公有云,它的数据中台更倾向给客户提供标准化的工具,给什么用什么。对于个性化的需求,其实是不愿意花费精力去做的。

对此,衣邦人深有感触。衣邦人CTO杨阳告诉「甲子光年」:“我们已经用了很多年的阿里云,他们也提供建设大数据平台的组件。但是阿里云提供的组件是零散的,而不是集成好的方案,这就需要我们自己去摸索和尝试,遇到了问题只能通过工单去反馈,一来一回几个工作日就过去了。”

对于大型企业来说,还有一些现实的难点:大型企业一般都会采用多云策略,不会把数据放在一个服务商,当既是云服务商又是中台服务商的阿里要去做数据中台的多云、多数据库的数据交换时,是否会被别的云服务商穿“小鞋”?这种由卡位和立场导致的生态受限,是巨头要进军这一领域时必须解答的问题。

巨头之外,各路豪强也对云原生的数据中台虎视眈眈。

第一派是正处在风风火火云转型的用友、金蝶。作为传统软件服务中的佼佼者,老一代IT架构的建设者,用友、金蝶也分别打出了云原生架构的口号。

近几年,用友、金蝶更多是从偏上层应用的“业务中台”的角度切入中台。而在本月初,金蝶1.5亿元战略投资数澜科技,正式进军数据中台,数澜的核心产品“数栖平台”也将被集成到金蝶云·苍穹平台中。这让本就竞争激烈的数据中台赛道再起波澜。

第二派是从应用层、业务层往中间层探,自上而下向数据中台挺进的玩家,如原本主打产品是解决营销、用户运营问题的SaaS厂商。在「甲子光年」去年9月法发布的《SaaS公司做PaaS:过去了就厉害,过不去就死》中有比较详细的报道。这一类厂商往往本来就是云原生架构,对云原生的理解会更深刻。

第三派就是从底层往上,自下而上做数据中台的创业公司,如智领云、滴普、袋鼠云、奇点云等。

除了智领云的云原生的数据中台解决方案,滴普、袋鼠云和奇点云也先后在云原生上动作频频:滴普在2019年9月发布了云原生架构的Serverless平台,袋鼠云在今年9月也发布了云原生的数据中台产品数栈4.0,奇点云在今年10月首次对外公布了“云原生、端智能”的布局理念。

可以预见的是,未来基于云原生的竞争才刚刚开始。

644.png
数据中台赛道的最新融资情况

不过,虽然现在大家摩拳擦掌,好不热闹,但所有的数据中台厂商都需要面对一个终极难题:规模化复制。

一个很难两全的事情是,当你提供了足够好的服务,必然会带来人力和时间的大量投入,而长周期的项目又可能导致企业试错的机会成本提高。对于创业公司来说,靠堆人是不现实的,这是一个必须要解决的问题。

金沙江联合资本李居真告诉「甲子光年」:“目前来看,即使是融资跑在前头的企业,也并没有在商业模式上形成多大的优势,大家都还在探索过程中。”

现在,大家都拿下了一定数量的“样板客户”,接下来就是拼团队、拼交付能力的时候了。一般来说,不外乎两条路,第一是将产品标准化,第二是引入合作伙伴。

第一条路已经不用多说,比如智领云解耦的、可以单独交付的数据资产运营平台就是其中的尝试。不过,线性资本郑灿告诉「甲子光年」:“产品化这种事情说起来容易做起来也不难,但不同行业的需求不同,到最后限制他们的仍然是交付能力。”

引入合作伙伴是软件公司常见的交付模式,智领云也在今年积极拓展合作伙伴的规模,自己提供底层工具,解决方案交给合伙伙伴。不过,这种路线在软件行业非常常见,也不算新鲜事。

另外,郑灿从收费模式的角度给出了新的思路:在云原生的基础上,提高公有云服务的能力。换句话说,引导客户从私有云部署,转变为采用类似于SaaS那样的订阅收费模式。

很明显,这条路径的选择权不仅仅在于厂商,更在于客户。

厂商这边,云原生让订阅制具备了技术可行性。彭锋将这种模式称之为XaaS,但是这个X到底是以何种形态出现还不太明确,例如类似于Snowflake的DataWarehouse as a service, 或者可能是Data Platform as a service。彭锋告诉「甲子光年」:“从技术上来讲,我们已经可以做到像Snowflake那样动态发布,按资源使用量来计费,而且因为采用了云原生架构,在给客户做项目POC(验证性测试)的时候,一两周就可以交付。”

这是动辄几个月的私有云部署所无法做到的。但在客户这边,观念的转变可能还需要时间。

不过,我们还是能从衣邦人与智领云的合作过程中,看到积极的一面。衣邦人CTO杨阳告诉「甲子光年」:“当初在与智领云合作的时候,实际上我们也知道作为创业公司他们可能有一些不成熟的地方。但是只要符合我们的诉求,我们愿意一起试错和成长。”

目前,衣邦人与智领云的合作已经进入第二期。

如果未来基于云原生的XaaS模式能够打开数据中台赛道,也必将是一条厂商与客户共同成长的道路。

推荐阅读
关注数
4525
内容数
166
精品科技产业服务机构,致力于推动科技落地 修改信息
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息