我们知道,随着云计算、大数据、人工智能、物联网等新技术在各行各业更加广泛的普及与应用,在催生越来越多数据量产生的同时,也让数据的管理和价值挖掘变得愈加复杂和困难。
一方面,数据在不断变大,根据IDC的预测,全球数据总量预计到2025年更将达到175ZB;另一方面,数据类型的多样化,诸如文本、图片、音频和视频等非结构化数据的大量产生,很多企业每年的数据增长量更是超过60%,部分互联网企业的数据量甚至呈指数式的增长。
但是,过去由于缺乏有效的数据处理机制,这些大量的数据,分散于各处,难以联通,难以汇聚,因此如何最大化释放大数据带来的红利价值,这也正是今天数据湖被高度重视的关键原因。
在此背景下,5月13日,腾讯云首次对外展示完整云端数据湖产品图谱,并推出两款“开箱即用”数据湖产品——数据湖计算服务DLC和数据湖构建DLF,希望助力各行各业解决多元化数据分析场景的新需求,更好地激发大数据在企业数字化升级过程中的价值,真正让“无形”的大数据,变成“有形”的生产力。
云原生数据湖强势崛起
在刚刚过去的2020年,“不确定性”成为企业和组织不得不关注的重要课题。不仅是突如其来的疫情对经济,社会的生产、 生活方式带来的史无前例的冲击,更为关键的是,过去十多年来,众多的企业也在新旧商业形态的剧变、商业模式的颠覆以及各行业的重构中“踯躅前行”。
在此“新常态”下,企业唯有更加快速地洞察客户的需求并迅速调整自身的产品及服务模式,并通过深挖数据带来的红利价值,向“云原生企业”甚至“数字原生企业”转型,才能更加从容地面对各种复杂形势下的挑战,而数据湖正是在这样的背景下“应运而生”的。
在腾讯云大数据产品中心副总经理雷小平看来,尽管数据湖的概念已经出现十年左右,但过去的数据湖仅仅只是解决了大数据“存”的问题,在“用”的维度上并没有产生更大的价值,而随着技术的创新和应用场景的拓展,以云原生数据湖为代表的新一代数据技术架构正受到业界越来越多的关注,而云也成为了数据湖的最佳实践场所。
一是,以云计算为中心,向云原生转型成为新趋势。数据显示,预计到2021年底,云将承载80%的应用开发和部署。与此同时,今天以Kubernetes为代表的容器技术已经成为了云应用的“操作系统”,越来越多的应用运行在容器的基础之上:从无状态的 Web 应用,到交易类应用,再到数据化和智能化应用,在此过程中,越来越多的企业也正基于云原生实现了全面的上云。
二是,以数据驱动业务,实现数智化转型变成新方向。据知名咨询机构统计,到2025年全球数据总量将超过160ZB,全球数据总量的20%将成为关键数据,全球数据的分析总量也将会增至5.2ZB。因此,如何把大数据所带来的效应发挥出来,实现更加精细化的管理和决策,从而有效的提升质量、降低成本、优化服务变得越来越关键。
三是,可组合式数据架构,让云原生数据湖落地更具确定性。对于企业来说,不仅越来越多的业务向以云为中心的基础架构转移,而且对于数据洞察敏捷度的要求也越来越高。在这种情况之下,企业迫切需要可以利用多个数据源、使用不同的大数据分析技术,快速构建灵活友好的数据架构,解决多元化分析场景的数据需求,而可组合式数据架构的出现,更推动了云原生数据湖的落地,真正让数据分析变得更敏捷、更多元、更简单。
“相比过去的数据湖,云原生数据湖的优势主要体现在能够以极低的价格共享存储服务;计算资源能够按需扩容,按量付费;同时随着数据湖全链路解决方案的不断完善和增强,也在打破数据孤岛、实现多元化数据分析等方面具有独特优势。”雷小平说。
也正是洞察到这些变化,腾讯云发布了云原生智能数据湖产品图谱,为企业打造了一个具备端到端的云原生数据湖解决方案,从存储、计算到智能的数据分析,再到偏向业务场景的各种数据应用,通过“从下到上”的把这些能力聚合在一起,同时结合数据湖的能力去解决客户的具体问题,让企业能够快速搭建并运用数据湖的技术架构。
毫无疑问,由数据价值驱动的数字经济正成为推动社会前进的主要模式,由各种创新技术驱动的数字化转型也正成为全球变革的核心,而云原生数据湖的出现,真正为各行各业挖掘数据价值,释放数据红利,完成创新与变革打造了新一代数据技术架构的“底座”。
构筑全方位数据湖服务
据了解,腾讯云此次发布的云原生智能数据湖产品图谱,包括数据湖存储、数据湖算力调度、数据湖大数据分析、数据湖AI能力、以及数据湖应用和云上基础服务六个层面,可为企业提供一体化的全方位数据湖服务,具体来看:
首先,在数据湖存储和算力方面,腾讯云原生数据湖存储以对象存储COS服务为核心,理论上可以存储任意规模的异构数据,具有高可靠性和高持久性,同时也支持将其他云端数据设施作为数据湖的存储服务;而在数据湖算力调度方面,基于腾讯云弹性容器服务EKS,开放的容器化的分析架构能够让数据分析功能可组合性更强,扩展性更强,资源利用率更高。
其中,腾讯云对象存储COS基于新一代存储引擎YottaStore打造,不仅具有高可用、高性能和低成本等优势,且在存储可靠性、开放兼容和数据安全方面也为海量数据的存储和管理提供了更强大的支持。此外,腾讯云对象存储COS还进一步通过“三级加速器”,提供存储端元数据、近计算端数据缓存以及AZ级全闪存硬件加速能力,可以满足用户低成本、高性能、流批一体地挖掘数据资产价值的需求。
而在数据湖算力调度领域,腾讯云弹性容器服务EKS,具备存算分离、缓存加速、弹性计算能力,既能帮助企业充分利用云上资源的弹性能力,极大减少集群空闲时期的成本浪费,也能快速、安全的提供多样的算力资源。
对此,腾讯云容器产品总经理邹辉表示,弹性容器服务EKS不仅经历了三次大的技术架构重构,同时也在腾讯云几十万、几百万台的物理机上做了部署,实践验证了其高可用和稳定性,它既可以提供一个运维简单、兼容原生Kubernetes的Serverless容器平台,也能更快更弹性更安全且无需对集群管理实现管理,同时更具备跨可用区的容灾,容器沙箱及热迁移等高级功能,真正实现了极致的资源使用灵活性。
其次,在数据湖分析方面,腾讯云原生数据湖同样既提供半托管的泛Hadoop服务,满足用户自定义需求,也提供全托管的数据服务,便于用户获取海量数据的洞察力。同时,用户还可利用腾讯云提供的数据协作工具对计算服务进行编排和调用,大幅度提升企业数据的便捷性和敏捷度。
值得一提的是,本次腾讯云原生数据湖就推出两款全新的“开箱即用”数据湖产品——数据湖计算服务(Data Lake Compute,DLC)和数据湖构建DLF(Data Lake Formation,DLF)。其中,数据湖计算服务DLC服务采用无服务器架构(Serverless)设计,用户无需关注底层架构或维护计算资源,使用标准SQL即可完成对象存储服务(COS)及其他云端数据设施的联合分析计算。借助该服务,用户无需进行传统的数据分层建模,大幅缩减了海量数据分析的准备时间,有效提升了企业数据敏捷度。
不仅如此,腾讯云数据湖构建DLF则提供了数据湖的快速构建,以及与湖上元数据管理服务,能够帮助用户快速高效的构建企业数据湖技术架构,包括统一元数据管理、多源数据入湖、任务编排、权限管理等数据湖构建工具,借助数据湖构建,用户可以极大的提高数据入湖准备的效率,方便的管理散落各处的孤岛数据。
数据显示,基于这两款数据湖产品,相比于本地自建大数据集群,数据湖构建时间减少了60%,数据分析计算性能提升35.5%,云端数据湖架构投入使用后可使存算数据量增长75%,配合其他大数据服务,在业务峰值期可以节约30%的硬件资源,以及一半的大数据工程师和运维工程师。
最后,在数据湖AI+应用方面,腾讯云也推出基于数据湖的数据应用服务,如企业画像、联邦计算、商业智能分析等。同时,腾讯云数据湖更包含了丰富的AI服务,能够为图像处理、音频处理、自然语言处理、视频处理等提供有力的数据支撑。
据腾讯云AI应用产品中心总经理王磊介绍,云原生数据湖为AI的应用提供了统一的数据架构,在数据收集、标注、训练、推理等领域都能够发挥更大的作用,而腾讯云凭借全球领先的技术和创新方案,打造了领先的数据湖与AI融合平台,为更多的应用场景提供了智能化的能力。
以腾讯云内容安全智能服务为例,该服务基于云原生数据湖架构,以AI智能审核能力为核心,从接口输入、辅助判断、模型识别、客户策略处理以及人工审核与平台六大维度,为用户提供了完整的内容安全解决方案,让客户一次调用即可完成所有的内容审核工作。在此基础上,腾讯云也不断通过数据湖结合AI的能力赋能客户,在科技战“疫”、OCR识别、智能票财税等应用场景领域发挥了更多的价值和作用。
由此可见,腾讯云云原生智能数据湖具备更高的数据敏捷度、更优的数据性价比、更强的数据智能化能力,可以更好地激发数据业务价值。更为关键的是,它天然具备云服务的众多优势,包括多租户的权限管控、存储计算资源弹性伸缩、底层资源免运维、云端服务高可用高可靠、仅需按照使用量付费等特点,这不仅让腾讯云打造出了强大的云原生数据湖的竞争力,同时也成为了一家走在数据湖落地最前沿的公司,更将云原生数据湖的技术创新提升到了一个全新的高度。
领先背后的沉淀与释放
回头来看,腾讯云在云原生数据湖领域之所以能够实现市场领先,并不是偶然的,而是其一直以来在数据湖领域的长期实践和沉淀之后的一次全方位能力释放,可以从三个维度来做观察:
第一,腾讯作为全球最大的互联网公司之一,其数据规模、数据复杂度、数据处理难度、数据价值挖掘在业界无出其右,这就让腾讯云原生数据湖的解决方案不仅经历了长期的“残酷历练”,更通过公司的业务场景的“实践验证”了其超强的可用性。
雷小平告诉我,以腾讯新闻为例,腾讯新闻拥有千亿级的文章数量,每篇文章各环节数据维度达到几百个,多维度的数据主题导致各个业务环节的数据量线性膨胀,也这给数据分析带了极大的挑战。为此,基于腾讯云原生数据湖技术架构,在数据采集、数据存储、数据分析的全数据链条上提供了高可靠高可用的弹性数据能力。目前已接入全量文章的索引数据,文章索引达日均30-50亿/100G+ ,支持准实时写入更新,业务数据链路延迟提升至分钟级别,使得算力资源节约超过50%,综合运行成本降低了30%,大数据运维工程师的工作量提升了100%。
“腾讯新闻的数据应用中,既有偏离线的,也有偏实时的,更有偏批量和小部分数据查询的,场景十分的多样化,而腾讯云基于多样化的应用场景,不断对云原生数据湖方案进行孵化和打磨,最终让腾讯云原生数据湖应势而生。”他说。
第二,腾讯云长期的的投入和沉淀,又打造出了云原生数据湖领域最为完善的产品矩阵,不仅大大降低数据存储和分析的成本,更大幅度提升数据分析的敏捷性,真正加速和推动了云原生数据湖的落地。
确实如此,大数据的实时、感知和预测等特点确实可以帮助很多企业降低成本,缩短生产周期,提升了效率。但对大部分企业而言,过去通过传统的数据湖产品,仅仅只是解决了数据收集和存储的能力,但对数据的分析,以及在数据建模工具的利用等方面进展并不顺利,而腾讯云原生数据湖的端到端和全链路的独特能力,则彻底完成了数据从“存管用”整个全生命周期的管理。
数据也显示,腾讯云数据湖体系已服务众多内外部客户,其整体算力弹性资源池已达500万核,存储数据超过100PB,每日分析任务数达1500万,每日实时计算次数超过万亿,能支持上亿维度的数据训练。除此之外,在应用方面,腾讯云正在积极推动数据湖在政务、工业、零售等领域的大规模落地。
第三,腾讯云在云原生数据湖领域的优势,还建立在对技术的不断创新与研发上,除了目前腾讯云云原生智能数据湖产品图谱中涵盖的六大能力之外,腾讯云还会不断的研发更多的数据湖产品,以完善和优化云原生智能数据湖矩阵。
雷小平最后表示,从存储的角度,客户目前最关注的问题是,如何把数据快速输送给大数据引擎,让引擎高效率工作,同时还能够更低成本的获取存储资源,是未来需要进一步解决的问题;从计算的角度,如何让弹性计算发挥更大的能力,也需要做更多的优化工作;从用户体验看,也需要可以跨越之前数仓建模带来的种种约束,针对业务需求去做联合分析和查询;从技术演进看,腾讯云未来也会更多的依托于开源做技术创新,并把这些创新贡献给社区,目前腾讯云就基于Iceberg为代表的开源数据湖技术,不断优化和完善新一代的云原生数据湖系统,最终希望进一步推动云原生数据湖的发展。
总的来说,在数智化的新时代,腾讯云正通过端到端、全链路的云原生数据湖赋能客户,这不仅加速了数据湖的落地进程,也让企业基于大数据实现业务创新更加“普惠化”,在最大化释放大数据新红利的同时,也真正让“无形”的大数据,变为“有形”的生产力,相信这对加速企业向“云原生企业”转型,以及促进中国数字经济高质量发展,都将起到更多的引领和推动作用。