本次的《中国顶尖技术团队访谈录》·2021第一季精选了来自中国移动、vivo、苏宁、腾讯、网易等公司技术团队在技术落地、团队建设方面的实践经验及心得体会。InfoQ希望通过这样的记录,能够让一家家品牌背后的技术人员形象更加鲜活,让更多人感受到他们的可爱与坚持。
封面故事
对话中国移动:支撑数亿用户的基础设施如何实施云原生改造?
重磅访谈
专访骨灰级开源爱好者吴晟:开源没有黑魔法,两年后泡沫将会破灭
技术实践
vivo AI 计算平台弹性分布式训练的探索和实践
苏宁基于服务层知识图谱的真假告警判定
腾讯云如何破解落地难题,成功实践 DevSecOps?
基于 Impala 的网易有数 BI 查询优化总结
技术管理
要打造高效团队,你必须掌握这种方法
创新研究
智源联合清华开源 FastMoE:首个支持 PyTorch 框架的 MoE 系统,万亿 AI 模型基石
对话中国移动:支撑数亿用户的基础设施如何实施云原生改造?
如今,数字化转型已经成为绝大多数企业重要且迫切的发展战略之一。在这样的战略之下,企业上云成为大势所趋,基于容器、微服务、DevOps、服务网格等新型云原生技术正在深刻推动着企业 IT 变革,以实现全面数字化转型。而中国移动作为这批浪潮中的先行者,早已全面拥抱云原生技术并自主创新研发了磐基容器云、磐舟云交付平台。本期顶尖技术访谈录,InfoQ 走进中国移动信息技术中心,探索云原生变革背后的故事。
近几年,数字化转型和云原生改造成为业界两大热词,运营商也开始了与技术的又一次较量。作为支撑数亿用户日常生活的必备基础设施平台,其改造难度是非常大的。本文,InfoQ 走进中国移动信息技术中心,一起聊聊他们如何看待数字化转型与云原生的意义。为什么要做云原生改造?决定改造后,人从哪找?团队 KPI 咋定?流程是什么样的?传统企业有必要自研吗?转型过程中有哪些注意事项…
为什么需要云原生?如何推进?
从 2008 年开始,中国移动就一直在探索转型升级之路,试图抓住“数字经济”带来的发展机遇。2008 年,电信运营商按照“六合三”的方案进行了重组,进一步加剧了三大运营商之间的竞争,中国移动凭借着 2G 时代语音业务的网络效应迅速成为佼佼者。
随着 3G 时代的到来,整个行业又开始面临语音业务增长缓慢和收入减少的压力。2013 年 12 月,中国移动获得固网宽带牌照成为全业务运营商。至此,三家运营商正式开启全业务领域竞争。
4G 时代,面对更加激烈的竞争局势,中国移动提出“三条曲线”的发展策略,即:第一条曲线是中国移动语音和短彩信;第二条曲线是流量经营,主要是依靠 4G 的拉动;第三条曲线则是数字化服务。中国移动明确从网络、终端和营销三个方面向流量经营转型,并且更注重第三条数字化服务曲线的发展。
5G 时代,基于 5G 数字化网络基础设施,中国移动打造泛在接入、泛在联接、泛在算力的信息高速,深化智慧运营创新,实现体验经营跃升,更加有效保障数字经济战略落地。
2019 年,中国移动决定从通信服务向空间更广阔的信息服务转型升级,围绕“力量大厦”的总体思路,以高质量发展为主线,打造基于规模的融合、融通、融智价值经营体系,构建高效协同的能力、合力、活力组织运营体系。
对于体量巨大的中国移动来说,转型并不容易,这背后到底有哪些考虑呢?
InfoQ:您对数字化以及数字化转型的理解是什么?这在中国移动内部是如何执行的?
A:我之前也在想到底什么是数字化,“转型”二字又意味着什么。众所周知,中国移动是运营商,而运营商最开始做的事情在我看来就是数字化的,就是跟数字打交道的。那么,数字化转型是什么呢?
转型意味着变革,我觉得可以从三个层面理解:一是战略层面的转型,公司全力推进智慧中台构建,持续汇聚共性能力、对内支撑更多的业务场景、对外实现能力共享,促进公司数智化运营和全社会数智化转型;二是技术层面的转型,虽然以前也用到很多数字化的技术,但传统的 IT 技术与现在的云计算、人工智能相比有很大不同,解决的问题和关注的重点都不相同,这是技术层面的转型;三是业务转型,运营商早期的主要业务是电话、短信,现如今随着 5G 的出现,我们的业务越来越丰富。
综上,中国移动明确了总体发展目标,即创世界一流企业,做网络强国、数字中国、智慧社会主力军。确立通过推进数智化转型,实现高质量发展的发展主线,结合经济社会数字化转型“五纵三横”的特征,形成中国移动的战略内核。
围绕战略目标,我们开始更加关注数字化的价值。以往我们关注的是技术本身可以解决的问题,现在把重心更多地放在数字化如何赋能业务发展,如何赋能商业模式转型。这对 IT 提出了更高要求——即需要通过组织变革来支撑更高的目标,实现更高能力的锻造。
注:五纵三横指经济社会数字化转型呈现“五纵三横”的新特征。其中的五纵指的是基础设施数字化、社会治理数字化、生产方式数字化、工作方式数字化、生活方式数字化;三横指的是线上化、智能化、云化。
InfoQ:我们做云原生化改造的背景是什么?这和数字化转型的关系是什么?
A:多年前,我们的 IT 系统承载在小型机、磁盘阵列、传统商业数据库上,传统的 IT 架构,应用横向扩展能力较差;2008 年起,我们从小型机向 X86 演进,大型的企业级应用向分布式服务化架构升级;2010 年左右,我们引入虚拟化技术,大力推进基础设施云化,业务规模化扩展和灵活性得到提升,实现了底层资源的共享;2015 年前后,我们逐渐从虚拟化向容器化过渡,不只是基础架构在快速变革,应用架构和交付也在升级,把大型复杂软件应用拆分成多个简单应用,各应用之间松耦合,从而降低了系统复杂度,还可以做到独立发布部署、独立扩展和跨语言编程,当然这一切的变化也将驱动我们研发、运维工作模式的转变。
在我看来,以往通过虚拟化技术将一台 X86 服务器虚拟化为多个虚机,当成物理机使用,这样的模式只解决了资源共享的问题,而云化不仅仅是基础设施和平台的变化,应用也需要做出调整,在架构设计、开发方式、部署维护等各个阶段都基于云的特点进行构建。云原生正是以应用为中心,应用开发之时便基于云的方式。只有这样才能更好地发挥出云的优势,更好地赋能业务发展。具体来讲,我们对于应用的要求主要是指:
1.敏捷。随着市场的快速发展,竞争日益激烈,对新功能的上线速度要求越来越高,我们需要化解高速的业务发展和系统稳定之间形成的矛盾,让“大象”能够起舞。
2.海量。我们需要支撑更多的互联网新业务、新玩法,需要足以支撑海量、高并发、高性能的业务系统架构。
3.简单。提高运维效率,解放劳动力。
在这样的背景下,中国移动 IT 系统建设全面拥抱云原生技术。
通过云原生改造,原本直接运行在虚拟机或者物理机上的业务系统,如今以高内聚、低耦合的应用独立运行在在容器里。以前一个新的应用系统需要从下到上完全自己重新搭建,现在大部分底层共性能力可以复用,极大地提高了开发效率,降低了成本,这就是我们所说的厚 PAAS、薄应用。
根据多年的实践经验,我们打造了磐基容器云,以及磐舟云交付平台,面向内部 IT 系统提供承载和服务支撑,主要包括面向客户服务和业务管理的业务支撑系统(简称 BSS 或 B 域)、面向通信网络管理的网管支撑系统(简称 OSS 或 O 域)、面向企业内部管理的管理信息系统(简称 MSS 或 M 域)。
InfoQ:您方便介绍下整个云原生的改造历程是什么样的?
A: 中国移动是首个完成大规模、分布式电信业务支撑系统 X86 化、容器化改造的运营商,领先同行业近两年时间。最早启动云原生改造的系统叫网状网,这个系统支撑了 200 多个业务平台,700 多个业务,包括金融类、互联网类、全网业务订购类、客服类、实时鉴权类、区块链等业务,峰值交易量为 75 万笔/分钟。完成改造后,在高可用、故障自愈等方面效果尤为突出,当应用模块升级或某个服务不可用时,服务可快速从容灾节点拉起,用户访问无感知。
另一个实现云原生改造的系统是中国移动集中化物联网支撑系统。这个系统是物联网产品集中化管理能力一点接入、统一运营的业务支撑系统,提供了端到端的业务受理、服务开通、计费账务和综合结算等能力,支撑亿级连接高效运营。系统采用微服务化的设计理念,基于我们团队自研的磐基容器云平台,快速构建敏捷开发和智能化运营的容器化业务系统。
截至目前,共有 40 多个系统运行在磐基容器云上,集群规模约 6600 台服务器,业务容器数近 4 万个。
在业务迁移上云方面,我们总结并形成标准化的上云规范和云原生改造优秀实践案例。跟业务部门对接的过程中,前期会有个布道的过程,对租户进行相关培训,同时了解业务需求,完成梳理架构、容量预估,提供针对性的解决方案和指导;其次,业务部门采用微服务的设计理念,遵循“前端横向整合,后端纵向解耦,服务提供与应用分离”的原则进行架构设计,完成容器化改造及微服务拆分;最后,逐步分离松耦合业务,完成部分流量切换验证,最终完成业务部署上线。在指导业务迁移上云的过程中,我们非常重视提前介入和收尾复盘,做到三同步:同步监控、同步高可用、同步安全。
团队人员及 KPI 制定
如火如荼的云原生世界,大部分人才被云厂商招致麾下,传统企业如何组建合适的研发团队呢?
InfoQ:您方便简单介绍下目前我们部门的人员组成吗?主要工作是什么?
A:我们部门是中国移动信息技术中心(公司)下属研发创新中心,还有一个牌子叫平台能力共享中心。目前部门共 300 余人,作为公司创新驱动的引领者、核心能力的内化者、技术演进的研究者、共性能力平台的运营者、核心测试能力的提供者,全面负责 IT 领域 PAAS、AI、区块链、IPA 等平台级产品的研发、测试、维护和运营推广;云原生平台的研运工作是我们部门的核心工作之一。
InfoQ:确定改造之后,承担云原生改造的团队人员大概来源是什么?
A:云原生平台核心研发团队近 50 人,包括架构设计、开发、运营、运维人员,承担整体架构设计,演进方向及新技术跟踪,容器云、DevOps 以及智能运维等模块研发集成,为各业务部门提供云原生改造解决方案咨询、支撑、部署和维护服务。
团队成员一部分来源于公司内部, 在建设电信业务过程中多年积累的 IT 人才,抽调并重组,另一部分来源于社会招聘和校园招聘,我们也通过猎头专门招聘有经验的架构师。
我们更希望团队员工知识更加全面。不仅对容器等云原生技术方面有要求,也希望员工更多的了解中国移动为什么要做数智化转型,要对运营商业务应用架构演进敏感,热爱新技术,真正解决好现有系统的问题。综上,我们对人才的整体要求可以概括为“四懂”:懂需求,懂市场,懂客户,懂技术。
InfoQ:您方便介绍下内部是如何对人员进行培训的吗?
A:数字化战略方面,公司内部会定期组织“知识赋能行动”等系列培训;云原生技术分享方面,我们会请内部人员或者外请一些大厂的技术专家做分享;应用上云改造和实践方面,基于磐基容器云平台,为租户提供体系化的培训课程,包括 K8S 应用管理及云原生技术实践。后面也会逐步完善认证体系,为架构设计、开发、运维人员提供相应的培训及认证服务,云原生技术更新太快,需要我们的员工终身学习。
InfoQ:业务方的态度如何?
A:基于技术发展趋势和公司战略要求,各租户对于数字化转型意义的理解在逐渐深化,目前公司有序推进系统全面上云,各部门积极配合 IT 系统云原生改造。
通过云原生改造,租户发现上云可以明显提升资源使用率、提高应用高可用性,加快迭代上线速度;另外,部分开发运维工作可以交由云原生平台实现,业务部门可以更专注业务创新,创造更多的业务价值。
云原生改造的整个过程对业务人员来说,也是学习提升、能力锻造的过程,毕竟,云原生技术是未来的发展趋势。
InfoQ:你们整个团队的 KPI 是什么?
A:我们团队的 KPI 有以下三个部分:一是研发方面,重视需求采集分析,以应用为中心规划、设计产品,解决业务问题并且完成升级,跟随云原生社区的技术发展,提升产品开发、交付效率。二是推广应用方面,整个平台在公司内部支撑系统的规模要不断的提升,成为 IT 系统的技术底座。三是稳定支撑方面,要求能快速定位故障,并对故障快速排查解决(单体应用或 SOA 架构,故障定位相对容易,应用微服务化改造后存在大量的微服务,故障很难快速定位、对症下药,需要构建完善的监控体系和端到端服务跟踪工具;我们想到另一个比较好的解决方案是智能运维——AIOps,进一步提升故障定位和解决效率),真正实现我们团队提出的“乘舟上云,稳如磐基”。
InfoQ:公司层面对完成云原生改造有什么目标吗?
A:我们的目标是通过磐基容器云平台和磐舟云交付平台的打造,助力 IT 系统完成云原生改造,逐步实现全云化演进。
对于新建应用,要求云上构建;对于存量的业务系统,云原生改造是循序渐进的。结合云原生价值和业务痛点,对于需求频繁变更、大规模、分布式架构的业务支撑系统优先改造;对于一些缺乏开发团队维护的遗留系统、需求很少变化,以及业务逻辑耦合紧密、比较大的存量单体应用,暂缓改造。
另外,考虑到改造代价和价值, 全部“重构应用代码”,并不是应用改造的唯一途径,对很多仍然在发挥作用的存量应用来说,重构封装应用代码的“应用运行时”也是一种更稳妥、有效的形式。
自研的动力是什么?如何选型?
在转型的过程中,中国移动基于云原生的理念,采用 K8S 和容器技术,自主研发了磐基容器云以及磐舟云交付平台。磐基容器云已经获得 CNCF 的一致性认证和可信云容器平台的认证,磐舟云交付平台也获得平台级的 DevOps 解决方案先进级认证。目前,磐基容器云平台已经支撑内部 IT 系统 40 余个,覆盖 BMO 三域;磐舟云交付平台也逐步规模化运营,已有 30 余个系统正在使用这个平台,实现了 X86、ARM 双平面研发运行,大大增强了我们对 IT 系统软件资产的自主可控能力。
磐基容器云平台架构图
作为运营商,中国移动为什么有动力自研技术呢?
InfoQ:作为传统企业,为什么我们有动力自研核心技术?
A:可以从两个层面来看,在宏观层面,国家鼓励自主可控和科技创新,我们中国移动积极响应国家号召,大力推进核心能力内化,增强“端到端”自主可控能力,不断培养科技创新人才。
在需求层面,外部产品更加通用,平台的定制化程度及开发响应速度比较弱;不能很好的满足我们的业务场景、运营运维流程、研发规范要求,业务系统共性能力也很难得以快速的沉淀。
云原生改造的道路上,在构建、发布、运行三大领域都有更多的开源项目可以选择,我们可以站在巨人的肩膀上,引入、集成、优化和增强,让自研过程更加轻松。
InfoQ:自研之前有做过选型对比吗?
A:以往,合作伙伴开发的业务支撑系统在开发,运行过程中用到了容器云产品。在生产过程中,我们发现通过容器云平台很好的解决了弹性伸缩、故障自愈、容灾等问题;同时,我们对 K8S 的特性、包括一些关键组件的选型有了一定的积累。在此基础上,我们开始自研,并对 K8S、容器底层技术,做了一些封装和优化,以提高其稳定性和安全性。
事实上,PaaS 的范围太大了,也不可能完全自研。我们也会根据租户的需求,引入部分优秀组件快速地解决生产问题,如国产数据库、国产中间件以及容器安全方面的能力。我们会通过联合创新的方式,引入一些合作伙伴的高质量产品,实现生态链企业合作共赢。
容器云研发期间,我们也在打造全栈全场景的混合架构,业务可以根据场景需求,在双算力的平台下融合部署,混合调度,实现业务能力互备,资源共享。
硬件层面,在 X86 基础上引入 ARM 算力,并向互联网公司学习,结合云原生改造需求,研发定制了云原生容器服务器。
在操作系统层面,积极拥抱开源社区,中国移动拥有自研的操作系统,也在积极探索 openEuler 开源操作系统部署应用,并尝试多元化容器运行时部署。
中间件层面,我们与东方通、中科院软件所、电子技术标准化研究院、国家信息中心、工商银行等单位一起中标了国家 2020 年基础支撑软件中间件项目,推动定制化中间件的研发和应用。
数据库层面,联合了业内 5 家企业进行联合创新,在应用场景中进行测试验证。通过不断的验证打磨,推动自主可控国产数据库的成熟落地。
请勿“人云亦云”
任何热门技术都逃不过“泡沫”,我们现在已然到了“不懂云原生不好意思出门的”境地,而热浪中总有喜欢看热闹不嫌事儿大的人,搅浑水的人以及淘金者。作为亲身实践者,中国移动又有哪些好的建议呢?
InfoQ:我们可以理解为云原生平台是某种形式的中台吗?
A:云原生平台实现了底层技术能力的复用,加快了应用上线速度,我们都认为是一种形式的技术中台,或者说数字化转型的技术底座。
InfoQ:对于希望做云原生改造的企业而言,您有哪些建议呢?
A:一是对于云原生改造,企业需要有自己的总体规划。系统整体架构未来要如何演进,各业务系统现存哪些问题和痛点,有哪些新的需求;二是云原生改造对人员的要求比较高,要具备架构的自主掌控力;三是云原生改造要循序渐进,平台部门要制定明确的研发、交付、运维规范,指导业务系统有序上云;四是要及时复盘,及时评估上云之后的效果和指标量化价值;五是运维支撑一定要跟上,包括安全体系,要构建完善的运维监控工具,解决好故障定位和监控难的问题;最后,构建一个成熟的系统往往需要一个相对比较长的运维和迭代过程,我们积极拥抱云原生的同时,也要做好踩坑的准备,稳步前行。
嘉宾介绍:
张春 中国移动信息技术中心研发创新中心 副总经理
魏宝辉中国移动信息技术中心研发创新中心架构师
郑文雯中国移动信息技术中心研发创新中心架构师
赵淳中国移动信息技术中心研发创新中心 运营总监
本文转自 公众号:infoQ ,作者钰莹,点击阅读原文
文件名 | 大小 | 下载次数 | 操作 |
---|---|---|---|
中国顶尖技术团队访谈录·2021第一季-2021-03-11-20.31.pdf | 13.48MB | 5 | 下载 |