毫无疑问,今天“算力就是生产力”已成为业界共识,特别是算力作为数字经济时代的关键生产力要素,已成为了挖掘数据要素价值,推动数字经济发展的核心支撑力和驱动力。
但也要看到,随着数据空前地增长和扩张,加上企业关键工作负载所处的环境正在发生着“翻天覆地”的巨大变化,整个社会对算力需求呈现出多样化的趋势,如何破解不同应用需求和不同应用场景下的算力挑战,不仅是“当务之急”,更是“刻不容缓”。
在近期举办的首届企业上云暨算云融合产业大会上,天翼云就带来了智算超算一体化解决方案,该方案依托分布式架构的云底座和海量的计算、存储、网络资源,融合智算、超算多样化算力服务,能够为大模型训练、汽车碰撞、流体动力学、无人驾驶、生命科学等场景提供软硬全栈解决方案。
而这仅仅是天翼云一直以来坚持科技创新的一个“缩影”。作为数字中国建设主力军和云服务国家队,天翼云始终以核心技术自主可控为本,打造全栈云产品体系,同时在操作系统、可信云、云数据库、云原生安全产品、AI等领域积极布局和深耕,不但走出了一条科技创新的成长路径,同时也更好地赋能了千行百业的数字化转型。
算力进化趋势
目前,国家对数字经济给予了前所未有的高度重视。这也意味着一个以数据为中心的全新算力时代的到来,特别是随着“新基建”的提速和“东数西算”工程的启动,如今无论是产业变革还是技术迭代都在以惊人的速度向前演进,同时也让算力加速“进化”,具体来看:
一是异构算力多元化。主要表现在目前传统数据中心在面对各种业务应用创新时,往往需要不同的算力支撑。因此,如何通过异构的方式提升服务器的系统级性能,用异构的算力资源应对不同的计算需求,已成为业内的共同课题。
二是算力统一云化。随着云计算技术的飞速发展,传统数据中心目前也正在快速向云化数据中心转型,算力更多地以云的方式供给出来,云计算既丰富了算力的供给方式,实现了算力的横向切片,同时结合云计算的云化获取以及弹性的能力,可以进一步提升算力的使用效能。此外,云计算也能赋予算力更多的层次,让算力形式更加多元,更加丰富。
三是智算和超算融合化。众所周知,AI发展带来了更多的计算类型,如AI推理、AI训练、大数据等都需要不同的计算类型,同时芯片种类繁多,数据量级也不断提升。此外,算法模型需求的指数级增长也在不断挑战算力极限,数据和模型的巨量化也在加速算力的庞大需求,刺激了高并发存储资源池和巨量算力的融合,而超算中心则能够提供充足的算力支撑,因此智算和超算(AI+HPC)的融合化也成为新的趋势。
不难看出,异构算力多元化、算力统一云化以及智算和超算融合化,让整个算力产业发展步入了一个全新的阶段,而这也倒逼着整个算力体系要随之进化与演进,由此才能在企业的数字化转型以及国家数字经济的发展中提供新的支撑力和驱动力。
加速算力普惠
也正是洞察到这种全新的变化趋势,天翼云率先在业界发布了天翼云智算超算一体化解决方案(智算超算云平台),这是集云、超、智一体的高性能算力服务平台和方案,具有以下几个方面的优势:
首先,构建了“面向AI与HPC”的高性能基础设施。方案中的“智能超算专属池”能够提供AI训练、HPC科学计算所需要的高性能算力服务。对于高性能算力需求的用户,仅需要对计算、存储等资源“按需付费”,即可使用高扩展性、高性能、强隔离的专属基础设施环境。
其次,方案还提供“AI+HPC”融合服务能力,作为智算超算云平台,该平台同时具有“智算AI服务能力”和“超算HPC服务能力”。其中,智算AI服务能力方面,方案既实现了算力资源弹性管理,又提供了集“训练、推理”为一体的AI赋能平台,实现“一站式”的AI能力全流程服务;而超算HPC平台能力方面,方案也从基础设施层、HPC调度层、行业应用层不断优化服务能力,构建出了具有超高性能、超大规模、且能够适配不同行业需求的超算底座。
最后,天翼云自研的“算力调度系统”还能提供统一调度的能力,能够实现云上云下多算力数据中心的统一管理调度,包括AI任务调度、异构算力调度、同时也支持近万亿级参数模型训练规模、3D并行分布式训练、推理加速引擎、数据加速等算力赋能调度能力,大大提升训练速度和推理效率。
也正因此,天翼云智算超算一体化解决方案能够将多样化的算力资源实现生产、聚合、调度和释放,最大化支撑产业的创新聚集。
以自动驾驶场景为例,天翼云智算超算一体化解决方案能为用户提供全流程的服务,完成“数据入云、数据存储、数据标注和处理、模型训练、验证仿真”等工作,满足自动驾驶这类HPDA应用中所需要的高性能和可扩展的混合负载需求,同时方案中提供的“AI训练和AI推理”等服务也进一步提升了用户的自动驾驶研发效率,为自动驾驶提供了更为强大的技术能力。
由此可见,天翼云智算超算一体化解决方案真正满足了更多应用场景、更多元算力的需求,并以灵活、高性能的算力服务优势,加速算力实现“普惠”,更好地为千行百业的智能化转型和升级创造出更多具有想象空间的新业态、新服务和新模式,并为人工智能“走深向实”奠定基础。
坚持科技创新
事实上,天翼云过去多年来始终坚持走科技创新之路,在自研产品能力和资源布局多方面发力,积极服务于国家战略,赋能千行百业数字化转型,推进数字中国的建设。
第一,在全栈云方面,中国电信自2009年就开启了“天翼云发展战略”,在2018又从云网架构、运营模式等方面全面转型,在2021年底推出天翼云4.0分布式云架构。在此基础上,天翼云在去年年底又进一步推出混合云一体机iStack、裸金属专属云、SD-WAN尊享版网络、云电脑、“息壤”、全新CDN产品及边缘云安全底座等产品,在云计算布局上更进一步。
第二,在操作系统方面,天翼云操作系统TeleCloudOS4.0 目前已实现从千台到数万台服务器管理调度的能力跨越,弹性计算单集群支持虚机50万台,存储支持百万级IOPS,亚毫秒级的IO延迟,支持8大主流芯片和2大国产操作系统。此外,云服务器操作系统天翼云CTyunOS,也提供一云多芯服务,通过CPU调度、内存、网络等多方面深度优化,显著提高了宿主服务器的性能与可靠性。
第三,在可信云方面,去年年底,天翼云也率先顺利通过《混合云超融合平台能力要求》《混合云应用场景能力要求 第2部分:负载调度》《混合云应用场景能力要求 第3部分:容灾备份》三项首批评估,成为业内首家通过此三项评估的云服务商。而今年1月,天翼云全栈混合云更顺利通过商用密码应用安全性评估,这也标志着天翼云全栈混合云密码安全能力达到业内领先水平,能够为用户持续提供合规、安全等能力和保障。
第四,在前沿技术创新方面,天翼云也推出了云原生数据库TeleDB、云原生安全等产品,并积极布局AI领域。其中,天翼云自研的TeleDB数据库历经“十年磨炼”,能够支持千万级并发和PB级数据处理,实现HTAP事务的一站式处理,目前TeleDB在电信系统上,稳定承载着十亿级用户和千亿级话单规模的高并发业务。
不仅如此,在云原生安全产品方面,天翼云也创新突破云原生安全关键技术,打造了“红盾”系列安全产品,以一体化云安全可信运营体系和零信任架构,构建了安全核心能力自主可控的技术壁垒;而在AI方面,为了适应市场智能算力的快速增长,天翼云也聚焦人工智能场景创新,以普惠智能算力为基础,广泛支持大模型训练、智能推荐、无人驾驶、生命科学、NLP等业务场景。
总的来说,今天,算力的重要性已被提升到了一个全新的高度,而在此过程中,天翼云始终坚持科技创新,并“以行践言”加速算力普惠,由此不仅成为了驱动中国数字经济高质量发展的重要力量,同时也更好地铸牢了“数字中国”的关键底座,其价值也可谓“不止于现在,更关乎未来。”