在7月31日济南举行的首届中国算力大会上,华为携手国家超级计算济南中心上线了“东数西算”数据存储集群系统暨山东省超算数据一体化示范工程,这是数据存力在超算应用中的最直接体现。
以往,大家主要注重算力应用,但济南超算的实践证明,要推进东数西算发展,更要做好数据存力在国家基础设施中的建设。数据存力不仅以存储容量为核心,还包含性能表现、安全可靠、绿色低碳在内的综合能力,数据存力成为算力价值的前提和基础,发挥算力价值之前要先构建数据存力。
据相关专家透露——如今济南和青岛两个副省级城市的算力在去年就实现了科学打通布局,而今年的重点任务则是把山东省16个市进行互联互通,实现真正的“数据一体化”,这个目标甚至在今年8月就有望实现。如此一来,山东省也就率先在国内实现了全境数据一体化覆盖,而为济南超算提供这项技术支撑的,正是基于华为OceanStor Pacific分布式存储的数据存储集群系统。
就在本届算力大会上,华为超算首席架构师赵顺存也进行了《构建存力网络 促进智数融合》主题演讲。正如传统的电网承载“电荷”流动一样,而未来的算网将承载“数据”互联。由此看来,数据将成为未来应用的宝贵资源,而如何存储并利用好这些数据,也是数据一体化存在的最大价值和应用的最大意义。
但是建设数据一体化也并非只是简单的连接而已,建设者们面临的首要问题就是如何打破传统数据孤岛,实现数据和设备的统一管理。我们知道,超算是一种高端算力的专业设备,因此从最早的设计到后来的部署,往往会采用差异化的架构模式,这样就容易造成数据孤岛。从这个角度来说,如何体现数据存力,实现全局统一数据管理就是打造数据一体化的第一步。
第二个问题就是如何实现数网协同。作为专业应用,超算应用的规模一般都很大,涉及的数据量动辄都是上百GB甚至TB级别,因此对于数据的存储与传输要求极高。但在实际应用中,用户往往最头疼的就是数据传输的问题。伴随着算力的提升,如今超算的性能越来越强,亿亿次计算也已经是屡见不鲜,但是在计算之前如何将数据进行有效的传输和分析却成为了超算效率提升的关键问题。
以当下热门的冷冻电镜应用为例,这项应用主要是用于扫描电镜的超低温冷冻制样及传输技术(Cryo-SEM),实现直接观察液体、半液体及对电子束敏感的样品,如生物、高分子材料等。也正因为观察的精密性,实际研究中产生的数据量巨大,而传统超算中心的网络往往难以满足海量传输的需求——或许产生数据只要几天,计算数据几天,但是中间传输这些数据就需要十几天甚至几十天的漫长等待。类似的应用还有影视行业的动漫渲染等等,无论是在互联网、教育网还是局域网下,传输难题都是难以解决的。
最重要的则是数据安全。超算是一项关乎国计民生的应用,其中很多都是跟科研相关的,不少信息都涉及行业甚至国家机密,因此对于数据安全的问题尤为重视。以往,每家超算中心都有内部的数据安全管理机制,也的确发挥了不错的作用。但是面对数据流动,如何保障数据在不同超算中心之间传输时的安全性,如何规避数据风险、避免数据流传过程中的泄露和篡改,这都是摆在管理者面前的问题。
综上所述,虽然看来数据一体化只是将不同城市的超算中心连接在一起,只是实现了数据之间的互联互通,但要想真正解决数据的高效传输、有效利用和安全防护等需求,就必须从底层架构上实现全新的设计,尤其是在网络架构中保障数据传输的实时监控和管理,在加速流动的同时保障安全,这显然不是传统超算应用所能够解决的问题,而是从数据本身出发,提供了一个全新的思路。
数据存力先行,华为数据存储集群系统解读
“不同超算中心能力各异,管理复杂,导致数据容易形成孤岛,流通并不容易。”华为超算首席架构师赵顺存表示,要想打造数据一体化,必须打破现有数据孤岛,以数据为先,实现数据的可视化、透明化,同时还要打破内存墙、协议墙的双重限制,将多样算力直接按需加载到存储系统,通过数据一体化方案实现全新的应用模式。这其中,数据存力先行是首先要秉承的目标,也是面向未来数字化社会的必要准备。
所谓数据存力,就是数据存储的能力,是根据不同的应用环境需求,有效保存数据的综合能力。数据存力是以存储容量为核心,包含性能表现、可靠程度、绿色效能在内的综合体现。据业内著名管理咨询公司罗兰贝格的测算发现,每1元存储投资可支撑5元直接价值、8元间接价值和30-40元衍生价值,由此可见数据存力已经成为未来数字化时代的基石。相对于数据算力来说,数据存力更具备前置性,只有把数据妥善的存储起来,才有资格谈后面的算力分析和业务应用。因此,对于数据一体化建设来说,强调数据存力的首要地位,强调数据应用的价值,也是打造整个解决方案的指导思想之一。
也正是秉承着这样的理念,华为在数据一体化架构中也融入了数据全局可见、智能流动、分析加速和安全防护四大特征,实现了全生命周期的管理,也让数据的传输更快捷、分析更高效、使用更安全。其中基于华为OceanStor Pacific分布式存储打造的数据存储集群系统以多样性的数据支撑、可靠的在线业务承载和更具性价比的数据存储方案为特色,也是数据一体化解决方案中使用的核心产品。借助于硬件高密设计与高效算法结合,OceanStor Pacific分布式存储一套就能够支撑高性能计算、大数据分析、AI计算的混合负载,并实现了跨站点多活容灾、故障倒换等多种功能,更好的应对超算海量数据的挑战。
数据全局可见就是将多超算中心构成一个逻辑统一的存储文件系统,这样无论原本数据使用的是哪种文件格式都可以接入到系统中来,实现所有数据的透明化、可视化,这样在上层应用无感知的情况下解决看不见的问题,让管理者实现更好的监控和管理。这里,华为从数据流动总线、元数据两个方面入手,通过基于HTTPS的灵活互联能力实现了数据的快速共享与流通,同时借助于表化、流化的统一元数据屏蔽设备差异,实现跨设备、跨异构互联互通。这样分布在山东省内各地的超算数据都可以汇总到平台上来,管理员也对数据一目了然,可以实现更好的调度。
数据智能流动比较好理解,但是难点在于数据的热度不同,即热温冷数据原本在数据中心有不同的存储介质差异,而要想实现自由流动,就同样需要保障他们对应的层级划分,这样在不影响系统整体存储性能的前提下就解决流动难、取数难的问题,也让数据的处理更加高效。这里在调度层面实现了算力调度加数网调动的融合,既可以实现多地域的算力调控,又可以对于数据实现跨地域、设备、网络、冷热的管理,最大限度提升了灵活度,优化了效率。
第三个解决的问题是数据加速,这也是数据应用中最核心的问题。在保障了数据的可视化和自由流动之后,管理者自然希望最大限度的发挥数据价值,这就需要系统能够实现原生多协议互通,让多种协议共享一份数据,最大限度降低数据访问延迟,同时还要实现0迁移高效访问,保障访问效率。这样在同一个超算中心内,数据无需搬迁就能实现处理,既避免了重复拷贝带来的等待,又能有效节省空间开销,一举两得。
最后,面对众多的访问需求,如何实现安全风险的层级管理,防止用户任意越权操作,停止服务甚至销毁数据,都是系统设计之初就要考虑的问题。同时对于超算数据还要防止数据外流,避免数据泄露。这其中的安全包括了设施安全、数据安全和管理安全三个层面,从环境、资产、合规三个方面保障了数据的整体安全,也实现了从底层架构到上层应用的全面覆盖,让用户无后顾之忧。
如今,山东省已经通过数据一体化实现了对于全省超算节点的有效管理,也有包括济南、青岛、淄博、临沂、潍坊等16个地市的系统纳入网络当中,实现了跨中心的统一管理。据赵顺存介绍,目前这套系统已经在国家级生态环境监测大数据超算云中心、多尺度高分辨率遥感大数据以及脉冲星研究等多个科研项目中提供支撑,实现了数据一张网,通过有效的资源调度加速科研项目的数据传输和计算速度,助力科研应用的发展。
未来,数据一体化更将实现从区域到全国的渐进式覆盖,并有可能沿着一带一路的指引,将中国的数据存力、数字经济的产品和技术以及商业模式输出,让更多海内外用户感受到数字化的强大魅力。