申耀的科技观察 · 2021年06月01日

新以太释放新算力,构建强大“数字底座”

“为什么手机用着用着续航能力就下降了?”这个问题相信很多人都很好奇——其实答案就隐藏在手机电池里。 目前常规的检测方式是通过专业的技术手段检测电池材料的微观工作状态,但电池里“上演”的电化学反应过程往往稍纵即逝,暴露在空气中还会与氧气和水分发生反应,因此很难捕捉到具体的化学反应过程。

想象一下,如果是检测新能源车中组装在一起的几十甚至上百块锂电池的状态,背后的难度可想而知。假如有一台“超级显微镜”,能在纳米颗粒度的级别中观察整个新能源车电池组的充放电过程,对电极材料微观结构的影响情况,那一定会对电池技术的发展起到巨大的推动作用。

现实中的大科学装置就好比是这样一台“超级显微镜”。

主流媒体对大科学装置的定义是:大科学装置是指通过较大规模投入和工程建设来完成,建成后通过长期的稳定运行和持续的科学技术活动,实现重要科学技术目标的大型设施。大科学装置的建设可带动物理学、化学、材料科学、纳米科学等学科的发展。

模拟计算,算力是永远的刚需
大科学领域的实验在开始之前往往需要进行大量的HPC模拟计算,因此算力就成为了永远的“刚需”,而在模拟计算的环节中,需要多次测量物理仿真模拟中的随机过程,其随机变量的空间很大,由此就会产生海量的大数据样本。为了获取这些数据,就需要拟合及误差估计,同时后期的物理图像还原也非常复杂,这就需要大计算作为重要支撑。

如此巨量化的算力需求,让作为支撑的HPC平台面临着巨大的压力,同时未来发展创新的技术需求也要求HPC平台不断迭代升级,在此背景下,华为超融合数据中心网络CloudFabric 3.0解决方案“应运而生”,能够很好地解决上述问题。

技术创新,释放HPC强大算力
基于RoCE 技术的全以太化创新,华为超融合数据中心网络CloudFabric 3.0解决方案不仅实现了算力融合、性能提升,同时在架构升级的基础上也实现了全网智能运维,为HPC平台提供了重要的算力“底座”支撑。

首先,该方案基于全以太架构构建0丢包的计算和存储网络,实现了鲲鹏和x86算力的大规模组网,,同时借助CloudEngine数据中心交换机的400GE大带宽和创新的智能无损算法,可充分释放HPC平台的海量算力。

其次,数据中心向全闪存介质演进,该方案通过存储网络协议算法的优化升级,可使得HPC平台由存量的“InfiniBand+ Fibre Channel(FC)+ 以太”组网升级为“全以太架构”的组网方式,在性能显著提升的情况下,其整体建网成本可降低30%。

最后,在此基础上,得益于在过去30年间的运维经验,并将知识图谱引入到整个网络的运维中,不仅可以实现故障的3分钟快速定位,还可以做到90%的风险预测,实现从被动运维到主动运维的转变,以及风险感知到修复的自动闭环,真正实现全网的智能化运维。

华为超融合数据中心网络CloudFabric 3.0解决方案,带来的不仅是单点的提升,而是整个HPC平台端到端性能的提升,以新以太释放新算力,高效地满足了各项模拟计算任务,为高能物理大装置未来的持续创新提供了真正的源动力。

算力沃土,构建强大数字底座
毫无疑问,高性能计算机始终在服务国家重大需求,如高能物理和气候模拟等应用,高性能计算机已经成为这些战略部门的基础设施,备受重视。

数据显示,物理实验室数据的增长正带来算力的极大挑战,假设未来计算技术平均每年提升20%,10年将有6倍的技术提升,但对高能物理而言,仍需要在计算资源上增加约10倍的投入才能满足未来的需求。

可以预期的是,华为超融合数据中心网络CloudFabric 3.0解决方案将会持续为国家大科学装置打造性能更佳、成本更优、效率更高的HPC基础设施“底座”,提升科技创新能力以驱动经济社会全面高质量发展,进而为国家的科技发展和产业升级做出更多的贡献。

推荐阅读
关注数
2395
内容数
425
专注产业互联网、企业数字化、渠道生态以及汽车科技的 观察和思考。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息