图灵奖得主 Jim Gray 曾划分了科学研究的四大范式,即实验科学、理论科学、计算科学与数据密集型科学。近年来,随着 AI 的爆发式发展,也有业内人士称「科研的第五范式已经到来」。
在科学研究范式的迭代中,数据的核心作用从未改变。可喜的是,随着科研范式从计算走向 AI,数据产出的成本也在持续降低,生命科学、材料化学等领域的数据库呈指数级扩充。以生命科学计算为例,其「数据量的增加能够达到 3 年翻一番,而生命科学计算的市场规模却要每 6 年才能翻一番」。
究其原因,北京大学孔雷教授提出,可能是由于数据产出成本的降低要比芯片进步的速度更快,所以很多数据并未及时得到有效处理。他认为,生命科学研究已经越来越依赖于数据驱动,计算能力已经成为科学研究的核心竞争力之一。
北京大学孔雷教授
毫无疑问,孔雷教授所言是广泛的科研领域都需要正视的问题,计算能力或将成为科学研究、乃至工程应用突破技术瓶颈的关键引擎。在此背景下,高性能计算 (HPC) 得到了高度关注, 作为「算力皇冠」,其依托强大的计算能力与并行处理技术等优势已经在诸多领域实现成熟应用。
在 9 月 24 日开幕的第 20 届 CCF 全国高性能计算学术年会 (CCF HPC China 2024) 上, 从特邀报告到主题论坛,来自不同专业领域的顶尖学者与行业专家围绕 HPC 的发展现状与趋势,聚焦丰富的应用场景,进行了深度分享与交流。
具体而言,CCF HPC China 以「华章廿载 新质未来」为主题,邀请到了 12 位院士与超 400 位顶尖学者,大会还举办了 30 场主题论坛,以及 30 余场丰富多彩的周边活动,参会人数突破 4,000 人,现场交流氛围浓厚。HyperAI超神经作为官方合作社区参与 CCF HPC China 2024,并为大家带来了干货报道。
「融合」成为大趋势
有业内人士用「算天、算海、算地、算人」来形容高性能计算应用的无所不在与强大能力,然而,在实际应用中,往往是孤木难成林,不仅需要高性能计算中的超算与智算融合,同时,在提供算力服务的过程中,为盘活算力资源,算力与网络的融合也成为大势所趋。
超算与智算融合
中国科学院院士、国防科技大学教授、中国计算机学会 (CCF) 会士王怀民在分享中表示, 在智能计算时代,AI for Science 不仅推动了基础科学研究的进步,也为高性能计算与人工智能技术的发展带来了新的机遇与挑战。如何结合科学研究的具体应用场景,充分发挥高性能计算与人工智能在大数据分析、仿真计算、智能预测、实验辅助方面的潜力,是当前 AI for Science 落地应用关注的重点。
王怀民院士认为,AI for Science 与 Computing for Science 是有联系的,都支持用计算的方法进行科学研究,但是二者的区别更值得重视。其区别不仅体现在超算与智算在处理器芯片、计算机体系结构、乃至于系统软件上有大量不同,更重要的是,二者代表着完全不同的认识世界的建模方法。
他表示,传统的 Computing for Science 面向的是用数理方程建模世界的一种科学研究方法,而 AI for Science 面向的是用机器学习建模世界的科学研究方法,二者具有互补性。这也意味着超算和智算融合支持未来的科学研究,前景广阔。
王怀民院士以视频形式进行了分享
同样地,在 25 日的主题论坛中,也有不少专家就「超智融合」带来了精彩分享。例如,在「第六届数值模拟工程应用中的智能超算融合技术论坛中」,中国电力科学研究院有限公司的王轶申聚焦电力应用场景,介绍了电力科学智能计算技术。
他表示,目前的电力系统呈现强不确定性、高维特征、非凸非线性、多时间尺度、复杂时空特性、多目标多约束等特性,电力系统计算面临系统分析规模海量增长、方式组合多样化海量化、精细化建模难度大、安全机理复杂、控制对象及变量高维拓展等主要挑战。
针对于此,电力科学智能计算应运而生,能够弥补传统数理方法与通用 AI 技术的不足, 例如 AI 技术依赖训练环境及样本、泛化性与拓展性弱,且可解释性屡被诟病,而机理数据相融合的电力科学智能计算则具备诸多优势,例如提升了分析决策的计算效率,提升了模型精细化表征能力,同时还提升了算法适应性与泛化能力等等。
算力与网络融合
如今,摩尔定律逐渐进入瓶颈,单芯片的算力提升空间越来越窄,成本越来越高,所以,盘活现有的算力资源至关重要。而这便是「算力网络」的优势——为用户提供最适合的算力资源服务,即算力类型匹配,算力规模合适,算力性价比最优。在这个过程中,算力网将离散的算力连接起来,由「算」来生产算力,由「网」来连接算力。
可以说,算力网的定位应当是智能时代的基础设施,应该像浏览器、微信一样实现全民普及应用。 而一项新技术要普及,一定要有「杀手级」应用。从现在来看,AIPC 和 AI 手机可能会成为在全民中普及的智能化个人助理,将来也许就会形成算力网络真实的需求。让算力通过网络服务更多的人,让广大用户从算力网中得到实际的好处,才能让算力网快速发展起来。
中国工程院院士、中国科学院计算技术研究所研究员李国杰提出, 现在不同的单位都在算力网方面做了不同的努力,运营商主攻云网融合,地方政府建设算力枢纽中心,计算机界的重点是分布式计算的基础研究,需要将这些研究形成合力。
李国杰院士在主题为「关于算力网的元思考」的报告中表示,大模型预训练是目前对算力的主要需求,但广域分布式计算并不适合做大模型的训练,依靠多个小的智算中心,通过分布式计算来训练大模型未必是出路。算力网研究需要有与网页类似的核心抽象,将「超链接」发展为「超任务」。 理论上的抽象不是性能的渐进式改善或 SOTA 刷榜,而是首先要取得定性研究的突破。
科研范式升级,并非替代而是相辅相成
国防科技大学副研究员冯大为在其演讲中分享道,科学研究经历了 5 种范式,包括基于观察和归纳的经验科学,以孟德尔、拉瓦锡等科学家为代表,基于假设与逻辑演绎的理论科学,以牛顿、爱因斯坦等科学家为代表,到 1950 年代,出现了通过计算机对复杂现象进行仿真的第三种科研方式,分子动力学仿真是其中的典型代表。
2000 年之后,由于互联网和云计算的发展,催生了大数据驱动的科学研究范式,主要强调数据的管理、共享和挖掘。2020 年之后,随着人工智能技术,特别是 AlphaFold 系列、GPT 系列大模型的发展,出现了人工智能驱动的科学研究范式。
冯大为提出,这些科研方法之间不是替代的关系,而是相辅相成,共同推动科学研究的发展。
关于 CCF HPC China
CCF HPC China 创办于 2005 年,今年正是其第 20 届盛会。如今,CCF HPC China 已成为与美国 SC 超算大会、德国 ISC 超算大会并驾齐驱的高性能计算领域全球最具影响力的三大超算盛会之一。20 年来,中国计算机学会高性能计算专业委员会(以下简称「高专委」)通过 CCF HPC China 这样一个学术平台,为学术界与产业界,同时也为高性能计算的用户与国外学术同行,搭建了一个专业、高端、广泛的交流平台,有效促进了中国高性能计算机事业的快速发展。
2024 年,中国高性能计算迎来深研人工智能与新质生产力和算力产业间紧密关系的重要契机。作为一届继往开来的行业顶级盛会,CCF HPC China 致力于通过广泛交流与合作,为行业开疆拓土增添新势能。
HyperAI超神经以官方合作社区的身份深度参与了 CCF HPC China 2024,后续还将持续为大家分享顶尖学者与行业专家的干货演讲与前沿观点,敬请期待!