击败全球 No.1 系统、覆盖 80+ 国家，谷歌洪水预测模型再登 Nature

《尚书·尧典》中记载：「汤汤洪水方割，荡荡怀山襄陵，浩浩滔天，下民其咨。」尧舜时代，洪水泛滥让百姓苦不堪言，尧舜决定找人治理洪水，鲧最初受命但未成功，后大禹继承父业再度治水，于是就有了「大禹治水十三载，三过家门而不入」的传说。
2023 年 7 月，一场由台风「杜苏芮」引发的罕见特大暴雨袭击北京市，大清河流域出现破纪录的洪峰流量。据人民网报道，本次洪涝灾害造成北京超 129 万人受灾，房屋倒塌超 5.9 万间、严重损坏超 14.7 万间，农作物受灾面积达 22.5 万多亩。
在这里插入图片描述
图源：中国新闻社

从古至今，人类在面对洪水这样的自然灾害时，往往处于弱势地位。谷歌研究科学家 Grey Nearing 曾在其论文中表明，一个有效的洪水预报系统能够将相关死亡人数减少 43%，经济损失降低 35%-50%。可见，建立洪水预报系统是人类应对洪水灾害的一种重要手段。

当前的全球洪水预报系统大多依赖沿河设立的观测站，受限于部署成本，低收入和中等收入国家的流量计安装量往往较低，导致该类国家在洪灾来临时难以提前做好应对措施。据 World Bank 估计，若将发展中国家的洪水预报系统提升至发达国家水平，每年将有望拯救约 2.3 万人的生命。针对无测站流域建立洪水预报系统已迫在眉睫。
幸运的是，随着科技的发展，人工智能 (AI) 在洪水领域的应用为无测站流域的洪水防御带来了希望。来自 Google Research 的 Grey Nearing 及其团队开发了一个基于机器学习的河流预报模型 (river forecast model)，该模型能够提前 5 天实现对洪水的可靠预测，在对 5 年一遇的洪水事件进行预测时，性能优于或相当于目前预测 1 年一遇的洪水事件，系统可覆盖 80 多个国家。

研究亮点：

河流预报模型的预测能力优于目前全球最先进洪水预报系统 GloFAS 为未测量流域的洪水预警提供更好的支持

论文地址：
https://www.nature.com/articl...
数据集下载地址：
https://hyper.ai/datasets/30647
关注公众号，后台回复「洪水预报系统」获取完整 PDF

数据集：来自 5,680 个流域

该研究的完整数据集包括来自 5,680 个流域的模型输入和（径流）目标值，研究人员基于这 5,680 个流量监测站进行模型的训练和测试。
在这里插入图片描述
用于训练模型的5,680径流监测站位置

本研究使用 3 种类型的公开数据作为输入，主要来源于政府：

代表地理和地球物理变量的静态流域数据来自 HydroATLAS project，包括长期气候指标（降水、温度、雪覆盖率）、土地覆盖以及人为属性等。

历史气象时间序列数据： 来自 NASA IMERG, NOAA CPC Global Unified Gauge-Based Analysis of Daily Precipitation 和 ECMWF ERA5-land reanalysis。变量包括每日总降水量、气温、热辐射、降雪量和地表压力等。

七天预报范围内预测气象的时间序列数据： 这些数据来自 ECMWF HRES atmospheric model，气象变量与上述相同。

模型架构：基于 LSTM 构建河流预报模型

在这里插入图片描述

基于 LSTM 的河流预报模型架构
该研究依次利用两个应用的长短期记忆网络 (LSTM) 构建河流预报模型，其核心是编码器-解码器机制 (encoder–decoder model)。其中 Hindcast LSTM 接收历史天气数据，Forecast LSTM 接收预报天气数据，模型的输出是每个预测时间步的概率分布参数，它代表了对特定河流在特定时间容积流量的概率预测。

此外，研究人员在 50,000 个小批量 (minibatches) 上对该模型进行训练，所有输入数据预先进行了标准化处理。为增强模型的学习能力，研究人员为编码器 (encoder) 和解码器 (decoder) LSTM 设置了单元状态 (cell state) 为 256 的隐藏层节点数 (hidden size)，以及 linear-cell-state transfer network 和 nonlinear hidden-state transfer network。

模型优化：交叉验证减少预测误差

研究人员采用交叉验证在 5,680 个流量计上训练并在样本外测试河流预报模型，确保模型的泛化能力得到有效评估，提高预测可靠性。

首先，在时间维度上，设计交叉验证折叠，任何监测站在一年内的测试数据都不得与其所使用的训练数据重叠。在空间维度上，采用 k 折交叉验证 (k = 10)，将数据在空间维度上均匀分割。重复执行这两个交叉验证过程，避免训练和测试之间的数据泄露。

其次，为进一步考察模型在不同地理区域和环境条件下的表现，研究人员还进行了更多类型的交叉验证实验，包括但不限于：按照各大洲 (k = 6)、不同气候带 (k = 13) 、水文分离的流域群体 (k = 8) 等进行非随机空间分割。

k 折交叉验证：将数据集分成 k 个子集，其中 1 个子集用于验证，剩余 k-1 个子集用于训练。重复 k 次交叉验证，每个子集验证 1 次，平均 k 次的结果得到模型的最终评估。

实验结论：性能优于全球现有最先进的洪水预报系统

为了评估洪水事件预测的可靠性，研究人员将河流预报模型与全球现有最先进的洪水预报系统 GloFAS (Global Flood Awareness System) 进行对比分析。
在这里插入图片描述

河流预报模型与GloFAS模型在即时预测下

预测2年重现期事件的F1 scores得分差异

红色表示差异值在 -0.2-0 之间绿色表示差异值在 0-0.2 之间
第一，研究人员分析了 1984 年-2021 年间，河流预报模型与 GloFAS 模型在即时预测下，预测 2 年重现期事件的 F1 scores 得分差异分布。
结果表明，河流预报模型在 70% 监测站（共计 3,673 个）上的表现优于 GloFAS 模型。

即时预测下

不同重现期事件的精确度和召回率分布情况

蓝色虚线为参照基准线
N 为监测站的数量

第二，研究人员分析了即时预测下，不同重现期事件的精确度和召回率分布情况。

结果表明，河流预报模型在预测所有的重现期事件中表现出更高的可靠性。对于预测极端事件的精确度，河流预报模型在 5 年重现期上与 GloFAS 在 1 年重现期上无显著差异，而召回率高于 GloFAS。这说明，河流预报模型预测 5 年重现期事件的准确性优于或相当于 GloFAS 预测 1 年重现期事件的准确性，即其预测更长重现期洪水事件的可靠性优于目前最先进模型预测 1 年重现期洪水事件。重现期：某个洪峰流量是多少年一遇，其中的多少年就是重现期。重现期越长，洪水的量级越大，重现期越短，洪水就越小。

在这里插入图片描述

提前0-7天预测时，不同重现期事件的F1 scores分布蓝色虚线为参照基准线

第三，研究人员分析了提前 0-7 天预测时，不同重现期事件的 F1 scores 分布。

结果表明，对于预测 1 年 (a)、2 年 (b)、5 年 (c) 和 10 年 (d) 重现期事件，河流预报模型在最多提前 5 天的情况下，其 F1 scores 要么高于 GloFAS 的即时预测，要么无显著差异。这说明，河流预报模型在提前 5 天的时间内，洪水预报能力优于或相当 GloFAS。

在这里插入图片描述

不同地理位置和重现期的 F1 scores

第四，研究人员分析了 F1 scores 在预测不同地理位置和重现期事件时的分布情况。

结果表明，这两种模型在不同地理位置的可靠性存在显著差异。 此外，在预测 1 年 (a)、2 年 (b)、5 年 (c) 和 10 年 (d) 重现期事件中，河流预报模型在不同地理位置上的 F1 scores 与 GloFAS 相比均较高或无显著差异。

从欧洲 EFAS 到中国新安江模型，AI 已成智能防线

其实早在 2021 年，谷歌在「Inventors@Google」活动上展示其 AI 技术的研究成果时，便已经提到了基于机器学习的洪水预报系统 Google Flood Hub，当时该系统主要适用于印度，是通过可视化的方式让当地人民了解洪水情况。经过三年的发展，谷歌的最新洪水预报系统已经可以扩展到其他无测站流域地区，覆盖超过 80 个国家。
与之类似的还有欧洲洪水感知系统 (EFAS)，该系统利用先进的气象预报和水文学模型，结合机器学习算法，至少提前十天对整个欧洲进行可靠的洪水预测，并向成员国的国家及地方洪水中心发送正确的早期预警。
此外，作为洪水频发的国家之一，我国约有 2/3 的国土存在不同程度的洪水风险。据统计，1991 年至 2020 年间，我国因洪涝灾害导致的年均死亡或失踪人口超 2 千，累计死亡人数超 6 万，年均直接经济损失约 1,604 亿元。
在这里插入图片描述

图源：中国地图
面对洪水危害，我国自主研发的新安江模型，基于长期实践积累和对水文规律的深入学习，将全流域划分为多个单元子流域，并考虑地形、土壤、植被等因素对水文过程的影响，提供准确的水文预测结果，被广泛应用于防洪减灾等。
事实上，人类从未停止探索更加有效的洪水防御措施，尽管无法从根本上消除洪灾，但通过先进的洪水预报系统，提前预知灾害并采取措施，可以很大限度减少洪灾对人类社会的负面影响。如今，基于 AI 技术构建的洪水预报系统已不再局限于某个特定区域，或许也将在未来覆盖全球，保护更多市民免于洪水危害。

参考资料：
1. http://bj.people.com.cn/n2/20...
2. https://www.sohu.com/a/766008...
3. https://www.sohu.com/a/745381...
4. https://european-flood.emerge...
5. https://developer.baidu.com/a...
6. https://blog.research.google/...
7. https://m.jiemian.com/article...

数据集：来自 5,680 个流域

模型架构：基于 LSTM 构建河流预报模型

模型优化：交叉验证减少预测误差

实验结论：性能优于全球现有最先进的洪水预报系统

从欧洲 EFAS 到中国新安江模型，AI 已成智能防线

推荐阅读

超神经HyperAI

目录