本文首发自 HyperAI超神经微信公众号~
内容一览：近日，英国生态学会期刊《Methods in Ecology and Evolution》上发布了一个新的预测模型 BirdFlow，其能够解决生物学目前最困难的挑战之一：准确预测候鸟的运动轨迹。虽然该模型目前仍在完善中，但研究人员称能够在一年之内向公众开放，并投入使用。本文是对这项研究的介绍和解读。
关键词：BirdFlow 自然保护概率模型

鸟类迁徙是一个令人着迷的自然现象。据了解，世界上近五分之一的鸟类会因繁殖和越冬而进行定期的迁徙。在生态学中，研究鸟类迁徙路线等生态规律，对保护濒危鸟种、维护生态平衡、防止流行病的传播等具有重要意义。

近年来，由于全球气候变化以及人类活动等因素的影响，预测鸟类迁徙变得更加困难。近期，马萨诸塞州立大学阿姆赫斯特分校的研究生 Miguel Fuentes 和康奈尔大学的 Benjamin M. Van Doren 等在《Methods in Ecology and Evolution》期刊上发表了一个新的概率模型 BirdFlow，该模型利用计算机建模和 eBird 数据集来准确预测候鸟的飞行路径。

本研究成果发表在《Methods in Ecology and Evolution》
论文地址：

https://besjournals.onlinelib...

研究人员利用 eBird Status & Trends project 产生的相对丰度估计 (abundance esitimates) 来模拟鸟类移动，不过其中也有一个问题，过往相对丰度信息只能显示出每周鸟类的位置范围，并不能追踪个体。因此在本次研究中，研究人员重点解决了这个问题，关键流程如下图所示：

图 1：数据准备和建模过程

Data Preprocessing：预处理相对丰度估计以产生每周的种群分布；
loss function：指定一个损失函数，使用每周分布以及能量成本的代理对潜在的模型进行评分；
Model Structure：选择一个模型结构；
Trained Model：通过数值过程优化损失函数以选择最佳的模型参数；
Validation：计算真实鸟类的平均对数似然和 PIT 值，来验证训练后的模型。

BirdFlow 建模概览

研究人员使用 ebird R 从 eBird Status & Trends 中下载了 11 种鸟类的相对丰度估计值，并且这 11 种鸟类还有可用的 GPS 或卫星跟踪数据。

eBird Status and Trends：

https://science.ebird.org/zh-...

表 1：使用的 11 种鸟类的 GPS 跟踪数据

下一步，研究人员定义了一个损失函数，该损失函数基于从 eBird Status＆Trends 中导出每周种群分布、鸟类在不同位置之间的运动能量成本以及熵正则化项。

在对损失函数优化前，需要先指定一个模型结构，这里研究人员证明了优化过程只限制在马尔科夫链 (Markov chains) 上搜索是合理的。因此，他们将鸟类的运动建模为马尔可夫模型，并进行优化，包括使用马尔可夫链参量化和优化算法。

经过以上步骤，研究人员获得了一个训练后的模型，并对其进行了相关验证。

BirdFlow 验证过程

验证过程分为三部分，分别为超参数网格搜索 (Hyperparameter grid search)、熵校正 (Entropy calibration)、K-周预测 (k-week forecasting)，具体过程及试验结果如下。

超参数网格搜索

验证模型阶段，研究人员执行了一个超参数网格搜索，并用搜索结果研究了两个问题。

第一，研究人员通过一个消融研究，探究了熵正则化项和距离指数对模型质量的影响。消融研究结果如下图，可以看到所有的 BirdFlow 模型表现的都比只包含鸟类相对丰度的基准模型要好。

图 2：模型类型消融研究

第二，研究人员通过两种超参数选择方法探究了模型对超参数选择的敏感性。试验结果如下图所示，对大多数鸟类来说，使用 LOO 参数（其他鸟类的验证跟踪数据选择）的模型与使用 tuned 参数（使用该鸟类的验证跟踪数据）的模型表现一样好。其中，性能是以 1 周过渡的平均对数似然 (log-likelihood) 来衡量的。

图 3：参数敏感性

熵校正

下图展示了熵正则化对模型校准的影响。在不同熵权重下，5 个版本的丘鹬模型 (American Woodcock model) 的随机概率积分变换 (PIT) 直方图显示了训练模型对丘鹬一周的东西方位预测情况。

可以看到，直方图几乎一致，表明模型的校准表现良好。

图 4：熵正则化对模型校准的影响

k-周预测

图 5 和图 6 展示了不同预测时间（以周为单位）下的模型性能。研究人员从超参数网格搜索中确定了表现最佳的模型，并评估了从 1 到 17 周，此最佳模型相对基准模型的表现。

图 5(a) 显示了每种鸟类的结果。可以看到，随着时间的增加，各个鸟类最佳模型的表现能力越来越接近基准模型。图 5(b) 显示了丘鹬 tuned 模型、LOO 模型和基准模型的差距对比。可以看到，预测时间内，tuned 模型、LOO 模型表现能力得都比基准模型好。

图 5：预测性能图

图 6：小丘鹬模型推理结果

经过以上试验，研究人员发现 BirdFlow 能利用 eBird 的每周相对丰度估计准确推断出个别鸟类的迁徙路径，而且结果显示，BirdFlow 预测的结果远比基准模型要好得多。

基于这个成果，研究人员认为除了探究鸟类迁徙这个自然现象外，BirdFlow 模型或许还能够用于其他现象的研究，例如鸟类的中途停留行为及其应对全球变化的反应。

然而，尽管 BirdFlow 模型取得了一系列成果，但北美和欧洲一些研究员则对其使用 eBird 数据库表示质疑，他们认为用观鸟作为收集数据方法并不严谨。对此，BirdFlow 研究人员表示，该团队正在考虑整合进更多数据，比如卫星或 GPS 跟踪鸟类位置的数据。

AI 或将成为自然保护神

BirdFlow 模型的出现，意味着人类在鸟类迁徙相关研究上，开辟出了机器学习这一捷径。尽管仍处于早期阶段，距离自然保护等落地应用也还有一定距离，但这项研究无疑透露出一个重要趋势，AI 正在被广泛应用于自然保护领域。

卡内基梅隆大学研究人员开发的 PAWS，能为警察生成一个针对偷猎者们巡逻的路线；康纳尔大学开发的 Merlin 能根据鸟类的歌声和图像识别物种；而 Resolve 开发的 TrailGuard AI 则能够通过识别可疑偷猎者的图像、发出警报的方式保护野生动物。

自然生态系统对人类的重要性不言而喻，保护生态系统也迫在眉睫，而随着时间的推移，AI 又会扮演怎样的新角色？欢迎大家发散思维，评论区讨论。

借助计算机建模及 eBird 数据集，马萨诸塞大学成功预测鸟类迁徙

BirdFlow 建模概览

BirdFlow 验证过程

超参数网格搜索

熵校正

k-周预测

AI 或将成为自然保护神

推荐阅读

目录