鲸鱼声音识别对于保护海洋生态具有重要意义,科学家可以通过分析鲸鱼的声音,了解其种类、迁徙路线、繁殖习惯和社会结构,从而制定更加有效的保护政策。
然而,鲸鱼声音识别并非易事。 首先,目前全世界已知的鲸鱼种类超过 94 种,且声学频率范围极为广泛,从蓝鲸低至 10 赫兹的声波到齿鲸高达 120 千赫的频率都被包含在内。其次,即便是同一种鲸鱼的录音也会随地点和时间的不同而存在显著差异,这进一步增加了模型开发的难度。最后,研究人员对某些稀有鲸鱼的声学特征了解十分有限,因此无法精准区分不同鲸鱼种类的声音。
针对于此,Google Research 团队开发一种新的鲸鱼生物声学模型。该模型可以识别目前已知的 94 种鲸鱼种类中的 8 个不同的物种。 其中包括座头鲸、虎鲸、蓝鲸、长须鲸、小须鲸、布氏鲸、北大西洋露脊鲸和北太平洋露脊鲸。研究人员还将模型扩展到 Biotwang,并用它来标记超过 20 万小时的水下录音的数据。
相关研究以「Whistles, songs, boings, and biotwangs: Recognizing whale vocalizations with AI」为题,发表在 Google Research 官网上。
研究亮点:
- 可识别 94 种鲸类中的 8 个不同的物种,其中包括 2 个物种的多种叫声
- 收录了最近刚被确认为是布氏鲸叫声的 Biotwang 的声音
- 模型可以通过 TensorFlow SavedModel API 进行单独调用
论文地址:
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
数据集:建立 4 种新的鲸鱼叫声数据集,涵盖了约 94 种鲸类中的 8 种
研究人员在现有鲸鱼叫声识别的数据基础上,又建立了4 种新的鲸鱼叫声数据集, 具体包括小须鲸的「boing」声、北太平洋露脊鲸「上升呼叫声」(upcalls) 和「枪击」(gunshot) 呼叫声、蓝鲸和长须鲸的呼叫声。
小须鲸的「boing」声
几十年前收录的、带有神秘色彩的 Biotwang 的声音,此前一直都未确定是由哪种鲸类产生的。直到最近,美国国家海洋和大气管理局 (NOAA) 的最新研究成果指出,该声音由布氏鲸 (Bryde’s whale) 产生。
而小须鲸 (Minke whale) 发声被记录的时间比布氏鲸的发声更久远,可以追溯到 20 世纪 50 年代的潜艇录音。一直到 2005 年,NOAA 的科学家们才将这种特定的声音归因于小须鲸。
研究人员最初从太平洋岛屿渔业科学中心 (PIFSC) 获得的标签集,并不包括这种被称为「boing」的声音。因此,谷歌研究人员利用这些数据进行初始模型训练时,模型将这种声音识别为一个错误的模式。随后研究人员对这些新发现的声音进行深入研究。最终使得小须鲸的声音得以被准确识别,并被纳入到多物种识别模型中。
小须鲸「boing」的频谱图
北太平洋露脊鲸「上升呼叫声」和「枪击」呼叫声
北太平洋露脊鲸 (North Pacific Right Whale,NPRW) 作为一种极为濒危的鲸类,主要分布在北太平洋的水域。北太平洋露脊鲸曾经因捕鲸活动几乎被捕杀殆尽,目前仅存的种群数量非常少。据估计,露脊鲸的东部种群只有 30-35 头。
同时,北太平洋露脊鲸种群是已知唯一会 「唱歌 」的露脊鲸种群。虽然「上升呼叫」的声音可能来自露脊鲸、弓头鲸甚至座头鲸,但可以通过北太平洋露脊鲸独特的「枪击」叫声来进行区分。
北太平洋露脊鲸「上升呼叫」的频谱图
北太平洋露脊鲸「枪击」的频谱图
蓝鲸和长须鲸的声音标签
研究人员表示,在与太平洋岛屿渔业科学中心 (PIFSC) 最初合作开发座头鲸模型之前,PIFSC 已经对他们的部分数据进行了标注,识别出了蓝鲸 (Blue Whale) 和长须鲸 (Fin Whale) 的存在。这些鲸类不仅生活在夏威夷群岛周围,也广泛分布在世界各大洋的远洋水域。
在这项研究中,研究人员特别关注了蒙特雷湾水族馆研究所 (MBARI) 管理的 MARS 水听器收集的数据。然而,由于没有 MARS 数据的基准标签,所以研究人员在 PIFSC 的数据基础上,训练了一个专门用于识别蓝鲸和长须鲸的模型,并用它来为 MBARI 的数据生成伪标签 (pseudo-labels)。
太平洋中部蓝鲸的叫声频谱图
长须鲸叫声的频谱图
模型架构:基于原始音频,对频谱图进行分类
研究人员指出,模型首先将原始音频数据转换为频谱图的图像数据,来表示每 5 秒的声音片段。模型的前端使用梅尔尺度的频率轴 (mel-scaled frequency axis),压缩数振幅 (log amplitude compression),并减去每个频带的 5%-ile 对数振幅进行归一化。最后,模型将这些图像分类为 12 种鲸类物种或发声类型中的任意一种。
此外,该模型可以通过 TensorFlow 的 SavedModel API 独立调用。 这意味着,我们不仅可以利用这个模型来识别模型训练时包含的物种和声音,还可以使用这个模型的预训练嵌入来搜索、识别新的声音或鲸类物种,并迅速构建相应的分类器。
模型测试:模型对每个类别都有很好的区分性能
长期的被动声学监测不仅需要对物种进行正确的分类,还需要正确剔除背景和非动物声音事件。因此,研究人员并未将训练局限于正面标签 (positive labels),还从其他合作机构提供的录音中广泛抽取了负面数据 (negative labels) 和背景数据。
为了验证模型,研究人员从可用训练数据中随机选择了 20% 的统一子集作为测试集。 下图描述了模型在不同物种测试集上的表现。
- AUC (ROC) 的高值表示模型能够很好地区分正面标签和负面标签。
- 灵敏度 (Sensitivity) @ 0.99 表示实际正面标签分类结果中得分高于阈值的部分,该阈值可排除 99% 的真实负面标签。
- 精确 (Precision) @ 0.5 表示在合理的灵敏度阈值(低于真实正面标签分类结果的 50%)下正确预测物种的比例。
不同物种测试集上的模型性能
总体而言,模型能够对座头鲸、虎鲸 、蓝鲸、长须鲸、小须鲸、布氏鲸、北大西洋露脊鲸 (NARW) 和北太平洋露脊鲸 (NPRW) 共 8 种鲸鱼中的任意类别进行精准的识别。 对于小须鲸、北太平洋露脊鲸 、北大西洋露脊鲸和布氏鲸这些类别,所有 3 个指标的值都接近 1,展示了模型的优异性能,在假正面标签和假负面标签之间进行的权衡较少。而对于虎鲸的回声定位 (echolocation) 和口哨声 (whistles),这种权衡更为明显。
融汇 AI 与机器学习技术,为海洋生物保护贡献力量
Google Research 最新成果的发布,对于理解甚至实现跨物种交流具有重要意义。 Google DeepMind 、Google Research 首席科学家 Jeff Dean 在社交平台表示:「人类语言 LLM 已经过时了。我们都应该为这项工作突破感到兴奋!」
一位专注于数据科学的高级经理也表示:「终于可以解读海底鲸鱼的八卦了!迫不及待地想知道它们是在谈论最新的磷虾趋势还是在争论最佳的海底热点!」
还有网友认为「这是朝着能够与地球上其他物种进行交流迈出的重要一步,具有里程碑的意义!」
为了帮助科学家更好地理解鲸鱼的交流方式,Google 从 2018 年就开始探索如何利用 AI 和机器学习技术来分析和识别鲸鱼的声音,从而实现保护更多海洋濒危物种、维护健康的海洋生态系统的美好愿景。
2018 年,Google Research 与美国国家海洋和大气管理局 (NOAA) 的太平洋岛屿渔业科学中心 (PIFSC) 合作, 开发了一种基于卷积神经网络、用于检测座头鲸叫声的分类模型,正式开启了鲸鱼声波分类研究。
该模型被用来识别 NOAA 收集的超过 187,000 小时的音频中的座头鲸叫声,确认了座头鲸歌曲的时空模式,并在之前未观察到座头鲸声音的金曼礁发现了一个新地点。
论文地址:
https://research.google/blog/acoustic-detection-of-humpback-whales-using-a-convolutional-neural-network/
2019 年,研究人员与 Google Creative Lab 合作,在该模型的基础上推出了一个互动可视化工具「Pattern Radio」, 展示了在夏威夷附近收集的关于鲸鱼一整年水下音频数据。
该模型对这些音频进行了标注,部分数据还附有一些专家的额外见解,研究人员可以更准确地分析鲸鱼的声音模式,尤其是座头鲸的鸣唱。
Pattern Radio 工具地址:
https://patternradio.withgoogle.com/
其实,除 Google 之外,CETI 也长期致力于鲸鱼叫声研究。 今年 5 月份, CETI 与麻省理工学院研究人员一起合作,使用机器学习对抹香鲸的录音进行了分析,证实了抹香鲸发出的声音具有结构性,并且分离出了抹香鲸发音字母表,发现与人类语言表达系统高度类似。
点击链接查看详细报道:麻省理工/ CETI 团队用机器学习技术分离出抹香鲸发音字母表!高度类似人类语言系统,信息承载能力更强!
随着研究的不断深入,一种全新的跨物种沟通方式或将成为现实。这一前景将不仅改变我们对海洋生物的认知,还有望重新定义人类与自然的关系,开创一个人与动物和谐共处的新时代。