麻省理工/ CETI 团队用机器学习技术分离出抹香鲸发音字母表！高度类似人类语言系统！

在海洋生态学研究中，生物声学是人们获取海洋生物信息的重要途径。顾名思义，生物声学主要是对动物声音的生成、传播与接收进行研究。 随着技术的发展，科研人员目前已经能够通过解码动物发声，了解其物种、性别、个体标识或健康情况。

然而，传统的生物声学在进行种群监测时，需要耗费大量的人力来处理和分析现场录音，耗时且成本高。AI 在声音识别方面的突破为这一挑战提供了理想解决方案。机器学习凭借其自动化处理与自我学习能力，已经在生物声学领域大展拳脚。

如今，机器学习分析海洋生物发声已实现了成熟应用。而在一众海洋生物中，鲸鱼、海豚等鲸目动物具有复杂的社会行为特征与合作行为特征，与人类社会高度相似，具有极高的研究价值。

其中，抹香鲸由于与人类社会高度类似的语言系统而成为被研究的重点。

抹香鲸作为高度社会化的哺乳动物，以家庭为生活单位，社会结构错综复杂。 为了进行群体决策，它们大部分时间通过发出连续的「咔嗒」声来进行交流，其交流的时间可能只有短短 10 秒，也可能持续半小时以上。虽然它们的交流系统看似简单，但却能实现一系列复杂的协调行为，这两者之间的反差成为科研人员想要破解的「谜题」。此前大量的研究已经证明抹香鲸的发声具有复杂性，但对于其尾声的具体特征和结构仍然是未知的。

针对于此，麻省理工学院 Pratyusha Sharma 以及 CETI 的研究者使用机器学习对抹香鲸的录音进行了分析，证实了抹香鲸发出的声音具有结构性，由不同特征组合形成，还通过机器学习技术分离出了抹香鲸发音字母表，发现其语言表达系统与人类高度类似，且信息承载更强。

相关研究以「Contextual and combinatorial structure in sperm whale vocalisations」为题，发表在 Nature Communications 上。

研究亮点：

本研究利用目前最大的抹香鲸数据库多米尼克抹香鲸项目 (DSWP) 中的数据，分析了来自东加勒比抹香鲸部族的约 60 头不同抹香鲸的 8,719 条尾声记录，定义了「抹香鲸发音字母表」
抹香鲸的语言具有组合结构性，即其可以组合和调节不同的「咔嗒」声与节奏，以创造出复杂的发声，与人类的语言具有高度类似性

在这里插入图片描述

论文地址：
https://www.nature.com/articles/s41467-024-47221-8

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：
https://github.com/hyperai/awesome-ai4s

数据集：数据量大，时间跨度长

本研究所用的数据集来自多米尼克抹香鲸项目 (DSWP)，这是当前最大的抹香鲸数据存储库。 研究成员在分析中使用了来自东加勒比抹香鲸部族 (EC-1) 的 60 头不同抹香鲸的录音，这些录音共包括 8,719 个尾声数据。

值得一提的是，该数据集不仅包含了 2005-2018 年间，从各种平台和记录系统中手动标注的尾声数据；还包括 2014-2018 年间，从抹香鲸身上吸附的传感器 (DTags) 中记录的数据。

抹香鲸尾声具有丰富的组合特征

为了清晰地观察抹香鲸在交流过程中尾声的变化以及长期趋势，研究人员使用可视化的方式来描述这些声音。如下图所示：图 A 显示了 DSWP 数据集中，两只鲸鱼在 2 分钟内的交流尾声图，鲸鱼发出的尾声分别用蓝色和橙色表示。

在这里插入图片描述

抹香鲸信息交换图

紧接着，研究人员将这些尾声投射到 time–time plot 上，观察 2 分钟内抹香鲸的尾声变化。如图 B、图 C 所示，其中横轴表示抹香鲸自交流开始经过的时间，纵轴表示自尾声开始以来的时间。在图 C 中，研究人员还将相邻尾声之间的匹配点击 (click) 进行了连接。可以看到，在交流过程中，尾声在持续时间内平稳变化，并且还出现了额外的点击声，揭示了尾声结构中复杂的、语境性的变化，说明了抹香鲸具有比此前研究中所报道的更大的信息承载能力。

此前，人们认为抹香鲸的尾音共有 21 种独立的类型。而本次研究表明，不同的尾音类型均是由两个与语境无关的特征 (Tempo 和 Rhythm) 和两个与语境相关的特征 (Rubato 和 Ornamentation) 构成。

如下图所示，研究人员将持续时间内分布在一组有限模式中的尾音特征命名为节奏 (Tempo)。其中，左图揭示了抹香鲸尾音的总持续时间是其点击间距的总和；右图则显示了不同节奏类型的尾音变化。

在这里插入图片描述

抹香鲸尾声产生的组合特征图-Tempo

在图 B 中，研究人员用总时长对 ICI 向量进行归一化处理，得到与时长无关的尾声表示，将其命名为韵律 (Rhythm)。

在这里插入图片描述

抹香鲸尾声产生的组合特征图-Rhythm

在图 C 中，研究人员把抹香鲸在连续的尾声中，缓慢调节尾声的持续时间，称为震颤 (Rubato)，并且指出震颤是渐进的，即在抹香鲸交流中相邻的尾声比其他地方同类型尾声的持续时间更接近。

在这里插入图片描述

抹香鲸尾声产生的组合特征图-Rubato

在图 D 中，研究人员将抹香鲸尾声中的最后一次点击定义为装饰音 (Ornamentation) 。装饰音并不是随机分布的，而是在较长的交流中出现在特定的位置。
研究发现，(1) 在单只鲸鱼的叫声序列中，装饰音音序在叫声序列开始时出现的比例，显著高于无装饰音音序；(2) 装饰音音序在呼叫序列结束时出现的比例，也显著高于无装饰音音序。

在这里插入图片描述

抹香鲸尾声产生的组合特征图-Ornamentation

研究人员指出，所有这 4 种特征都能被参与发声交流的鲸鱼感知接收，并采取相应行动，因此它们构成了鲸鱼交流系统的有意识组成部分。节奏、韵律、震颤和装饰音可以自由组合，从而使鲸鱼能够系统地合成大量可区分的尾声。

研究结果：与人类语言库高度类似的抹香鲸发音字母表

通过上述可视化的分析，研究人员用机器学习的方法分离出了抹香鲸发音字母表，与人类语言库高度类似。 如下图所示：

在这里插入图片描述

抹香鲸发音字母表

其中横轴表示尾声韵律类型，竖轴表示尾声节奏类型，每个单元格的颜色表示该节奏/韵律组合在 DSWP 数据集中出现的次数。每个单元格中的饼图提供了关于每种特征组合中，震颤和装饰音在尾音中组合使用的程度：左侧饼图显示了带有震颤尾声与不带震颤的尾声的比例，而右侧饼图显示了所有装饰音在该特征组合中出现的比例。

研究人员指出：虽然并非所有的尾声特征都进行了组合，但抹香鲸尾声丰富的组合结构具有离散和连续参数，其中至少有 143 种组合经常在尾声中组合出现，远超于此前确定的 21 种离散的尾声类型。

Project CETI ：致力于用机器学习，实现跨物种对话

此次与麻省理工合作的 CETI 组织在抹香鲸尾声研究方面具有较高的话语权。CETI 是一个非盈利组织，应用先进的机器学习和机器人技术，来聆听和翻译抹香鲸交流。 该组织成立于 2020 年，旨在通过理解和翻译抹香鲸的通信系统，从而有效保护其种群。

CETI 团队由世界领先的人工智能和自然语言处理专家、密码学家、语言学家、海洋生物学家、机器人专家以及来自各个大学的水下声学家组成，团队的重点研究区域主要是在东加勒比海的多米尼加，并且所有研究和发现都将是开源的。

除了上文提到的抹香鲸发音字母表，该团队还有许多关于抹香鲸发声的其他研究。

2019 年 8 月 29 日，CETI 在 Scientific Reports 发表题为「Deep Machine Learning Techniques for the Detection and Classification of Sperm Whale Bioacoustics」的研究成果，证明了机器学习 (ML) 技术应用于抹香鲸生物声学的可行性，并确立了构建神经网络来学习鲸鱼发声有意义表征的有效性。
论文地址：
https://www.nature.com/articles/s41598-019-48909-4

2022 年 6 月 17 日，CETI 又在 IScience 上发表「Toward understanding the communication in sperm whales」，重点介绍了抹香鲸交流的记录和分析方法，具体包括以下关键步骤：

记录：从各种传感器收集鲸鱼通信和行为数据的大规模纵向多模态数据集；

处理：协调和处理多传感器数据；

解码：使用机器学习技术，创建鲸鱼通信模型，表征其结构，并将其与行为联系起来；

编码和回放：进行交互式回放实验，并完善鲸鱼语言模型。

在这里插入图片描述