中科院深圳先进院提出 SBeA，基于少样本学习框架进行动物社会行为分析

鸟儿舒展羽翼，狼群拥护在头狼的身边，企鹅共同抚育后代……动物的社会行为背后都有着什么样的含义？繁殖、捕食、防御、建立社会等级的递进，是否揭示了人类一步步进化的过程？

这些问题的研究被称为动物社会行为研究 (animal social behaviour)，该研究精确量化、身份识别和行为分类的特性，有助于揭示大脑功能和精神障碍在交互过程中的作用。同时，动物社会行为研究模型也在人类社会障碍研究中发挥重要作用，而社会障碍则是自闭症、抑郁症以及社交焦虑症等疾病的高度共有病征。

过去，对动物社交行为的研究和理解受到了数据标注不足的限制。尽管如 multi-animal DeepLabCut、SLEAP 和 AlphaTracker 等深度学习技术为数据标注提供了强大的工具，但其在实验场景中的应用却受到高质量基准数据集可用性的限制。现有的多动物姿态估计数据集往往无法覆盖广泛的社交行为测试模型。这限制了研究的广度和深度，因为不同物种或不同环境下的行为可能无法得到充分的考虑。

动物行为研究急需通过技术创新提升研究效率和准确性。基于此，SBeA (Social Behavior Atlas) 应运而生，由中国科学院深圳高新技术研究院开发，能够全面量化自由群居动物的行为，使用较少的标记帧数（约 400 帧）进行多动物三维姿态估计，通过双向迁移学习策略，在多动物身份识别方面的准确率超过 90%。相关成果发表于Nature。

在这里插入图片描述

论文链接：

https://www.nature.com/articl...
关注公众号，回复「SBeA」获取完整论文

SBeA 的两大结构：姿态跟踪和行为映射

为了全面量化自由群居动物的行为， SBeA 的主要工作有姿态跟踪 (3D pose tracking) 和行为映射 (social behavior mapping)。

3D 姿态跟踪：多动物社会行为和身份辨别

在这里插入图片描述

3D 姿态跟踪图解

3D 姿态跟踪过程如上图所示：

首先通过摄像头阵列对两只老鼠进行自由社交行为的视频采集，这一过程分为两个阶段。第一阶段专注于捕捉老鼠之间的自由社交互动，而第二阶段则旨在识别并记录这些互动中每只老鼠的身份，视频采集过程中使用棋盘格图像进行校准。

随后对采集到的多动物轮廓和单个动物姿态进行详细标注，输入多阶段人工神经网络对进行分析，输出结果如图 d 所示，分为三个部分：

AI 输出的视频实例、多动物姿态和多动物身份信息；
结合摄像头校准参数的视频、姿态和身份信息的三维重构；
带有身份信息的三维姿态的可视化展示。

行为映射：时间、空间的低维表征

在这里插入图片描述

社会行为映射图解

社会行为映射的过程如上图所示：

并行分解 (Parallel dynamic decomposition) 两只老鼠的原始三维运动轨迹 (Raw 3D trajectories)，将其分解为 locomotion（如走、跑、跳、爬等形式的物理移动）、non-locomotor movement（不涉及整个身体在空间中位置变化的运动，如摇尾巴、耳朵抖动或身体姿态变化），body distance（两个或多个动物之间的物理距离）。

为了深入了解社会行为模块内特征的分布，将提取出的 3 个轨迹特征转换为空间和时间表征 (spatial and temporal representations)，空间层面通过在 SBeA 中低维嵌入距离特征来捕捉（如图 f 左侧），时间层面通过社会行为图谱表示（如图 f 右侧）。

SBeA的训练：双向迁移学习和非监督式学习

双向迁移学习：不需要标记的多动物身份识别

在动物自由社会行为中，同种动物经常发生遮挡，导致手动标记 (annotations) 身份不精确，为应对这一挑战，研究人员提出在 SBeA 中使用双向迁移学习（下图 a），即已训练好的多动物分割模型可以迁移到单动物视频上，而已训练好的单动物身份识别模型也可以迁移到多动物身份识别上，这大大减少了手动标注动物身份的工作量。

在这里插入图片描述

双向迁移学习图示

使用双向迁移学习的训练方式包括：

分割模型的复用（图 b）：利用摄像头阵列捕捉动物的视频流，使用已训练好的 VisTR (VIS with transformers) 模型进行单个动物视频实例的分割，从多个角度获取数据。
单动物身份识别模型训练（图 c）:对数据进行裁剪、级联和调整图像大小，使用 EfficientNet 作为 backbone 训练多动物身份识别模型。
多动物分割与3D重投影（图 d）：对每个摄像头视角的掩码进行重投影，对这些数据进行裁剪、级联并调整图像大小，输入多动物身份识别模型。
身份识别模型的复用（图 e）：在多动物身份识别中复用已训练好的单动物身份识别模型。

这一过程涉及复杂的图像处理和数据转换，从不同视角、不同情境中提取有效信息，最终预测出动物身份和 3D 姿态的可视化结果。

为了评估 SBeA 的鉴定性能，研究人员记录了上述小鼠的自由社交行为，并对遮罩重投影图像和 3D 姿态逐帧进行了人工验证，结果显示，虽然有些单只小鼠的识别精确度较低，但识别成对小鼠的总体精确度可高于 0.85。

在这里插入图片描述

多动物身份识别的手动验证结果

非监督式学习：揭示社会行为结构

在非监督式学习的应用中，算法不依赖于预先标记或分类的数据，相反，其会试图直接从数据中发现模式和关系。

在此研究中，非监督式学习通过使用动态时间校准核 (dynamic time alignment kernel, DTAK) 来分解行为的动态结构，利用逻辑加法合并分解时点，将连续的姿态轨迹转化为离散的社会行为模块，如下图所示。

在这里插入图片描述

使用 PAIR-R24M 数据集对 SBeA 进行监督验证，结果显示，该研究成功地量化了社会行为模块的聚类性能，SBeA 可以有效的分类社会行为。

在这里插入图片描述

在 PAIR-R24M 数据集上使用 SBeA

SBeA：准确性 + 通用性

SBeA 的准确性：敲除 Shank3B 基因的小鼠行为研究

为探究 SbeA 是否能够检测到来自基因层面的社会行为差异，研究人员利用小鼠进行实验。被敲除 Shank3B 基因的小鼠表现出个体自闭行为，但是现有技术的局限让我们难以完全理解它们异常的自由社会行为。通过 SBeA 分析，研究团队发现基因敲除小鼠 (Shank3B knockout, KO) 与正常小鼠 (wild-type,WT) 在社会行为方面存在显著差异。

实验小鼠共三组：KO-KO、WT-WT、WT-KO。结果如下图所示，WT-WT 组有更灵活的社会行为，KO-KO 组比 WT-WT 组显示更多的异常社会行为，WT-KO 组比 WT-WT 组显示更密切的社会互动。

在这里插入图片描述

三组小鼠的社会行为图示

同时利用 SBeA 识别区分 KO 和 WT 小鼠微妙的社会行为模块 (subtle social behaviour modules)，通过聚类分析，这些模块合并为 9 种主要的社会行为，包括蜷缩不动、探索行为、同伴嗅探和独立梳理等。

在这里插入图片描述

9 种主要社会行为

三组的社会行为如下：

在这里插入图片描述

行为聚类分析

WT-WT 组（绿色）表现出更多的同种异体调节 (allogrooming) 行为和探索 (exploring) 行为，体现了亲社会性 (prosocial)。

KO-KO 组（橙色）表现出较多异常社会行为、较低的运动能力和社交新颖性，这些异常行为可能是反社会 (antisocial) 行为的表征。

WT-KO 组（紫色）中观察到的社会行为主要是同伴嗅探和独立梳理。同伴嗅探在好奇心强的 WT 小鼠中更常见，独立梳理可能是 KO 小鼠对 WT 小鼠的模仿行为。

这一结果表示 SBeA 不仅可以区分基因突变动物的社会行为，还能确定遗传突变相关的微妙社会行为模块。

SBeA 的通用性：不同物种、不同环境下的分析

为评估 SBeA 在不同动物种类和实验设置下的通用性，研究团队利用鸟类和犬类开展研究。

在这里插入图片描述

图 a-d：SBeA 在鸟类的使用

在这里插入图片描述

图 e-h：SBeA 在犬类的使用

为提高 SBeA 的测试难度，实验中动物外观尽可能相似。将鸟类和犬类数据映射到社会行为图谱上，研究识别出鸟类和犬类分别对应的 34 种和 15 种社会行为类别（图 c、g），并在 3D 中可视化了它们的典型案例（图 d、h）。

结果显示，SBeA 对鸟类的 3D 姿态跟踪能识别其爪子触碰尾羽的动作，对犬类的 3D 姿态跟踪能应对卧姿等遮挡情况。

SBeA 的优势：少样本学习框架 (a few-shot learning framework)

2021 年，深圳先进院蔚鹏飞团队历时两年，利用自主研发的行为采集设备，能够获取动物三维立体的运动姿态，并根据动物行为类似语言一样的层次结构，提出了一种层次化动物行为分解模型，将连续、复杂的行为简化为可以被人们理解的动作模块。该研究已在自闭症模型小鼠进行了行为鉴定，成功实现在亚秒级自动精确识别其特征性的行为异常。

本文中的 SBeA 架构正是对 2021 年提出一类通用动物三维行为图谱框架「Behavior Atlas」的进一步拓展，对动物社会行为进行分类。

SBeA 使用的少样本学习框架，仅需要相对较少的手动标注帧来进行多动物3D姿态估计，实现了无标签的身份识别和应用无监督学习进行社会行为分类。这样的数据生成策略减少了对大规模、广泛标注数据集的依赖，进而应用于更大量的未标注数据。

通过迁移学习（利用在大型数据集上预训练的模型，然后对其进行微调，以适应特定任务的小型数据集）、数据增强（裁剪、旋转或颜色调整等技术从现有数据中生成新数据点，以增加训练数据集的大小）等方式开展的少样本学习框架具有强大的潜力，在人工智能研究中正变得越来越受欢迎。

参考资料：
1.https://www.nature.com/articl...
2.https://www.siat.ac.cn/kyjz20...