【NeurIPS 2022】视频动作识别，AFNet 用更低的成本接收更多数据

出品人：Towhee 技术团队顾梦佳

为了避免大量的计算，现有的视频动作识别方法通常会采样几帧来表示每个视频，然而这往往会限制识别的性能。为此，Ample and Focal Network（AFNet）提出两个分支的结构，以用更少的计算量利用更多的视频帧。在减少计算量的前提下，AFNet 依然能借助其中间特征中的动态选择强制执行隐式时序建模，成功实现更高的精度。此外，该方法还可以帮助用更低的成本减少空间冗余。在五个公开的动作检测数据集上进行大量实验，AFNet 证明了其有效性和效率。

Architecture of AFNetAFNet

虽然使用了更多视频帧，但明智地从中提取信息以保持较低的计算成本。具体来说，该方法设计了一个双分支结构，根据视频帧的重要性进行区别对待。另外，它以自适应的方式处理特征，以获得提供强大的灵活性。Ample Branch 将以较低的分辨率和较小的通道尺寸处理所有的输入特征。它将所有的视频帧作为数据，通过压缩计算获得丰富的信息，并利用所提出的定位模块为 Focal Branch 提供指导。而 Focal Branch 压缩时序大小以仅关注每个卷积块的显着帧。该分支只会针对导航模块建议的显着帧，计算其彩色特征。两个分支的结果在 AF 模块的末尾自适应融合，防止信息丢失。

推荐阅读

目录