V · 2023年02月22日 · 北京市

【NeurIPS 2022】视频动作识别,AFNet 用更低的成本接收更多数据

出品人:Towhee 技术团队 顾梦佳

为了避免大量的计算,现有的视频动作识别方法通常会采样几帧来表示每个视频,然而这往往会限制识别的性能。为此,Ample and Focal Network(AFNet)提出两个分支的结构,以用更少的计算量利用更多的视频帧。在减少计算量的前提下,AFNet 依然能借助其中间特征中的动态选择强制执行隐式时序建模,成功实现更高的精度。此外,该方法还可以帮助用更低的成本减少空间冗余。在五个公开的动作检测数据集上进行大量实验,AFNet 证明了其有效性和效率。

image.png

Architecture of AFNetAFNet

虽然使用了更多视频帧,但明智地从中提取信息以保持较低的计算成本。具体来说,该方法设计了一个双分支结构,根据视频帧的重要性进行区别对待。另外,它以自适应的方式处理特征,以获得提供强大的灵活性。Ample Branch 将以较低的分辨率和较小的通道尺寸处理所有的输入特征。它将所有的视频帧作为数据,通过压缩计算获得丰富的信息,并利用所提出的定位模块为 Focal Branch 提供指导。而 Focal Branch 压缩时序大小以仅关注每个卷积块的显着帧。该分支只会针对导航模块建议的显着帧,计算其彩色特征。两个分支的结果在 AF 模块的末尾自适应融合,防止信息丢失。

相关资料:

代码地址:https://github.com/bespontaneous/afnet-pytorch
论文链接:Look More but Care Less in Video Recognition

推荐阅读
关注数
4177
内容数
825
SegmentFault 思否旗下人工智能领域产业媒体,专注技术与产业,一起探索人工智能。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息