姿态估计 | 基于CenterNet究竟还可以做多少事情？AdaptivePose便是经典！ - 极术社区

多人姿态估计方法通常遵循Top-Down和Bottom-up的模式，这两种方法都可以看作是两阶段的方法，因此计算成本高，效率低。
为了实现一个紧凑高效的多人姿态估计任务流水线，本文提出将人体部位表示为点，并提出一种新的人体表示方法，该方法利用一个自适应点集，包括人体中心和7个人体部位相关点，以更细粒度的方式表示人体实例。这种新的表示法更能捕捉各种姿势变形，并自适应分解长距离中心到关节的位移，从而提供一个单阶段可微网络，以更精确地回归多人姿势，称为 AdaptivePose。为了进行推理，本文提出的网络消除了分组和细化，只需单步解码即可形成多人姿势。
在COCO测试开发数据集上，在没有任何提示的情况下，DLA-34和HRNet-W48分别实现了67.4%AP/29.4 fps和71.3%AP/9.1 fps的最佳速度精度权衡。

1、简介

随着深度学习技术的普及，姿态估计在计算机视觉领域受到了广泛关注。对于许多高级视觉任务，如活动理解、姿态跟踪等，这是必不可少的一步。

大多数现有的多人姿态估计方法可以归纳为两种方法，包括Top-Down方法和Bottom-up方法。

Top-Down方法首先裁剪和调整检测到人的区域，然后在每个裁剪区域中定位关键点。这些方法可能有以下缺点：

关节检测的性能与人体边界框的质量密切相关。
检测优先模式导致内存成本高、效率低，不适用于应用程序。

Bottom-up方法首先为所有人同时定位关键点，然后为每个人分组。尽管Bottom-up方法通常比Top-Down方法运行得更快，但分组过程在计算上仍很复杂且冗余，并且总是涉及许多技巧来优化最终结果。

上述两阶段方法通常使用通过绝对关键点位置建模人体姿势的传统表示法，如图1（a）所示，这将人体实例和关键点之间的关联分开，因此需要额外的阶段来建模关系。

最近的研究工作初步探索了在遇到一些障碍而导致性能受限的情况下，建模人的实例与相应关键点之间关系的表示方法。例如，如图1（b）所示，CenterNet通过中心点表示人体实例，并利用中心到关节的偏移来形成人体姿势，但由于各种姿势变形和中心具有固定的感受野，因此很难处理长距离的中心到关节偏移，因此实现了折衷的性能。如图1（c）所示，SPM 还通过根关节表示实例，并进一步表示固定的层次树结构，并基于铰接运动学将根关节和关键点分为4个层次。它将长期偏移量分解为累积的短期偏移量，同时面临累积误差沿骨架传播的困境。

为了解决上述问题，在这项工作中将人体部位表示为自适应点，并使用包含人体中心和7个人体部位相关点的自适应点集来适应不同的人体实例。人体姿势以身体（中心）到部位（自适应点）到关节的方式形成，如图1（d）所示。

与以往的表示相比，我们的表示优势主要体现在两个方面：

与中心表示相比，这种细粒度的点集表示更能捕捉人体的各种变形程度；
它自适应地将长距离位移分解为短距离位移，同时避免了沿着骨骼传播的累积误差，因为自适应人体部位相关点是由神经网络自动学习的。

基于自适应点集表示提出了一种高效的端到端可微网络，称为 AdaptivePose，它主要由3个新组件组成。

首先，提出了一个部件感知模块，通过动态预测每个人体实例的7个自适应人体部件相关点来感知人体部件。
其次，与使用具有固定感受野的特征来预测不同身体的中心不同，引入了增强型中心感知分支，通过聚集自适应人体部位相关点的特征来进行感受野自适应，捕获不同姿势的变形，从而更精确地感知中心；
最后，提出了一个Two-hop回归分支，其中自适应人体部位相关点作为一跳节点，动态分解远程中心到关节偏移。在推理过程中，只需要一个单步解码过程，通过组合中心位置和中心到关节的偏移来形成人体姿势，而无需任何优化和技巧。

主要贡献概括如下：

将人体部位表示为点，并进一步利用自适应点集来表示人体实例。这是第一个提出精细获得和自适应身体表示的人，它更能捕获各种姿势变形，并自适应分解长距离中心到关节偏移。
基于新的表示提出了一个紧凑的单阶段可微网络，称为AdaptivePose。具体来说，引入了一个新的部件感知模块，通过回归7个与人体部件相关的点来感知人体部件。通过使用人体部位相关点进一步提出了增强的中心感知分支，以更精确地感知人体中心，以及Two-hop回归分支，以有效分解长距离中心到关节偏移。
本文的方法大大简化了多人姿势估计的流水线，在COCO测试开发集上实现了最佳速度精度权衡，即67.4%AP/29.4 fps、68.2%AP/22.2 fps（DLA-34）和71.3%AP/9.1 fps（HRNet-W48），无需任何改进和后期处理。

2、相关方法

2.1、Top-Down方法

给定任意RGB图像，Top-Down方法首先检测人体实例的位置，然后分别定位其关键点。具体来说，每个人体的区域都会被裁剪并调整到统一的大小，以使其具有优越的性能。Top-Down方法主要关注网络的设计，以提取更好的特征表示。

HRNet维护高分辨率表示，并在整个过程中反复融合多分辨率表示，以生成可靠的高分辨率表示。然而，由于检测优先范式导致的效率低下，Top-Down的方法对于具有严格延迟限制的实时系统通常是不可行的。

2.2、Bottom-up方法

与Top-Down的方法相比，Bottom-up的方法首先用不同的尺度定位所有实例的关键点，然后将它们分组给相应的人。Bottom-up的方法主要集中于有效的分组过程。

例如，CMU-pose提出了一种名为Part Affinity Fields（PAF）的非参数表示法，该表示法对肢体的位置和方向进行编码，以将关键点分组到图像中的各个个体。

AE同时输出每个身体关节的关键点热图和标签热图，然后将具有类似标签的关键点分配给个人。

然而，值得注意的一种情况是，分组过程作为后处理过程仍然计算复杂且冗余。

2.3、Point-based表征

基于关键点的方法通过中心或成对角表示实例，并已应用于许多任务中。由于它们总是比基于Anchor的表示更简单、更高效，因此受到了广泛关注。

CenterNet建议使用关键点估计来查找中心，然后回归其他目标属性，例如大小，以预测边界框。

SPM通过根关节表示人，并进一步表示固定层次的身体表示来估计人体姿势。

Point-Set Anchors建议利用一组预定义的点作为姿势Anchor，为回归提供更多信息。

DEKR利用该中心对人类实例进行建模，并使用多分支结构，该结构采用自适应卷积集中于每个关键点区域，以进行单独的关键点回归。

与以前使用中心或预定义姿势Anchor来建模人体实例的方法不同，本文建议通过一个自适应点集来表示人体实例，包括中心和7个人体部位相关点，如图2（a）所示。这种新的表示方法能够捕捉人体的各种变形，并自适应分解长距离位移。

3、本文方法

3.1、Body表征

与以前的Body表示方法不同，本文提出了一种自适应点集表示法，它使用中心点和7个与人体部位相关的点以细粒度的方式表示人体实例。该表示引入了自适应人体部位相关点，用于细粒度捕捉具有各种变形的结构化人体姿势，并自适应地将长距离中心到关节的偏移分解为较短的偏移，同时避免沿着固定关节骨骼传播的累积误差。

特别是，根据人体的固有结构，手动将人体分为7个部分（即面部、肩部、左臂、右臂、臀部、左腿和右腿），如图2（b）所示。每个分割的人体部位都由一个自适应人体部位相关点表示，该点从人体中心动态回归。该过程可以表述为：

新的表示方法从实例（身体中心）开始，到部分（自适应人体部位相关点），再到关节（身体关键点），形成人体姿势。

这种细粒度表示提供了一个单阶段的解决方案，因此提出构建一个单阶段可微回归网络来估计多人姿势，其中部件感知模块被提议用于预测7个与人体部件相关的点。通过使用自适应人体部位相关点，引入增强中心感知分支来感知具有不同姿势变形和比例的人体中心。同时，提出了Two-hop回归分支，通过中心到零件到关节的方式回归关键点。

3.2、Single-stage Network

1、Overall Architecture

如图3所示，给定一个输入图像，首先通过主干提取一般语义特征，然后通过3个精心设计的组件来预测特定信息。利用部件感知模块从每个人体实例的假设中心回归7个自适应人体部件相关点。然后，通过聚集自适应点的特征来预测中心热图，从而在增强中心感知分支中进行感受野自适应。此外，Two-hop回归分支采用自适应人体部位相关点作为one-hop节点，间接回归中心到每个关键点的偏移量。