CVPR 2021 论文解读Vol.7 | “自底向上”人体姿态估计的尺度自适应方法 - 极术社区

本文针对基于自底向上方法的人体姿态估计中人体尺度不一的问题，提出了尺度自适应热图回归方法（SAHR）——根据人体的尺度大小动态地调整相应关键点热图高斯核的标准差。

一．热图回归

由于热图回归的的方法相较于传统的坐标回归方法具有更高的关键点定位准确率，因此热图回归是目前人体姿态估计任务的主流方法。但是目前的热图回归方法使用相同标准差的高斯核监督所有的关键点，本文指出了其中两点不合理之处：

1.同一关键点的不同覆盖区域可能导致语义混淆。不同尺度的人采用同一偏差的高斯核生成heatmap，往往就会导致高斯核覆盖了整个人脸区域，如下图(b)；甚至高斯核覆盖了整个人的头部区域，如下图(c)。

2.即使是人类也不能以像素级的精度标记关键点，GT坐标也可能具有固有的模糊性。因此，关键点可以被视为围绕标记坐标的概率分布(而不是离散点)。关键点的标准偏差代表了它们的不确定性，并应与标注的歧义大小成比例。

因此在自底向上的人体姿态估计方法中，根据人的尺度来调整每个关键点的标准差似乎更可取。

二．尺度自适应热图回归（SAHR）

三．权重自适应热图回归（WAHR）

四．训练与测试

训练时，GT热图首先根据预测的尺度图生成尺度自适应的GT热图，再通过权重自适应损失监督整个模型。测试时，预测的热图和AE被用于人的分组。

五．消融实验

从对比实验可以看出，自顶向下的方法失去了估计准确性的优势，这是因为自上而下的方法假设所有人都能被实例检测器完全检测到，且每个检测框只包含一个人。然而，这一假设在人群场景中并不成立，因为人群场景中，人体实例通常有大量的重叠。而自底向上的方法不依赖于人体实例检测器，可能更擅长处理人群场景。相比COCO数据集，SWAHR在CrowdPose数据集上带来了更明显的提升。这可能是因为SWAHR已经考虑到各种各样人的尺度，而这个问题在拥挤的场景中也更明显。

六. 启发

尺度和权重自适应的思想体现了模型的“智能化”，对于人体姿态估计的这一任务，不仅在基于热图回归的这个方向上，也许在基于坐标回归的方向上，这种思想也会适用，比如基于中心点的回归方法，回归中心点的区域大小也可以根据人的尺度大小自适应确定。

七．参考文献

[1] Luo Z , Wang Z , Y Huang, et al. Rethinking the Heatmap Regression for Bottom-up Human Pose Estimation. In CVPR, 2021.

[2] Geng Z , Sun K , Xiao B , et al. Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression. In CVPR, 2021.

首发：旷视研究院
作者：旷视研究院

专栏文章推荐

欢迎关注旷视研究院极术社区专栏，定期更新最新旷视研究院成果
加入旷视：career@megvii.com

CVPR 2021 论文解读Vol.7 | “自底向上”人体姿态估计的尺度自适应方法