CVPR2021 论文解读Vol.11|“自底向上”人体姿态估计中关节点的尺度与不确定性分析

论文标题：Rethinking the Heatmap Regression for Bottom-up Human Pose Estimation

收录会议：CVPR2021

论文单位：旷视研究院

论文链接：https://arxiv.org/abs/2012.15175

作者：Zhengxiong Luo,Zhicheng Wang, Yan Huang, Liang Wang,Tieni Tan and Erjin Zhou

解读人：童雪清

童雪清，研二学生，就读于中国科学院大学自动化所，感兴趣的方向：人体姿态估计，行为识别

一、论文简介

目前人体姿态估计主要分为自顶向下和自底向上两个类别。热力图回归在这两类方法中都被广泛应用。Ground Truth 热力图通常是通过 2D 高斯卷积核作用在人体关键点上得到。这些卷积核的标准差是固定的。但实际上自底向上的方法需要面对人体尺寸的变化和人体关键点标签的模糊这两个挑战，因此生成 GT 热力图的卷积核标准差固定是不合理的。

为解决上述两个问题，本文提出了对于每个人体关键点自适应地生成卷积核标准差的尺度自适应热力图回归（SAHR）方法和相对应平衡前景和背景的权重自适应热力图回归 (WAHR) 方法。大量实验证明 WAHR 和 SAHR 大幅提升了自底向上人体姿态估计的准确率，在 COCO test-dev2017 测试集的准确率上超越 SOTA 模型 +1.5AP, 达到了可比拟大多数自顶向下方法的 72.0AP.

二、研究动机

目前的 Ground Truth 热力图通过在所有手工标记的人体关键点做 2D 高斯卷积，卷积核有着相同标准差。但本文认为由于不同人体尺度不同，卷积核标准差相同这一设定并不合理。

第一，不同尺度人体的关键点覆盖的相同区域的语义信息不同。比如，图 1 显示了相同标准差的高斯核在不同尺度人体中覆盖区域不同。不同尺寸的人的关键点鼻子的被相同标准差的高斯卷积核覆盖，(a) 中仅覆盖鼻子，（b）中覆盖全脸，(c) 甚至覆盖整个头。可见，不同的覆盖范围会造成语义混淆。

第二，即便是人类也无法像素级地准确标注人体关键点，关键点标注有内在的不确定性。因此关键点应该被视作--中心位于关键点标记坐标，标准差代表关键点标记不确定性的分布（而不是离散点）。但是固定卷积核的做法本质上忽视了不同关键点标记的不同不确定性。

图1: 不同尺度人体的关键点覆盖的相同区域的语义信息不同

三、创建和贡献

1.本文是多人人体姿态估计领域第一篇关注人体尺度的不同和关键点标注的不确定性这两个问题的论文。本文用尺度和不确定性的预测来减轻这两个问题。

2.为解决不同人体尺寸不同和人体关键点的内在标记不确定性这两个问题，本文提出了尺度自适应热力图回归（SAHR）方法，自适应地调整每个关键点对应的卷积核的标准差。

3.由于 SAHR 方法可能加重前景背景的不平衡，本文进一步提出权重自适应热力图回归 (WAHR) 方法，WAHR 方法更关注相对困难的样本，进一步发挥 SAHR 方法的优越性

4.本文提出的 WAHR 和 SAHR 大幅提升了自底向上人体姿态估计的准确率，在 COCO test-dev2017 测试集的准确率上超越 SOTA 模型 +1.5AP, 达到了可比拟大多数自顶向下方法的72.0AP.

四、方法

4.1 预备知识

图2: SWAHR模型示意图

4.2尺度自适应热力图回归 SAHR

本文如图 2（中间偏上）加入了预测尺度图的新分支，预测出每个关键点对应的卷积核的尺度。对于尺度因子大于 1 的关键点，相对应的高斯卷积核标准差大于 sigma，反之则小于 sigma。

为了使训练更稳定地收敛，对预测的尺度图加入归一化损失

总损失为预测热力图与自适应卷积 GT 热力图的 L2 损失和预测的尺度图的归一化损失为

4.3权重自适应热力图回归 WAHR

为解决热力图回归中前景背景不平衡的问题，提出了权重自适应热力图回归。热力图回归损失乘权重则为 σ 在focal loss的启发下，设计 γγγ 是控制软阈值的超参数，实际中设为0.01.

五、实验结果

5.1在 COCO 数据集上的实验结果

如表 1，比较自底向上人体姿态估计方法中的 SOTA 算法，基于 HrHRNet 的 SWAHR 方法有多尺度测试的情况下在 COCO 测试集上准确率达到 72.0AP。并且在不同主干网络和不同输入图片大小的条件下，SWAHR 都能稳定提高性能。如表 2，基于 HrHRNet 的 SWAHR 方法已经超过了很多早期的自顶向下方法。

通过混淆实验验证 SAHR 和 WAHR 各自带来的提升。实验使用 HrHRNet-W32 作为基准模型，在COCO2017 验证集上进行多尺度测试。如表3，SAHR 方法提升0.7AP，WAHR 提升1.3AP， SAHR 方法和 WAHR 方法共同提升 1.8AP。WAHR 既提升了中等尺寸人体姿态估计的准确率，又提升了大尺寸人体姿态估计的准确率，这是因为前景背景不平衡的问题在不同尺寸下都存在。SAHR 主要提升了相对小尺寸人体姿态估计的准确率。因为原来的卷积核标准差为大尺寸人体设定，SAHR 主要调整了较小尺寸人体相对应的卷积核标准差。

图3: 在CrowdPose数据集上自底向上方法的比较

图 4：在CrowdPose数据集上自顶向下和自底向上方法的比较

图 5：SAHR和WAHR的混淆实验

5.2在 CrowdPose 数据集上的实验结果

如表 9 所示，由于 CrowdPose 数据集中存在大量人体之间的相互遮挡，自顶向下方法的准确率不如自底向上方法。基于 HrHRnet,SWAHR 在 CrowdPose 数据集上的提升效果更佳明显：在无多尺度测试上提升 5.7AP，在多尺度测试上提升 6.2AP。这可能是因为多人尺度不同的问题在 CrowdPose 数据集中更加明显。