CAL：低分辨率姿态估计

论文名称：Low-resolution Human Pose Estimation

论文地址：https://arxiv.org/pdf/2109.09090v1.pdf

今天无意中刷到的一篇论文，感觉整体的思想有点接近于RLE，但是提出的方法和取得的效果又不如RLE，所以大致上算一个低配版RLE吧，不过也因此比RLE容易理解一些，我感觉可以结合RLE进行对比介绍。另一方面，本文的实验重心放在了低分辨率姿态估计的分析上，我觉得有一些有意思的东西，所以分享一下。

因为内容比较简单，而且我一贯的风格是喜欢用自己的话来转述，所以这篇笔记就随意一点了~感觉总结下来一句话：低分辨率和轻量化场景的关键点定位任务，提点主要看概率分布的拟合。

0. 背景介绍

在姿态估计任务中，Heatmap-based方法的精度很大程度上受输入图片尺寸的影响，用专业术语来说叫量化误差（quantization error），简单来说就是，输入图片越大，最终输出的Heatmap就越大（因为模型的下采样率是固定的），那么argmax操作能够获得的坐标数值就越大（argmax返回的是整数），因此放大还原到输入尺寸下的误差就越小。

以上如果还不好理解的话，我给一个极端的例子：假如输入图片尺寸为64x64，经过网络32倍下采样，输出的heatmap尺寸就会是2x2，那么argmax能得到的结果就只有0和1，在这样一张图上模型拟合得再好也没用。

尽管Heatmap-based方法有量化误差带来的弊端，但它实在太香了，训练收敛快、精度高，所以大家还是想用它，于是提出了很多改进方案，而本文作者认为最有效的方案是offset-based方法。

那么，作者为什么认为offset-based方法最好呢？

1. Why offset-based methods?

作者在Heatmap-based方法上做了一个实验，对比了输入图片尺寸变化，对不同Heatmap-based方法的影响，结果如下：

可以看到尽管随着输入尺寸变小，所有方法都在掉点，但是UDP方法能显著缓解这个问题，换句话说，UDP在低分辨率图片上表现更好。

用UDP作者介绍的原话来说，UDP包含两个主要的思想：一是在数据处理的时候，使用单位长度去度量图像的大小，而非像素的多少。二是引入一种在理想情况下无统计误差的编码解码方法。

关于UDP我打算之后专门写一篇笔记，这里暂时可以理解为UDP通过对偏移进行建模，解决了数据处理过程中向下取整引入的数值误差。

由于UDP在低分辨率上优秀的表现，作者认为对offset进行建模的方法对低分辨率姿态估计是好用的。

2. Offset-based Methods

所谓offset-based方法，简单来说就是先用heatmap-based方法预测一个粗略的位置，然后再用regression-based方法预测粗略位置的一个偏移，用粗略位置加偏移得到最终的预测结果。

这种思路可以总结为一种“检测+回归”的方法，也可以说是“定位+偏移”，很直观也很简单，在目标检测中也普遍用到：检测目标中心点，然后回归得到物体的长宽。

本文指出，传统的offset-based方法是有局限性的：训练和测试不一致。

在训练时，监督是逐像素的，模型预测的Heatmap会跟渲染出的Target Heatmap进行逐像素的比较，要求每个像素都能预测出正确的概率值，换句话说，每个像素同样重要，是平等对待的。

但是在测试阶段，我们的argmax操作其实只关注最大值点，至于其他部分的预测准确与否我们根本不care，这是不一致的体现其一。

其二是，在网络结构上，Heatmap和offset的预测分属于两个不同的头部，在结构上它们是解耦的。换句话说，训练时模型在解决两个独立的任务，但在测试时却要把二者的结果加起来作为最终预测。这样的不一致很容易导致，模型对两个任务的优化程度不同，使得最终的结果不是最优的。

这里我个人提一嘴，目标检测中其实也存在这种不一致问题，目标的分类质量预测和bbox预测也是两个独立的头部和任务在进行优化，但最终进行分数评估时却会把两个分数合并。在GFLv2中指出了这个问题，并通过一个基于bbox表征的统计量回归权重，加权到分类分支上，使得两个独立的任务建立了关联。

而本文解决不一致问题的方案称为Confidence-Aware Learning(CAL)。

3. Confidence-Aware Learning

简单来说，CAL的做法也是将两个独立的头部建立关联，而建立关联的思想非常简单：既然我们只关心最大值点的位置正确与否，那么在训练时，越靠近目标点的像素，学习权重是不是应该越高？

说起来，这个地方有点套娃的嫌疑。因为Heatmap-based方法本身其实也是基于类似的先验假设设计出来的，我们认为越靠近目标点的像素，概率值应该越大，所以才用高斯分布渲染Target Heatmap来进行监督。

而本文更进一步指出，监督信息上的确是越近的像素数值越高了，但每个像素的重要性不一样啊，所以我们还得给每个像素的损失加个权，越靠近目标点的像素，损失权重也得越大。

说白了，我们只关心最大值点的偏移修正，其他位置上的修正因为用不到，所以需要抑制这部分的损失值的干扰。

那么这个权重怎么得来呢？网络本身干的活是啥，就是预测高斯分布嘛，现成的结果，我加权我自己，有点自注意力内味了。

4. Gaussian offset weighing

别急，以上思路虽然说得通，但需要注意的是，不同像素上offset的分布是什么样，是需要实验验证的。

本文作者设计了一个实验，统计Heatmap粗略预测的坐标，跟GT的偏差值范围的分布：

根据偏差值的大小进行了分段统计，最终得出了一个我们都能预料到的结论：这个偏差值果然符合高斯分布。

但是需要注意的是，这个高斯分布跟我们网络预测的Heatmap的目标高斯分布并不是一回事（或者说，这两个高斯分布的mu和sigma并不一定相同），所以我们不能直接用网络预测的Heatmap来“我加权我自己”。

本文采用的是一种更加数学的方法：通过高斯混合模型（GMM）来预测offset权重。

简单来说，我们的训练数据只是对真是数据分布的一个采样，采样数据的分布跟真实数据分布总是存在差异的。要想得到靠谱的真实数据分布，我们可以通过训练高斯混合模型来拟合真实分布，具体而言，就是用每次粗略预测的坐标值跟GT计算offset，用offset作为采样点来训练一个初始高斯混合模型，然后用高斯混合模型预测的概率值作为权重来进行损失加权。

到了这里，“对offset进行建模得到真实数据分布”这个思想，有没有觉得很有RLE的感觉？RLE中是建模数据真实分布跟简单分布之间的误差的分布，这里是建模粗略预测跟真实GT分布之间的误差的分布。

不过差异也很明显，RLE中flow模型学到的分布可是任意的，相当于在简单的高斯分布或拉普拉斯分布基础上叠加一个差异分布，以拟合真实分布；而本文的方法都是建立在高斯分布的假设基础上，认为预测值跟真实分布的差异也是一个高斯分布，这会导致最终拟合的“真实分布”准确性上就输了一筹。

但好处是这个方法很简单容易理解，处理流程如下图所示：