单张图像重建3D人手、人脸和人体

首发：AIWalker
作者：BrainX

1. 论文简要

为了便于分析人类的行为、互动和情绪，本文从单目图像中计算出人体姿态、手姿态和面部表情的三维模型。为了实现这一点，本文使用数千个3D扫描来训练统一的人体3D模型，SMPL-X，它通过完全铰接的手和富有表情的脸来扩展SMPL。没有成对图像和标签，直接回归SMPL-X的参数是非常具有挑战性。因此，本文采用SMPLify方法，估计二维特征，然后优化模型参数来拟合特征。本文在以下几个重要方面对SMPLify进行了改进：

检测与脸、手和脚对应的2D特征，并将完整的SMPL-X模型与这些特征进行匹配；
使用一个大的动作捕捉数据集训练神经网络先验姿态；
定义了一种既快速又准确的渗透惩罚方法
自动检测性别和合适的身体模型(男性、女性或中性)
采用PyTorch实现实现了超过8倍的加速

本文使用新的方法SMPLify-X，使SMPL-X既适合于受控图像，也适合于自然图像，并且一个新的包含100张伪真实标签的图像数据集上评估3D精度。这是迈向从单目RGB数据自动表达人类动作捕获的重要一步。

论文和代码：https://smpl-x.is.tue.mpg.de

2. 背景介绍

人类通常是图片和视频的中心元素。理解他们的姿势，以及他们与世界的互动对整体场景理解至关重要。目前大多数的工作主要在2D上对人体姿态，人手关键点以及人脸进行研究，由于真实的场景是以3D为基础的，并且缺乏3D模型和丰富的3D数据，因此捕捉人体，人手和人脸的3D表面异常困难。为了解决这一问题，第一，需要构建能够自由表达整个人体的模型，第二，需要能够从单张图片中提取这样的模型。

为此本文从从一个大型的三维扫描体中学习新的身体、脸和手模型。新的SMPL- X模型是基于SMPL的，并保留了该模型的优点：与图形软件兼容、简单的参数化、小尺寸、高效、可区分等。本文将SMPL与FLAME模型和MANO人手模型结合起来，然后将这个组合模型得到5586个3D扫描。通过从数据中学习模型，本文捕获了身体、脸和手的形状之间的自然关联。模型的表达能力可以在下图中看到，其中本文将SMPL-X拟合到表达性RGB图像中。SMPL-X免费用于研究用途。

目前有一些方法通过深度学习的方法从单张图片中回归出SMPL的参数，但是要估计带有人手和人脸的3D人体缺乏有效的训练数据。为了解决这一问题，首先，本文使用OpenPose ”自下而上“ 的估计身体、手、脚和脸的二维图像特征，然后使用SMPLify-X方法将SMPL-X模型 “自顶向下” 地匹配到这些2D特性。然后，本文对SMPLify做了几项重大改进。具体来说，本文使用VAE变分自动编码器从大数据集的运动捕捉数据中学习一种新的、性能更好的姿态先验。这个先验是至关重要的，因为从2D特征到3D姿态的映射是不明确的。其次，本文还定义了一个新的(自)渗透惩罚项，它明显比SMPLify中的近似方法更精确和有效；它仍然是可微的。本文训练了一个性别检测器，用它来自动决定使用男性、女性或中性的身体模型。最后，采用直接回归方法来估计SMPL参数的一个动机是SMPLify比较慢。这里本文用PyTorch实现来解决这个问题，通过多块gpu的计算能力，PyTorch实现比相应的Chumpy实现至少快8倍。

3. 相关研究

3.1 人体建模

身体，人脸和人手：3D身体建模的问题以前通过将身体分解成多个部分和分别建模来解决。本文关注的方法是从3D扫描中学习统计形状模型。由于3D人体扫描仪的存在，人们可以通过扫描来了解身体的形状，丰富的形状和姿态空间参数人手模型MANO也是采用的该方法。

统一模型：最相似的模型是Frank和SMPL+H。Frank将三种不同的模型整合到一起在一起：SMPL(无姿态混合形状)的身体，一个艺术家创建的手，和FaceWarehouse模型的脸。最终的模型并不完全真实。SMPL+H从3D扫描学习结合了SMPL身体与3D手模型。手部的形状变化来自全身扫描，而姿态依赖的变形则来自手部扫描的数据集。SMPL+H不包含可变形的人脸。

本文从公开的SMPL+H开始，并将公开的FLAME模型添加到其中。然而，与Frank不同的是，本文不是简单地把它移植到身体上。相反，本文采取完整的模型和拟合5586个3D扫描，并且学习形状和依赖姿势的混合形状。这将产生一个具有一致参数化的自然外观的模型。基于SMPL，它是可区分的并且很容易切换到已经使用SMPL的应用程序中。

3.2 人体结构推理

有很多方法可以从图像或RGB-D估计3D人脸，也有很多方法可以从这些数据估计手部。虽然有许多方法从单个图像估计三维关节的位置，这里本文关注的方法是提取一个完整的三维身体网格（mesh）。

4. 本文方法

下面介绍SMPL-X模型，以及SMPL-X模型拟合单张RGB图像的方法。相较于SMPLify模型，SMPLify模型运用了更好的先验姿态信息，更为详细的碰撞惩罚项，性别判断以及Pytorch的工程加速方法。

4.1 统一模型SMPL-X

4.2 拟合SMPL-X到单张图片（SMPLify）

4.3 人体姿态先验

4.4 碰撞惩罚

4.5 性别分类器

男人和女人有不同的比例和形状。因此，使用适当的身体模型来拟合2D数据意味着应该应用适当的形状空间。目前还没有一种方法能够自动将性别因素考虑到三维人体姿势的拟合中。在本工作中，训练一个性别分类器，j将全身和OpenPose关节的图像作为输入，并给被检测到的人分配一个性别标签。

4.6 速度优化

SMPLify采用了Chumpy和OpenDR，这使得优化速度变慢。为了保持优化易于处理，本文使用PyTorch和带有强Wolfe线性搜索的有限内存的BFGS优化器(L-BFGS) 。

5. 实验验证

5.1 数据集

数据集Expressive hands and faces dataset (EHF)。

5.2 实验对比

为了测试SMPL- x和SMPLify-X的有效性，本文与最相关的模型SMPL、SMPL+H和Frank进行比较，同时在EHF数据集上做了一组消融实验分析每个模块对整体精度的影响。

下图是在LSP数据集上SMPL-X的结果。一个强大的整体模型SMPL-X对身体、手和脸的自然富有表现力的重建。灰色显示了性别特征。蓝色表示性别分类器不确定。

6. 实验结论

在这项工作中，本文提出了SMPL-X模型联合捕捉身体，人脸和手。此外，本文还提出了SMPLify-X方法，通过SMPL-X拟合到单个RGB图像和2D关键点的方法。本文利用一种新的强大的身体姿态先验和一种快速准确的检测和惩罚渗透的方法，对歧义下的拟合进行了正则化处理。本文使用自然图像提供了广泛的定性结果，展示了SMPL-X的表达能力和SMPLify-X的有效性。本文引入了一个具有伪真实的数据集来进行定量评估，这表明了更具表现力的模型的重要性。在未来的工作中，本文将创建一个SMPL-X拟合的数据集，并用回归器来直接从RGB图像回归SMPL-X参数。本文相信，这项工作是向从RGB图像中表达捕捉身体、手和脸的重要一步。

- END -