快速单目三维人手和身体的运动捕捉回归与整合

首发：AIWalker
作者：BrainX

1. 论文简要

人体动作的本质细微差别往往是通过肢体动作和手势的结合来传达的，但现有的单目动作捕捉方法大多侧重于身体动作捕捉而忽略手的部分，或者只关注手的动作捕捉而不考虑身体动作。在本文中提出了FrankMocap运动捕捉系统，可以估计三维人手和身体运动。

代码地址：https://github.com/facebookre...

2. 背景介绍

将视频中的人类动作数字化的技术在各种应用领域具有巨大的潜力，包括人机交互、社会人工智能和机器人技术。人手和身体姿态对于理解这些场景同等重要，因为人手的高自由度，并且相对于人体形态很小，因此使用专业的动作捕捉系统，也很难捕捉人手的动作。目前主流的方法是构建双手和人体的三维参数模型，然而这些方法依赖于对参数模型的拟合，速度慢达不到实时的应用标准。
本论文提出了一种快速并且准确地估计三维人手和人体姿态的方法，主要的思路：首先基于深度神经网络设计人手和人体模块，然后从RGB图像中回归出人手和人体的三维姿态，最后将姿态同步到SMPLX模型中进行集成，实现全身三维动作捕捉。

3. 相关研究

3D参数人体姿态模型：SMPL模型对人体的高矮胖瘦和人体动作的姿态进行定义，对人体每个可以活动的关节点进行参数化。总体来说SMPL模型是一个统计模型，可以通过两种类型的统计参数对人体进行描述。

形状参数（shape parameters）: 一组形状参数有10个维度的数值描述人的形状，每个维度可以解释为人体形状的某个指标，比如高矮胖瘦等（维度的大小可由PCA控制）。
姿态参数（pose parameters）: 一组姿态参数描述人体动作姿态，特别说明一下，这里的3不是三维空间坐标，而是该节点针对其父节点的旋转角度的轴角式表达（axis-angle representation）.

单张图像的3D人体姿态估计：许多三维人体姿态估计方法都考虑从单幅图像中预测三维人体关键点位置。由于缺少三维关节角和相应长度，这些方法的输出不能直接用于图形应用。目前大部分三维人体姿态估计方法都是采用3D参数模型以二维观测重建一个三维人体姿态。
单张图像的3D人手姿态估计：之前的三维人手位姿估计是通过深度图回归得到的，但是不能广泛用于RGB的场景下。最近的工作主要有两类方法，一类是通过图片和OpenPose类似网络得到2D关节点作为输入然后回归出MANO模型的参数；另一类方法是自己构建3D人手模型，将图片和得到的2D热图输入图神经网络回归出人手模型的顶点。
人手和人体姿态估计的联合：由于缺乏全身的标注数据，之前的方法都依赖于优化方法。SMPL-X模型表示全身模型，通过对二维关键点的拟合优化了模型参数，并附加了身体姿态先验和碰撞补偿等约束条件。

4. 本文方法

本文目的是从单目图像中估计3D身体(躯干和肢体部分)和3D手(左和右手)，产生SMPLX模型的参数作为输出，以表示3D身体和人手的姿态。该方法的一个重要方面是在SMPL-X模型中使用不同的专家模块对身体和手位姿进行估计，同时两个模块产生兼容的输出。框架的概述如图下图：

4.1. SMPL-X模型

给定一个单独的图像，本文的方法可以产生SMPL-X模型的形状和姿态参数形式的全身运动捕捉输出。作为SMPL模型的扩展，SMPL-X模型可以表示形状变化，通过低维形状和位姿参数的组合，实现了与姿态相关的人体变形。SMPL模型只关注身体部位，SMPL-X与SMPL模型的一个关键区别在于，SMPL-X还可以通过添加附加组件来表达手指动作和面部表情。