Happy · 2020年12月11日

快速单目三维人手和身体的运动捕捉回归与整合

首发:AIWalker
作者:BrainX

image.png

1. 论文简要

人体动作的本质细微差别往往是通过肢体动作和手势的结合来传达的,但现有的单目动作捕捉方法大多侧重于身体动作捕捉而忽略手的部分,或者只关注手的动作捕捉而不考虑身体动作。在本文中提出了FrankMocap运动捕捉系统,可以估计三维人手和身体运动。

代码地址:https://github.com/facebookre...

2. 背景介绍

将视频中的人类动作数字化的技术在各种应用领域具有巨大的潜力,包括人机交互、社会人工智能和机器人技术。人手和身体姿态对于理解这些场景同等重要,因为人手的高自由度,并且相对于人体形态很小,因此使用专业的动作捕捉系统,也很难捕捉人手的动作。目前主流的方法是构建双手和人体的三维参数模型,然而这些方法依赖于对参数模型的拟合,速度慢达不到实时的应用标准。
本论文提出了一种快速并且准确地估计三维人手和人体姿态的方法,主要的思路:首先基于深度神经网络设计人手和人体模块,然后从RGB图像中回归出人手和人体的三维姿态,最后将姿态同步到SMPLX模型中进行集成,实现全身三维动作捕捉。

3. 相关研究

3D参数人体姿态模型:SMPL模型对人体的高矮胖瘦和人体动作的姿态进行定义,对人体每个可以活动的关节点进行参数化。总体来说SMPL模型是一个统计模型,可以通过两种类型的统计参数对人体进行描述。

  • 形状参数(shape parameters): 一组形状参数有10个维度的数值描述人的形状,每个维度可以解释为人体形状的某个指标,比如高矮胖瘦等(维度的大小可由PCA控制)。
  • 姿态参数(pose parameters): 一组姿态参数 描述人体动作姿态,特别说明一下,这里的3不是三维空间坐标,而是该节点针对其父节点的旋转角度的轴角式表达(axis-angle representation).

单张图像的3D人体姿态估计:许多三维人体姿态估计方法都考虑从单幅图像中预测三维人体关键点位置。由于缺少三维关节角和相应长度,这些方法的输出不能直接用于图形应用。目前大部分三维人体姿态估计方法都是采用3D参数模型以二维观测重建一个三维人体姿态。
单张图像的3D人手姿态估计:之前的三维人手位姿估计是通过深度图回归得到的,但是不能广泛用于RGB的场景下。最近的工作主要有两类方法,一类是通过图片和OpenPose类似网络得到2D关节点作为输入然后回归出MANO模型的参数;另一类方法是自己构建3D人手模型,将图片和得到的2D热图输入图神经网络回归出人手模型的顶点。
人手和人体姿态估计的联合:由于缺乏全身的标注数据,之前的方法都依赖于优化方法。SMPL-X模型表示全身模型,通过对二维关键点的拟合优化了模型参数,并附加了身体姿态先验和碰撞补偿等约束条件。

4. 本文方法

本文目的是从单目图像中估计3D身体(躯干和肢体部分)和3D手(左和右手),产生SMPLX模型的参数作为输出,以表示3D身体和人手的姿态。该方法的一个重要方面是在SMPL-X模型中使用不同的专家模块对身体和手位姿进行估计,同时两个模块产生兼容的输出。框架的概述如图下图:

image.png

4.1. SMPL-X模型

给定一个单独的图像,本文的方法可以产生SMPL-X模型的形状和姿态参数形式的全身运动捕捉输出。作为SMPL模型的扩展,SMPL-X模型可以表示形状变化,通过低维形状和位姿参数的组合,实现了与姿态相关的人体变形。SMPL模型只关注身体部位,SMPL-X与SMPL模型的一个关键区别在于,SMPL-X还可以通过添加附加组件来表达手指动作和面部表情。
image.png

该方法的主要优点是三维人手模型的位姿参数、mesh顶点和三维关节点,与全身参数直接兼容,这使人手能够有效地集成全身的模块中。

4.2. 3D人手姿态估计

image.png
image.png

数据集预处理:三维人手姿态数据集通常是在多台不同视角的同步相机平台下拍摄的,用这样的数据集进行训练容易产生过拟合。为解决这一问题可以尽可能多的采用不同数据集来提高模型的泛化性,这种方法会存在不同数据集标签信息不同的问题。(一般通过重新调整3D关键点的顺序)

训练数据增强:在训练期间数据扩充是使模型具有更好泛化能力的常见做法,常见的做法包括随机比例,随机平移,颜色抖动和随机旋转。在自然环境下的视频常常会存在严重的运动模糊,为了提高模型的健壮性,在数据增强过程中加入了运动模型增强,具体做法是生成运动模糊内核,然后用2D滤波器在图片上添加模糊。
image.png

4.3. 3D人体姿态估计

image.png

4.4. 整合全身

image.png

image.png

5. 实验论证

5.1. 实验细节

目标框:采用OpenPose获取目标框,
人手模块:ResNet-50
人体模块:SPIN、SMPL

5.2. 数据集

人手数据集:FreiHAND、HO-3D、MTC、STB、RHD、MPII+NZSL
人体数据集:COCO、Human3.6M

5.3. 评估

人手效果的比较:
image.png
全身效果的比较:
image.png

6. 结论

本文介绍了一种名为FrankMacop的快速运动捕捉系统,我们设计的身体和人手专家模块产生兼容的输出作为全身运动捕捉,并且提出了两种集成策略,快速复制粘贴和优化框架。本文的全身动作捕捉系统在现场演示中,接近实时的速度(9.5 fps),这是比其他方法快几个数量级。

该方法仍然存在一些局限性:(1)如果两只手靠的太近,则手部姿势容易估计是错误。(2)需要边框推断出3D的身体和人手。未来的扩展的方向可以处理多人交互的情况,如两个人打招呼时握手。

- END -

推荐阅读

本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏深度学习从入门到精通
推荐阅读
关注数
6197
内容数
191
夯实深度学习知识基础, 涵盖动态滤波,超分辨,轻量级框架等
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息