当姿态估计算法遇上《本草纲目》，看“刘畊宏男孩”如何驱动虚拟人

最近，最炙烈的话题莫过于刘畊宏的男孩女孩们。

刘畊宏的燃脂健身直播刷屏网络，掀起了一阵狂热不退的居家健身潮，以周杰伦的《本草纲目》为旋律的毽子舞，更是引发了全民打卡热。

于是，程序员圈是怎么游刃于这波热潮的？

阿里云程序员化身“刘畊宏男孩”

https://www.youku.com/video/X...

一则程序员的“本草纲目”让大家预热体会一下“人体姿态估计算法”。

短视频中，阿里云视频云工程师身上酷似“火柴人“的造型，便是将“人体姿态估计算法”可视化，而人体姿态识别是计算机视觉中的重要任务，也是计算机理解人体的动作、行为不可或缺的一部分。

早在刘畊宏现象之前，视频云技术团队就开始深耕人体姿态估计算法，此次算法工程师们纷纷化身“刘畊宏男孩”，就是为了探索“人体姿态估计算法”的真实场景应用。

我们知道，在刘畊宏健身热潮的同时，随之受伤的男孩女孩们更是不计其数，虽然刘畊宏在社交媒体会为部分粉丝批改视频、纠正动作，但还是难以解决部分粉丝跟跳受伤的情况。

当然，肉眼识别的误差很大，仅靠人力是无法完成粉丝的动作纠正。于是，一种更智能、更高效的识别技术可以解决这个问题，即“人体姿态估计算法”。

人体姿态估计算法？

人体姿态是人体重要的生物特征之一，进行姿态估计是人体数字化与智能化的重要技术基础，具有广泛的应用场景，包含步态分析、视频监控、增强现实、人机交互、体育科学等等。

我们所说的人体姿态估计（Pose Estimation），包含了目标检测、人体骨骼关键点检测、分割等关键技术，旨在给定图像视频之后，根据图像视频中的人体信息，定位并确定人体各个部位的骨骼关键点，从而对人体的姿态进行估计。

可以看到短视频中工程师们身上酷似“火柴人”的形态，代表了人体18个人体骨骼关键点（头部、肩部关节、肘部关节等）的精准识别。

人体18个人体骨骼关键点

阿里云视频云的人体姿态估计算法，能够快速、精准实现静态和动态场景下的动作识别，并且，更关键的是，能随着人体的运动变化可以在移动端实现多人、实时跟踪识别。

截屏2022-05-18 上午10.18.52 (2).png
移动端实时人体18个关键点识别

要知道，在移动端实现多人、实时跟踪识别，并非易事。

移动端受限于硬件计算能力，特别是一些性能较差的低端机，需要设计轻量级的模型结构和工程化策略来实现实时运行，而多人识别的难点在于如果对每个人进行分别单独的预测，所耗时间就会成比例上升，也难以实时完成。

为了实现实时和精度的平衡，阿里云视频云在技术上对Bottom-Up方案（先检测出图像中的所有关节点，再判断每一个关节点属于哪一个人，实现步骤是关键点检测到关键点匹配）进行了整体的改进和优化，其预测了两个feature map分支，一个是如肩部关节、肘部关节等关键点未知的预测，另一个是预测两两关键点之间的矢量场，这是用来判断各个关键点属于图中的哪个人，并通过“匈牙利算法”来组装成一个完整的人。

由此，才能实现移动端多人实时的姿态识别，打开更低门槛、更广泛的商业场景应用空间。

算法带来的真实价值

技术的探索，终点服务于人的生活。

人体姿态估计技术的一个应用是动作识别。

例如在体育健身场景中，阿里云视频云的人体姿态估计算法，除了能够识别各种动作及对风险动作进行识别预警，进而还能给出动作准确度等信息反馈，利用运动更精准、更实时、更多人的准确性判断，同时也可对跳绳、深蹲、俯卧撑等各类动作进行运动计数等更多数字化体育科技服务。

人体姿态估计的动作识别

具象到场景，技术在养老、医学、体育竞技、运动训练等等场景都有重要价值。

在养老行业，通过算法可精准识别老人的潜在危险动作并实时发出预警；

在医学领域，技术可用于观察骨骼恢复状况，以及病人的姿态监督；

在竞技体育界，可以通过监督运动员姿态，创建辅助训练系统，分析运动员的每一时刻的动作，协助运动员找到更好的姿势；

在日常运动上，技术可以更直观地应用于各类健身、体育、舞蹈等的自动教学上。

当然，在视频监控、金融服务、移动支付、娱乐社交、游戏互动等更多具体场景中，该技术还有更具价值的应用空间。

更智趣的虚拟人驱动

人体姿态估计技术的另一个有趣应用，是通过追踪人体姿态的变化来实现虚拟人的驱动。

一般来说，真人驱动型虚拟数字人是以真人为核心，通过3D建模、动作捕捉技术、渲染等技术，形成一个虚拟化身。

目前，虚拟数字人肢体动作的主要实现方式是光学式动作捕捉、惯性式动作捕捉，及基于计算机视觉的动作捕捉。

光学式动作捕捉的原理是跟踪、识别并命名目标身上各反光标记点，得出目标的基本骨架，再对标记点位进行持续跟踪。惯性式动作捕捉主要以装备用于人体各主要骨骼节点上的惯性传感器，从而完成数据采集，通过处理建立运动的三维模型。

然而，当前的这两种方式存在诸多问题：对环境要求高、软硬件设备高昂，以及精度较低、连续使用易产生累积误差等。

https://www.youku.com/video/X...
虚拟人实时驱动示意

然而，大家可以看到，视频中的工程师即使在普通室外环境及无穿戴传感器设备的情况下，便可精准驱动虚拟人，这便是基于计算机视觉的动作捕捉，即基于拍摄到的二维图像、三维形状特征，以还原各关节点运动信息。

值得一提的是，阿里云视频云的技术团队通过视频云超轻量级别的人脸跟踪及AAI推理框架实现了虚拟人的面部表情模拟，并能在PC端CPU实现实时驱动+渲染，同时正在加入手掌及手势的全态模拟，在虚拟人的交互性与时效性上带来更多体验、更多价值。

除了以上，目前阿里云视频云的人体姿态估计算法的诸多应用已经集成到阿里云Queen SDK产品中，而在人体姿态识别的基础上，Queen本身还有多项人体特效功能，如精准美体瘦身等，也欢迎大家体验demo（体验链接）。

人体姿态估计的重要应用价值，不仅丰富于生活场景，更吸引着越来越多工业界以及学术研究人员的目光。未来，随着人体姿态估计相关技术的持续升级，其应用优势会更加显性，应用领域也将更加广泛。

同时，人体数字化与智能化是更大的课题，对于虚拟世界、大健康产业、工业产业都是更具突破性的技术延展，阿里云视频云也将继续探索先进的视觉智能技术，促进人体数字化与智能化在各行各业的真实落地。

「视频云技术」你最值得关注的音视频技术公众号，每周推送来自阿里云一线的实践技术文章，在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群，和业内大咖一起探讨音视频技术，获取更多行业最新信息。

阿里云程序员化身“刘畊宏男孩”

人体姿态估计算法？

算法带来的真实价值

更智趣的虚拟人驱动

推荐阅读

目录