聊聊旷厂黑科技 | 动作识别与检索带你体验视频时代“人工智能”新玩法 - 极术社区

北京冬奥会正在展开激烈的赛事角逐，与体育相关的话题持续刷屏，全民健身也蓬勃发展。那么大家是否想象过，当人工智能与体育相遇，会碰撞出怎样的火花呢？

其实，在很多日常的体育锻炼和健身场景中，已经有了人工智能的技术作为辅助，比如说，“智能教练”能够基于人们的动作和姿态，进行科学的分析和判断，从而帮助人们矫正身姿和动作等等。

动作识别已“落地开花”

其实，在“智能教练”的背后，正是我们这期想要讨论的出发点——基于计算机视觉的动作识别算法。

从字面意思也很容易理解，动作识别（Action Recognition）是指识别视频和图像中的人体动作行为。

目前，动作识别方法，已经具有非常广泛的应用。

比如用于安防领域，在动作识别算法的加成下，安防摄像头可以及时发现问题并发出“系统警报”，比如在一些严禁烟火的园区，及时发现违规吸烟人群；比如针对高危职业的劳动者，可以辅助识别其是否正确穿戴防护设备或操作流程是否规范，保护他们的人身安全；或者帮助社区养老机构，及时发现老人摔倒等情况。

这些看上去毫无关联的场景，其实都是借助AI领域的动作识别算法实现的。

一分钟了解动作识别“三大难题”

虽然动作识别的“用武之地”很多，但是因为动作识别需要人工智能同时对空间表观、时间变化的双重理解，其难度相比于当前人工智能领域比较成熟的图片识别算法，可以说难度系数提升了许多。

具体来说，不同于简单的图像，视频内容和背景更加复杂多变，这主要体现在以下这些问题：

首先，动作种类的定义本身就十分困难，多大的差异可以算是不同的动作？我们在日常生活中，同样一个动作，每个人的表现可能有极大的差异。拿最简单的比心动作来举例，有人会先抬起一只胳膊，再抬起另一只，但是有人习惯同时举起双臂，与图像只呈现动作的结果不同，视频记录了一个动作的全过程，不同的人甚至同一个人做同样的动作，每一次都可能不一样。如何定义这些是否是同一个动作，如何准确识别并判断2个动作属于同样的动作，是我们需要解决的首个课题。

其次，视频环境差异大，如何随机应变？在真实场景中，视频中的背景复杂度及出现突发情况的概率要远高于图片，我们可能会遇到遮挡、多视角、光照、低分辨率、动态背景等各种情况，比如光照变化，突然的强光；或者突然出现在画面中的遮挡物；镜头突然翻转或者倾斜等角度变化……这些都是动作识别算法落地过程绕不开的难题。

第三，动作随时出现, 如何有始有终？不同的人在做动作时的速度变化很大，而且不会在一个动作开始前发出提示，如何确定动作的起始点，对视频提取动作特征十分关键。就拿摔倒这个动作举例，假如摔倒的判断是由一个人从“站立-滑倒-倒下”的完整过程，我们将其判断为摔倒，我们需要准确找到动作变化的起点和终点，形成完整的动作闭环。与图像识别只有一个静态画面不同，视频中的动作识别是一段时间以内的视频流信息，如何在一段视频中准确找到动作的起点，以及判断出动作结束点，对于人工智能算法都是一个现实的挑战。

动作识别算法道路千万条，旷视选了哪一条？

业内关于视频动作识别常用的技术可以大致分为如下几类：基于人工特征的视频动作识别；融合时序信息的视频信息识别方法；基于骨骼关键点信息的动作识别方法；其他一些未被普遍使用的算法。

但是，目前这些技术主要是为了解决在已知类别的情况下的动作识别问题，这极大地限制了我们方便快速地将动作识别方法应用到实际生活中成千上万种不断变化的动作需求当中去。

所以旷视另辟蹊径，选择了动作识别与检索算法相互融合。即使面对全新的动作，我们也可以通过对特征之间的相似程度来判断动作的类别。

相比其他的动作识别算法，动作识别与检索算法的优势主要体现在两个方面：

首先是简单易用、快速上手、定制服务。动作识别算法需要采集并标注大量的数据，然后训练模型。这里面有两个难点，一个是需要庞大的数据量，这需要耗费大量的人工和时间，另外就是需要大量的时间和算力来训练模型。

而旷视提出的算法模型是一个泛化能力强的通用模型，用户可以自定义其关注的动作形态，只需提供少量样本且模型无需长时间的训练就可以进行识别，实现功能的快速上线。

“只需要2段短视频，每段3秒钟，就可以让机器学会一个动作，并在测试者做出相同动作后，准确地检索出相同的动作。”——2021安博会现场，旷视演示动作识别与检索demo。

图：2021安博会动作识别与检索demo展示

其次是识别精度高，有效降低误报率。旷视将动作的时序变化与其外观表征信息解耦，这样即使是同一个人穿不同衣服或者不同的人（在不同的场景）做相同动作都可以得到相近的动作特征，这有利于我们在现实应用中免除不断变化的人群影响，关注于动作变化本身的识别。

同时，面对时间维度如何判断起终的技术难点，我们选择了多尺度连续判断一段时间内变化的姿势动作，从而不需要确定视频中行为的开始时间和结束时间，这种新的思路，有效地降低了动作识别的误报率。

其实，去年的旷视技术开放日上，旷视已经展示了动作识别与检索demo，在同年12月底的安博会现场，再次向大家展示了动作识别与检索demo的最新进展，经过5个月的打磨，demo在多个方面都有显著的优化，同时整个系统实现加速和体验升级，做到实时反馈结果。

图：技术开放日动作识别与检索demo展示

动作识别与检索也有花式玩法

除了我们前面提到的安防、体育等领域的应用，动作识别与检索算法还可以有一些花式玩法，比如用于智能家居：借助动作识别，用户可以自定义动作控制相应的智能硬件，比如挥手控制智能电视开关和调台等，在追求个性化的时代，用户可以设置自己的“动作开关”，享受定制化的智慧生活。

又比如，在人机交互/娱乐的场景中，可以通过这个算法检测游戏中任意动作的相似度匹配等，减少游戏开发成本的同时增加游戏的可玩性。或者是用于视频推荐领域，用户可以“以视频”找“视频”，找到相似动作的舞蹈视频推荐等。

更重要的是，动作识别与检索算法的持续优化与探索，可以让当前普及的安防摄像头及持续增加的视频数据，发挥出更大价值。比如实时检索视频画面并“预警”，在危险发生前，就采取相应措施；比如依靠人工无法实现的海量视频资料的检索工作，借助动作识别与检索，就可以快速识别出某一“指定”动作。

“技术信仰、价值务实”始终是旷视发展的基因，对动作识别与检索算法的持续研究和实践，让更多算法与实际生产和生活结合，也正是旷视坚持的AI 走向实业的发展之路，人工智能技术，正在让更多美好如约而至。

大家可以开脑洞想想，动作识别和检索还能用于哪些方面，说不定下一个旷视黑科技的“产品经理”就是你。

首发：旷视研究院
作者：R

专栏文章推荐

欢迎关注旷视研究院极术社区专栏，定期更新最新旷视研究院成果
加入旷视：career@megvii.com

聊聊旷厂黑科技 | 动作识别与检索带你体验视频时代“人工智能”新玩法

推荐阅读

目录