阿里云视频云人脸生成领域最新研究成果入选CVPR2022

CVPR（IEEE Conference on Computer Vision and Pattern Recognition）作为计算机视觉和模式识别领域的顶级会议，在全球具有极高的权威性。目前在中国计算机学会推荐国际学术会议的排名中，CVPR为人工智能领域的A类会议。

凭借在人脸生成领域的扎实积累和前沿创新，阿里云视频云与香港科技大学合作的最新研究成果《基于生成对抗网络的深度感知人脸重演算法》(Depth-Aware Generative Adversarial Network for Talking Head Video Generation)被CVPR2022接收。

而最新一届CVPR 2022也将于2022年6月19日-24日在美国路易斯安那州新奥尔良举行。

近年来，人脸重演（face reenactment/talking head）受到了越来越广泛的关注，现有的人脸重演方法严重依赖于从输入图像中学习到的2D表征，而很少引入3D几何信息进行指导和约束，导致生成人脸的结构、姿态和表情不够准确，泛化性较差，难以大规模应用于实际场景中。

阿里云视频云技术团队与香港科技大学联合提出一种具有深度感知的人脸重演算法。该算法的出现，是人脸重演领域的重大创新，其学术和应用价值是值得期待的。尤其是在视频云领域，该算法的应用有望使得音视频编解码的效率有着极大的突破。

算法使用一种自监督的深度估计模型，无需任何3D标注，即可从视频中获得像素级深度图，进而指导人脸关键点的检测和运动场的合成。在人脸生成阶段，利用该深度图可以学习得到跨模态注意力图，以捕捉更多动作细节并修正人脸结构。

因此，该项技术为在特定场景下的视频编解码提供了新的解决方案。例如在视频会议场景中，我们的模型学习使用一张包含目标人物外观的源图像和一段驱动视频来合成人物头部说话的视频。我们的运动是基于一种新的关键点表标注进行编码的，我们紧凑的关键点标注使视频会议系统能够实现与商业 H.264 标准相同的视觉质量，同时仅使用十分之一的带宽。即大幅度降低带宽要求时，仍可实现较高画质和低延迟。

除此之外，该项技术可广泛应用于会议、直播场景或者元宇宙、虚拟人等互动娱乐场景中，可满足各场景中图片视频化的需求。即按照预想动作，驱动各类风格的人脸图片获得对应的视频。可见，利用该技术路径的突破，灵活地应用到热点行业的业务路径中，将收获一股不可估量的助力。

「视频云技术」你最值得关注的音视频技术公众号，每周推送来自阿里云一线的实践技术文章，在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群，和业内大咖一起探讨音视频技术，获取更多行业最新信息。

推荐阅读

目录