腾讯多媒体实验室画质增强技术的前沿应用

全真互联时代，音视频技术内核不断更新迭代，LiveVideoStackCon 2022 北京站邀请到腾讯多媒体实验室视频技术研发负责人——夏珍，与大家分享画质增强技术的一些前沿探索和应用研究，在经典影像中非常重要的画质提升技术人脸修复和去压缩失真的能力，以及在腾讯视频和云游戏中能带来画质增强的技术。

文/夏珍

编辑/LiveVideoStack

我是来自腾讯多媒体实验室的夏珍，一直从事视频处理技术的相关研究与应用，希望分享的内容能给到大家一些帮助，也借此机会向各位同行学习。

本次分享的主题是《画质增强的前沿应用》，内容包括三部分：一是画质增强技术现状，第二部分是画质增强技术的前沿应用，第三部分是画质增强技术的趋势。

-01-

画质增强-现状

下面将从三方面介绍画质增强技术。

当时做PPT时还是22年8月份，当时最火的概念应该是4K/8K超高清、VR、3D等是人们热议的话题，不管是学界还是工业界都是高热点，在这些前沿技术应用里，画面分辨率、细节已达到非常高清的程度，制作内容也达到很高标准，甚至很多显示屏已经超过人眼能分辨的极限。

然而实际生活中，在不同的终端、场景和应用里，相信大家都遇到过以下情况：比如为了视频时画面更清晰，给父母买了像素很高的相机，然而最终呈现的画面依然模糊不清，或是参加线上会议时，经常出现画面模糊，又或是看剧时画质很差。大家会疑虑：内容为什么没有预期的清晰？

导致画面不如预期的因素有很多，包括硬件条件、网络带宽、编码方式、原始素材等，在这样受限的场景下，如何提升用户体验的主观感受呢？

提升画质是摆在很多应用场景下绕不开的命题，画质增强包括哪些技术？又分别能解决什么问题呢？下文将从三个维度进行分析，当然从信号处理的角度有更多维度去评估，比如频域等就不进一步展开了。

首先对于时域维度，即大家理解的时间维度上，他主要解决的视频连续播放时在时域上干扰人眼的信号，在实际场景中会有运动不流畅、画面抖动和时域噪声等问题，所以在时域上会出现对应的解决方案，比如插帧、视频去抖动、时域降噪等。

左侧的哈士奇在转动时会出现卡顿，通过帧率上采样可以使其更流畅。右侧上方是带噪声的影片，下方通过视频降噪算法优化后，画面噪声减少很多。

空域，即从空间的维度上，大家能遇到的大部分问题也是在这个维度上，它主要是提升人眼主观感受的画质，播放时比如模糊、噪声、失真、低分辨率等常见问题，所以在空域上有种类繁多的增强算法，大家都熟知的算法，超分辨率、去压缩失真、细节增强、去划痕等。上方左图存在许多块，编码压缩失真的问题、右图通过优化后获得了更好的画面效果。下方左图包括许多划痕和噪点，右图通过AI去划痕算法后极大改善了画面的画质。

色域，即从颜色的维度上，人眼对色彩是非常敏感，色彩畸变或黑白画面在很大程度上会影响用户的主观感受，在色域上增强技术分SDR域和HDR域的算法，比如SDR2HDR、色彩增强、暗场景增强、HDR增强等算法，都是对色彩进行处理的算法。

上方的图像经过HDR转换后，色彩及色域都更加丰富。下方的图像通过AI自动上色，使得画面丰富度和人眼主观感受有明显提升。

-02-

画质增强-前沿应用

接下来会从两方面介绍画质增强的前沿技术，一个是不太考虑算力但对效果有极致要求的经典影像修复技术，另一个是非常考验算力的终端超分技术。

2.1经典影像修复

这是2022年多媒体实验室修复李苦禅老人经典影像的画面，可以看到其中有很多影响主观质量的因素，包括划痕、雪花点、噪声、失真、模糊、色彩等问题。

这一页总结了影像修复中常见的问题，包括划痕、霉斑、噪声、低分辨率、模糊等，而经典影像修复包含以下几个主要步骤：胶片物理修复、胶转磁，数字修复和优化，最后的上映或保存。

在经典影像修复的过程中，腾讯多媒体实验室积累了深厚的技术和实践经验，形成一套较完整的基于AI的影像修复技术流程，主要分四个大的模块，包括智能分析、画质修复、画质增强和智能转码。

智能分析：对视频进行智能分析，提供包括帧级、场景级和视频级不同粒度的分析，包括画面复杂程度、运动程度、噪声程度、失真程度、色彩丰富度等分析，用以指导后续画质修复和画质增强技术能力的自动化使用。

画质修复：结合了智能分析模块的信息，选取最佳模型对视频进行修复，包括去压缩失真、视频降噪、人脸修复、去划痕等技术能力。

画质增强：根据智能分析模块的信息，合理选择最佳的算法和参数，包括视频超分辨率、色彩增强、细节增强、AI自动化上色、暗场景增强、帧率上采样等算法，经过这样处理后得到完整修复的视频。比如老的影片大部分是15fps或分辨率是720*468，此时画质增强模块会默认开启超分辨率和帧率上采样，对其进行插帧，从而使得影片在大屏播放时呈现出更好的效果。

智能编码：为了更好地进行传输和播放，结合腾讯多媒体实验室最核心的编解码能力，通过最佳人眼视觉的编码方式对视频进行转码压缩，在保证视频主观质量情况下，对视频进行最小质量的转码输出。

这是多媒体实验室“光影焕新”经典影像修复的主要架构，从架构上分为应用层、解析层、分析层、处理层、支持层和封装层。架构上会将智能分析的主要能力放在这一层，然后结合解析层的结果去指导处理层算法的自动化处理，底层也会根据服务器不同采用不同的底层架构，比如GPU服务器会用TRT做统一的深度学习推理库，而如果在CPU架构上则会转换成OpenVINO和其他能力，最后在封装层，根据用户的需求选择对应的码流。

当然在近年的研究和积累过程中，也遇到了非常多的问题和难题，比如去划痕在影像修复中很重要，但在业界研究是个很小众的问题，我们在数据集、算法和模型上都是从零开始构建，比如超分虽然不断有新的进展，但实际场景中适用性都不好，只能针对不同场景开发不同级别的模型。

以去失真生成模型研究为例，首先去失真生成模型解决了什么问题？在经典影像中不同于常见的视频，比如左图放大的画面，因为受限于经典影像拍摄的年代、拍摄硬件、存储等因素，导致画面存在严重破坏画质的问题，比如噪声、编码失真、模糊等等问题，之前的研究过程是先进行去压缩失真、降噪等处理再通过后面的超分辨率、细节增强等算法增强细节，但后面发现在前面进行去压缩失真和降噪等处理已经把细节都丢失了，后面的超分、细节增强很难恢复细节恢复，基于这个问题开发了去失真生成模型，主要解决的是在去压缩失真的同时对细节进行增强和生成，只有两个能力在一个模型里才能在去掉失真的同时生成更丰富的细节。

作为近年对超分辨率研究工作的延伸，腾讯多媒体实验室提出一种高效的失真生成模型。首先模型需要有处理复杂失真的能力，因此在数据集制作中参考现有SR模型的降质过程结合经典影像数据集的特点，尽可能还原经典影像中失真的类型和生成方式，数据集上会采用多种视频编码方式、多种上下采样方法，多种模糊和噪声方式进行数据生成。

模型分为三个模块，对齐模块、AR模块和判别器模块。对齐模块是将前后两帧进行特征对齐，经过性能分析发现，隐式的可变性卷积方式相对显性的光流对齐模块要更高效。AR模块是进行去失真和细节生成能力，最后经过判别器，判别器模块不同于单帧的判别，会提取当前帧空间信息和时域帧间的信息。为实现更高效的目的，采用前后两帧作为对齐帧，网络采用残差结构，光流和AR模块只需要关注特征部分，裁剪模型中对模型影响较小的层。

去失真生成处理前（左图） __去失真生成处理后（右图）

右图不仅修复了很严重的噪声、失真和模糊等问题，比如画面中噪声、背景的抖动和模糊的问题，同时对细节比如人脸、衣服纹理和植物的细节做了很好的生成，做到真正的高清呈现。

2.2端侧-高效超分

云游戏在中国市场成为越来越受关注的云和游戏结合的新模式。而随着云游戏的发展，编解码在云游戏中的应用逐渐得到体现，云游戏也逐渐从满足编解码性能和画质上进入更多拓展阶段，因为云游戏将算力从用户手机转移到服务器上，所以服务器、带宽的成本压力非常巨大，现阶段各公司在“降本增效”上下足了功夫，如何利用视频技术在保证画质体验不变的情况下，节省服务器和带宽成了一个重要课题，比如云游戏需要1080p/30fps才能保证基础体验，而现在使用了超分，只需要在服务器渲染540p/30fps的流，推到本地手机后再通过手机算力进行超分到1080p，实现节省带宽和服务器成本的目的。

接下来介绍腾讯多媒体实验室在云游戏中端侧超分的研究，端侧超分也会应用在腾讯视频中以达到降低成本的目的，端侧超分也是正在研究中的内容，因此提出来和大家一起讨论学习。

首先介绍超分在云游戏中遇到的难点，一个是云游戏对延时相比直播、视频通话要求更高，增加算法影响游戏的体验，二是云游戏大分辨率、高帧率画面，对算法性能要求非常高，三是云游戏终端分布广泛，包括PC、Mac、TV、手机等复杂场景适配困难。

基于以上的难点，腾讯多媒体实验室在模型上下了很大功夫，并基于之前积累的算法经验，提出了“化繁为简”的模型方案，但“简”并不简单。

首先利用残差结构，利用有限网络结构学习尽量多的参数，同时通过蒸馏方案，在中间层的学习中利用导师网络进行指导，第三重参数化，因为性能因素网络层数不够，便利用重参数思想训练复杂的网络，在推理时合并算子达到简化的目的。

经过多次优化，在windows和android上测试了一些不同结构的方案，基本上能达到超分后1080p/30fps的要求，左边的客观指标是在windows端对比传统bicubic和某个竞品的方案，从vmaf/psnr/ssim指标上都显著优于竞品和传统方案，当然这些客观指标其实并不能反映主观质量。

图中可以看出，右图自研超分方案相对于竞品在文字上边缘更细腻、完整，纹理上更细腻和真实，这也是超分需要达到的真实效果。当然方案还在不停优化中，还有很多可优化的点，也希望能和大家一起讨论和学习。

-03-

画质增强-未来

未来的技术发展列了以下四个方向，一个是作为AIGC的基础组件，比如在文生图、文生视频等方向上，画质增强能节省生成时间，生成更大更清晰的图像和视频；第二个是3D方向，比如在人脸建模方向上使用超分后能大幅度提升建模的效果；第三个是上文提到的移动端部署，随着手机性能不断提升，GPU、NPU等逐渐普及后，以前在移动端很难实现的能力也能在移动端落地了，比如云游戏的超分就能达到降本增效的目的，这个场景也可以用在点播、直播等场景中。第四点是画质技术本身应该朝着符合人眼真实度方向发展，比如AI上色怎么能还原以前真实的色彩，人脸修复能否更自然等。

以上是本次的分享，谢谢！如有问题请联系腾讯多媒体实验室：medialab@tencent.com

LiveVideoStackCon 2023上海讲师招募中

LiveVideoStackCon是每个人的舞台，如果你在团队、公司中独当一面，在某一领域或技术拥有多年实践，并热衷于技术交流，欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱：speaker@livevideostack.com。

推荐阅读

目录