来源:SIGGRAPH 2020
内容整理:桂文煊
在沉浸式视频中,主要挑战之一是以一种合理的方式对其进行压缩,即可以以合理的比特率进行流式传输,并实时解码和渲染。本文开发了一种压缩多平面图像(MPI)的新方法,可以在 PC 端上实时播放,并为用户提供无需头戴设备的沉浸式观看视频体验。
目录
- 沉浸式视频的背景以及挑战
- Multi Plane Images(MPI)
对MPI进行压缩
- 压缩测试方案
- 将RGBA图像转化到YUV4:2:0
- 采用同一个RGB纹理图
- 采用同一张alpha图
- 压缩小结
- 未来工作
沉浸式视频的背景以及挑战
传统的视频内容往往只能给用户提供一个固定视角的画面,其视频背景给用户的感觉就如一张贴图一般,缺乏真实性。为了为用户提供一个更好的视频观看体验,沉浸式视频如今已经成为了研究人员们新兴的研究方向。在本文中,沉浸式视频指代的是视频内容随着人体头部的移动也相应进行移动的视频。对于沉浸式视频的传统做法是利用多个相机来拍摄不同角度的视频内容。理想情况下,无限个相机可以提供各个角度的视频,但受限于设备价格与设备摆放的问题,无限相机显然是不可能的。在实际操作中,往往采用固定数量的相机来获取多视角的图像。但当人的观察角度处于两个相机之间时,视频内容需要根据已知相机作为参考。获取场景中的深度图是常见的一种处理办法。其通过参考相机的参数以及其拍摄的参考图像,将图像从相机空间转换至世界空间,从而获取最终的输出图像。这种方法不仅计算复杂,而且对于某些像素点来说,其深度值是不定的。该工作采取了一种比较新颖的新视角合成方法:Multi Plane Images (MPI)
Multi Plane Images(MPI)
这种方法一般适用于处于同一水平基线的左右视角图像作为输入的情况。其利用一个深度神经网络模型推断出 MPI 的场景表达,并且重建出最终所要生成的图像。示意图如图1所示。
图1 MPI合成新视角示意图
MPI场景表达方式包含多个平面,每个平面d编码两种信息,一种是RGB颜色图像,另一种是透明度alpha图,因此整个MPI可表示为RGBA图像的集合,如图2所示。(作者采用了32个平面)
图2 MPI实例
强大的GPU算力对于静态图像的渲染是非常轻松的,因而对于MPI方法中新视角的合成是非常容易实现的。但其中存在着带宽问题。在30fps下, 一个32层、1920×1080分辨率的MPI场景需要占据8GB每秒的带宽,这对于绝大多数用户显然是难以承受的。因而对于MPI必须要进行压缩。
对MPI进行压缩
压缩测试方案
压缩是为了使MPI能以合适的比特率进行流式传输,但其对于最终输出的图像质量不能有太大的损失。作者用以下办法对压缩中存在的损失进行测试。
图3 测试内容
测试内容如图3所示。作者采用4x4的相机阵列,并且标记了一些相机之间的中点c0、c1、c2、c3,如图4所示。作者对这些位置中得到图像的PSNR值进行测试,并且最终结合比特率进行了比较。
图4 相机阵列以及参考点示意图
将RGBA图像转化到YUV4:2:0
由于绝大部分的用户所使用的电子设备都已经具备了硬件解码器,所以作者采取了一种标准的视频压缩算法,例如HEVC。压缩后得到的结果如图5所示。
图5 32YUVA测试结果
可以看出压缩后的PSNR值仍然非常高,在图像质量只有较小的降低,但其在比特率上有着1.8倍的降低。
采用同一个RGB纹理图
在进行了比较经典的YUV视频压缩后,32个YUV图和32个alpha图仍然有比较重的传输负担。考虑到32张RGB纹理有着很强的一致性,作者在此保持32个alpha图不变的情况下,采用了原始相机图片作为32个平面统一的RGB纹理。再度压缩后得到的结果如图6所示。
图6 1YUV-32A测试结果
可以看出在几个参考点上PSNR值只有很小幅的降低,而在相机位置上质量甚至有所增加,这是由于所选取的RGB纹理图是原始相机图片。而在比特率上又进行了32倍的大幅度降低。
采用同一张alpha图
由于alpha图的稀疏性,可以模仿对于RGB纹理的操作,将32张alpha图编码为一张alpha map,示例如图7所示。
图7 alpha map示意图
再度压缩后测试结果如图8所示。
图8 1YUVA测试结果
从结果上可以看出图像质量上有着很小幅的降低,但在比特率上则再度进行了压缩。
压缩小结
作者将32层平面的RGBA图像一步一步压缩为单层的YUVA图像,示意图如图9所示。
几种压缩的结果可由图10直观表示。虽然32YUVA与1YUV-32A能在图像质量上超过1YUVA,但是其需要非常大的比特率进行传输,而在较小的、合适的比特率下(例如20Mbit/s),1YUVA的图像质量远超于其他两种。
故这种压缩方法能在保持图像质量可接受的情况下,大幅降低所需要的比特率,其使得MPI的存储以及传输能够更加灵活。
未来工作
1、能够具有更加丰富的测试内容
2、跨相机压缩
3、提升alpha map的质量
附上演讲视频:
作者: 媒矿工厂
来源: 媒矿工厂
推荐阅读
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!
欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。