编者按:随着时代的发展,内容传播的形式在不断演进,而从2维升级到3维,是科技发展之必然。在未来几年,3D影像技术将加速全面向市场渗透。LiveVideoStack邀请到了螳螂慧视的骆晓峰老师,为我们介绍3D成像技术。
文/骆晓峰
整理/LiveVideoStack
大家好!我是骆晓峰,来自螳螂慧视,很高兴能跟大家做一次分享。今天,我分享的主题是:3D成像技术。
今天,我分享的内容主要分为三个章节。首先,介绍一些相关的背景。然后,介绍3D成像技术。最后,介绍几种3D的应用场景。
01 2d到3d
首先,介绍从2D到3D的背景。
两百年前,人类拍下了第一张照片。经过两百年的发展,2D影像技术渗透到各行各业,为了追求更好的展示,开始了3D影像技术的研究。从2维升级到3维,也是科技发展之必然。
我们的感受也在不断变化。最初,我们从平面媒体(比如报纸)获取信息,这涉及到视觉。然后,我们可以从广播获取信息,这涉及到听觉。接着,我们可以看电视来获取信息,这涉及到视觉和听觉。再然后,我们使用电脑和智能手机来获取信息,这涉及到视觉和听觉,并且我们还获得了交互体验。现在我们可以使用VR、AR和XR,而3D光学是AR、VR和XR的核心。从硬件方面来看,硬件已经发展到了一定的阶段,可以在现有的硬件上呈现一些3D的效果。
无论是元宇宙还是虚拟现实,都需要大量3D数据。之前认为3D数据可以通过建模得到,比如需要一个桌子,可以通过计算机建模得到。那么有没有更好的方法来获取3D数据呢?
02 3D成像技术
3D成像技术就是利用3D相机使一个3D物体进行快速成像。我们的主要目标是使现实世界数字化。
3D成像技术的原理是三角成像原理。三角成像原理参考了眼睛成像原理,单个眼睛或单一镜头无法获取深度数据,所以需要两个眼睛。右图展示了与结构光相关的原理,摄像头拍摄激光上的激光数据来成像。
目前主流的3D成像技术主要是以下几种。首先是双目,这是大家常用的技术,现在的闸机就采用了这种技术。双目模拟了人的眼睛,观察同一物体时,两只眼睛看到的物体是不一样的,通过该差异性可以计算得到3D数据。然后是结构光,主要有两种方案。一种是散斑结构光,目前很多公司都在使用这项技术。散斑结构光在2005年由以色列的PrimeSense公司创建,iPhone使用了这项技术,并使这项技术进入大众视野。目前,苹果公司掌握了散斑结构光的大部分专利。PrimeSense曾与微软一起开发Kinect,在国内也会经常接触到Kinect,因此国内很多3D方面的研究基于Kinect 3D相机,国内大部分使用的也是散斑结构光技术。另一种是编码结构光,散斑结构光投射出来的是点,而编码结构光投射出来的是图案。编码结构光在2005年由以色列的MantisVision公司创建。目前,小米8透明探索版的前置摄像头采用了编码结构光技术。最后是TOF,即飞行时间,其计算发射光和光从物体反射回来的时间差,激光雷达就使用了TOF技术。TOF主要有两种方案,一种是dTOF,其原理是通过光源发射脉冲,接收端接收从物体发射回来的脉冲,并计算两个脉冲的时间差。另一种是iTOF,光经过连续波调制后发射出去,通过比较发射时的图和接收时的图得到载波相位差,并基于此得到深度信息。
接下来详细介绍散斑结构光。这是一张镜头的示意图,其原理如下。首先是一个发光器件,由其发射光。然后经过准直镜,发射出来的光较为发散,亮度不够,而准直镜可将发散光路变成平行光路。最后,通过DOE投射出点阵。众所周知,在远的地方看点会发现点比较小,在近的地方看点会发现点比较大(结果大致如图所示),这就是散斑结构光的原理。
然后,详细介绍编码结构光。与散斑结构光不同的是,编码结构光投射出来的是图案。这个现象可以参考我们小时候的手指游戏,即用手指做出不同形状,然后手电筒照射手指,可以投影出不同动物的样子。同理,在镜头上放置一个mask图案,发射光时就可以将图案投影到物体上。由于物体是凹凸不平的,投影到物体上的图案会变形,可以基于此计算得到3D数据信息。在散斑结构光和编码结构光中,光发射出去和光反射回来即为一帧。
目前,大多使用IR摄像头,这是因为为了与可见光有区别,我们使用了红外光。激光器发射光,IR摄像头则拍下相应图像然后进行计算。由于有时需要获取颜色的信息,所以会增加一个RGB摄像头。以上内容就组成了整个模组,iPhone和小米8就有此类前置摄像头模组。除了这些基本构成,还添加了接近感应器等。iPhone配备了接近感应器,一方面是为了在接听电话时使手机自动灭屏,另一方面是为了保证安全性,因为红外光对人眼有损害,所以在人眼离手机的距离在一定范围内时,会关闭发射器。
在散斑结构光中,DOE会发射散斑光。当镜头损坏或DOE破损时,准直后的激光光束可能会直接照射到人眼,从而对人眼造成伤害,所以采用散斑结构光技术时必须做人眼安全方面的工作。在编码结构光中,在投影镜头上放置了mask,光束受到了遮挡,不会直接照射到人眼,所以在编码结构光中,一般不会引进人眼安全相关的技术。
接下来,详细介绍dTOF,即LiDAR。在dTOF中,发光器发射脉冲,脉冲碰到物体时会反射回来,然后计算得到脉冲的时间差。时间差越小则距离越近,时间差越大则距离越远。这其中有一个难点,由于很多时候拍摄时距离物体较近,时间差较小,所以需要一个精密度较高的时钟。
iPhone 12 Pro和iPad Pro采用了dTOF,华为、vivo和OPPO采用了iTOF。这是因为苹果掌握了dTOF的大部分专利,且很多功能不开放。在iTOF中,发射出来的不是脉冲而是正弦波,然后计算发射时的波和接收到的波的相位差,可以得到时间等信息。总之,iTOF以面发射光,dTOF以点发射光。
此外,还有很多其他的3D成像技术,此处不再做介绍。
03 3D摄像录制
最后,介绍几种3D的应用场景。
这是iPhone上的摄像头,当人在解锁手机或进行支付时,拍摄单帧图像就可完成相关操作。这通常用于活体识别、人脸识别和人脸支付等。比如,在前段时间比较火的人脸支付中,就采用了这种单帧摄像的方式,即拍摄单帧深度图或点云进行处理。
采用3D摄像头还可以避免“照片攻击”。在2019年,曾有新闻报道称可以用照片解锁丰巢快递柜,因此人们开始质疑人脸识别的安全性。iPhone X采用了3D摄像头,其识别到的是3D数据,可以进行活体识别,避免了“照片攻击”。
接下来介绍单设备扫描。当一帧图像不够时,可以使用设备对物体进行扫描。在扫描的过程中,3D图像会慢慢呈现出来。当物体有遮挡时,要采用合适的扫描方式。单设备扫描的主要对象是静态物体,比如石狮子、杯子、沙发等。
另一种是多设备静态拼接。如图是一个demo,采用一组摄像头使其各拍摄一帧图像,并将图像拼接起来得到人脸模型。目前,这种设备已经开始出售,其原理就是使用多设备对物体进行多角度同时拍摄。单设备扫描的成像速度较慢(需要持续扫描才能成像),而多设备静态拼接的成像速度较快,就像只按了一下快门,因为其采用了多设备进行拍摄。在遮挡部位较多的情况下,比如拍摄人的下颌,就要采用多设备拍摄。
接下来介绍动态3D影棚。之前介绍的录制方式的对象主要是静态物体,动态3D影棚则可实现实时预览和动态直播,延迟可以控制在500ms以内。其中,主要的问题是3D相机同步和多镜头干扰。之前提到,为了与可见光有区别,我们采用了红外光,当两个镜头同时向同一个物体发射光束时,物体上会有两个叠加在一起的图案,这就造成了多镜头干扰。为了解决这个问题,多镜头需要进行分时拍摄,但间隔时间不宜太长,要保证当前镜头拍摄完后,紧接着下一个镜头就开始拍摄,将速度保持在20-30fps。这样,拍摄出来的就是动态的画面。
以上就是今天介绍的主要内容,谢谢大家!