集微网消息 苹果和华为在手机上相继搭载了ToF模组,促使3D视觉市场不断升温。3D视觉技术究竟有怎样的背景?如果要开发,究竟应采取怎样的技术路径?这一系列问题,都成为行业中人关注的焦点。
为了答疑解惑,5月7日,集微网邀请光鉴科技CTO汪博做客第六期“集微直播间·开讲”,带来了以《3D视觉感知的技术原理与前沿挑战》为主题的精彩演讲,收获了业界的极高关注。截至5月7日午间12:00,已有超10000人次通过爱集微APP直播平台、b站、西瓜、百度等直播平台观看了直播节目。
3D视觉技术被称作下一场机器视觉革命,它代表了从黑白到彩色,从模拟到数字,从静态图像到动态视频以来的第四次视觉革命:从2D到3D。
用3D技术拍摄到的照片,包括了物体的结构、尺寸和距离,体现了物体在现实空间的唯一性。“大家可以想像一下,用一个深度相机拍摄一个物体,不但能拍到每个像素的颜色,还能拍到像素的位置,最后就形成一个3D图像。”汪博形象地解释了3D感知的概念。
据他介绍,3D视觉技术还处在早期发展阶段,之前的使用场景主要集中在实验室和工业应用中,自动驾驶虽也是重要应用场景,但目前还没有完全落地和普及。真正让该技术火起来的是2017年苹果在iPhone中使用了3D结构光摄像头。而随着具有3D感知能力的硬件设备逐渐普及,加之苹果也开放了很多3D数据获取的接口,3D人脸重建与识别、3D虚拟世界重建、机器人与工业自动化、3D物体识别和体感游戏与动作交互等应用都获得飞速的发展。
精彩背后必有强大的技术。常见的3D感知技术分3种:双目视觉、结构光和ToF,汪博对其逐一进行了讲解。
双目视觉技术是基于视差原理,并利用成像设备从不同的位置获取被测物体的两幅图像,通过计算图像对应点间的位置偏差来获取物体空间信息。
结构光技术是通过探测投射在被测物体表面特定结构光学图案的变化来测算距离。与双目视觉相同的是,其也使用三角测量法,不同的是增加了主动投射。
ToF(飞行时间)成像技术通过激光器主动发射调制过后的光脉冲信号至目标面上,利用传感器接收反射光,利用反射回激光的相位差或时间差进行运算得到距离数据。
对于双目视觉,汪博指出其两大挑战:如何寻找特征和如何匹配特征。
双目视觉在成像时要对两幅图像进行对比计算,具体到对每个像素点或像素块都要进行比对,这就造成了异常庞大的计算量,需要ASIC或DSP来支持。另外,被摄物体本身特征不明显(如白墙),就很难进行图像重建。
结构光则可以解决白墙的问题。因为其在摄像头中集成了激光发生器,发射出特定散斑结构光,投射到白墙时散斑图案并未发生显著形变,可以计算出对面是白墙。
结构光投射的编码是已知的编码,在散斑投射时就提供了匹配加速的机会。不过,结构光技术也存在挑战,就是需要激光投射装置高效地生成几万个散斑。汪博表示,光鉴科技使用了WFP波前调制技术,对入射的激光进行调制,在远场目标上形成任意光场排布,同时可以大幅提升深度重建速度,毋需ASIC或DSP。
ToF成像技术已经广为人知了,但很多人并不知道该技术还有几个不同的类别。“实际上,ToF技术可分为iToF (indirect)和dToF (direct)两大类。而iToF又分为CW-iToF和PL-iToF。”汪博解释道。
CW-iToF通常采用正弦波调制方式。接收和发射端正弦波的相位偏移和物体距离摄像头的距离成正比, 通过相位偏移来测量距离。
PL-iToF通过发射和接收脉冲信号,根据接收到信号到能量强度的比例来测量距离。
整个iToF技术面临四大挑战:
1.飞点噪声
由于散射光导致边缘变形,而像素有一定尺寸,测量物体边缘时,反射光包含多个距离信息。
2.多路径干扰
真实场景存在复杂的镜面反射和漫反射,在原理上使得测量值变大。
3.强度误差
同一深度、不同反射率物体,测量值存在差异。
4.距离范围
PL-iToF:脉宽越大,量程越远,精度越低。CW-iToF:频率越低,量程越远,精度越低。
dToF技术是直接根据脉冲发射和接收的时间差来测算距离,可以解决多路径干扰的问题,同等光功率下工作距离较远,抗环境光的能力更好,缺点是制造工艺复杂。苹果在2020版iPad Pro搭载了dToF,使得该技术逐渐升温。不过dToF技术还不成熟,只有苹果实现了量产。
在ToF领域,光鉴科技推出了自己的方案——mToF。汪博表示:“m(modulated)就是调制的意思,整个方案还是采用了iToF芯片,通过空域、频域和时域调制,实现了等同于dToF的效果,并在分辨率上超过了dToF。”
总结了三种技术的特点后,汪博认为目前的技术所获得的3D图像虽远未达到期望,但依旧有美好的未来。“深度相机现在与专业设备的差距,就相当于当年手机与单反之间的差距,10到15年内就会追上。”他相信,未来每个人的手机都是一部高精度的3D相机。
最后,汪博表示:“光鉴科技的愿景就是要创建一个新的维度,让机器视觉给人们的生活提供更多的机会。”
**互动问答
Q:3D视觉技术如果落地,会带来什么样的使用体验?**
A:在消费电子领域,3D视觉技术目前有3个用途:一是做3D识别,二是做3D重建,三是做2D拍照增强。3D识别应用包括了各种通行检查,还有支付认证。3D重建常见于用手机拍摄人脸模型或实物模型。2D拍照增强主要是在iPhone拍照时会对照片进行自动补光,能实现对照片复杂的后期渲染。
Q:苹果在3D视觉方面切入很早,设置了很多壁垒,国内企业如何进入?
A:苹果在专利和供应链上都设置很多壁垒。在安卓手机上,要做深度相机会遇到一系列问题。我们公司有一套自己的、具有独立知识产权的方案,可以绕过苹果专利的壁垒。同时,该方案在物理结构上和苹果的不同,采用了不一样的器件,在供应链上更有保证。而且,当前面临中美贸易战,更要注意这些问题。并且,也需要有自己创新的方式,要走在技术的前列,而不是单纯的模仿。
Q:iToF的应用领域有哪些?
A:在手机上,如华为P40的后置摄像头就采用了iToF技术。此外,还有扫地机器人、物流机器人等,也采用了该技术去做环境的感知。
Q:dToF阵列密度为什么不如结构光和iToF?
A:dToF采集信号的方式导致其前端需要单独算力,电路结构更复杂。其前端获取了直方图,要提取出返回信号的峰值,不仅需要感知电路,还要计算电路,这使其芯片面积更大。在同等面积下,iToF和结构光传感器的电路更简单,可以放更多的电路阵列。更多关于iToF与dToF的比较可参阅光鉴科技最近发布的《ToF深度相机技术白皮书》。
Q:现在有了ToF芯片,对算法的要求是不是变低了?
A:算法在ToF里有非常重要的地位。算法有两大作用:一是在出厂前做一些标定校准,把芯片本身的误差消除。二是在获得数据之后,会做一系列的优化,如消除多路径干扰等。
Q:苹果在dToF上有设置技术壁垒吗?
A:苹果在dToF和结构光方面都有一系列的专利壁垒,想走相同技术路线的厂商会遭遇一定风险。在dToF方面,苹果更大的优势来自产业优势,其定制了一个专用芯片,比其他厂商要领先两年。
Q:请预测10后iToF和dToF各自的市场份额。
A:市场份额很难预测。在短距离、低成本上方案上,iToF更有优势。如果测量距离比较远,成本空间又大,则适合dToF。如果是近距离拍照,dToF的误差并不低,反之,iToF、结构光更精准。要根据具体应用,来分析各自的市场表现。
Q:iToF和dToF将来会发生一方替代另一方吗?
A:A技术的劣势要跟B一样好,或是成本足够低,才可以替代B技术。如果两者都在不断迭代,各自有适用的场景,很难判断哪个技术会占据绝对的优势。
Q:手机厂商是否放弃结构光,大规模使用ToF技术?
A:目前的趋势是后摄上ToF使用多,结构光在前摄上优势明显。结构光在手机上最主要的挑战来自于全面屏。机构光需要手机的“齐刘海”结构,会影响到产品设计和使用感受。光鉴科技有独特的方案,可以使得前摄想用结构光的手机,避免出现“齐刘海”。
Q:3D视觉技术怎么去支撑AR/VR技术?
A:AR/VR前几年很火,现在降温不少,正处在低谷,长期看还是有很好的前景。目前,AR设备显示效果还不理想,并且缺乏3D数据的来源,之前3D数据的获取还是比较稀缺的。而这也是我们做3D感知的动力,让大家都能够成为3D内容的创造者。
而且,5G的发展给3D数据的传输带来高带宽、低延迟的机会。高带宽使得3D数据传输更快,低延迟使得部分计算可以放到云端去做,减轻移动端的处理、功耗压力。
“集微直播间·开讲”栏目是集微网推出的一档大咖私享栏目,目前已成功举办6期。每期邀请一位行业大咖通过线上直播形式结合当下热点进行主题分享,同时设置直播间文字提问互动环节。
5月9日(周六)10:00,集微网将邀请上海磐启微电子有限公司市场&工程副总经理杨丰林做客第七期“集微直播间·开讲”,带来以《无线通讯技术如何撬动万亿级工业互联网市场》为主题的精彩演讲。
随着5G的到来,无线通信技术正在成为工业互联网场景中广泛使用的技术。在此背景下,如何在不同场景中善用无线通信技术,从而更好地将应用场景与通信技术紧密结合,挖掘其中的市场应用价值,第七期“集微直播间·开讲”将重点关注。