安创加速器 · 2022年02月07日

安创芯视野NO.36回顾:没有“真实”场景的元宇宙都是空谈!AI技术重构现实世界的探索之路

第三十六期回顾

2022年1月19日,【安创芯视野】元宇宙单元正式开启。

首期直播,我们邀请到了肇观电子创始人兼CEO冯歆鹏先生,他就AI技术与真实场景三维重构等元宇宙重点话题与上百位业内人士深度分享,以下是本次线上直播分享的视频回放及干货分享,感兴趣的朋友也可以关注“安创加速器”公众号,转发收藏方便观看。
 title=

一、从元宇宙说起,如何将物理世界复刻成虚拟世界?

我们知道在过去的很长一段时间内,科技人员为了能够建立一个逼真的虚拟环境,前赴后继的付出了非常多的努力,一个逼真的虚拟环境,它意味着首先是要逼真,然后是虚拟。逼真的意思是说,在很多情况下,他需要重建整个的一个真实场景,所以它相当于是一种采集,就是把真实场景的这些特征数字化,把它变成我们可以去重新加工的一些数字信息。所以,对于真实场景的采集,是建立元宇宙的一个基础中的非常重要的一块。
 title=
而另外一块,是说当我们数字化了这个世界之后,然后我们如何去生成更多的虚拟目标。这样的话,能够进一步地有助于我们每个人的工作的效率和生活的质量。那么,这两大环节其实都是对元宇宙是非常重要的。所以,第一个过程是说对于真实世界的虚拟化及数字化,第二个过程,就是数字化之后如何再渲染,如何再让人身临其境,然后如何再叠加更多的信息,来使得人获得真实性的感受,所以这是两大块过程。

所以,虽然大家觉得AR和VR的市场经过一段时间的发展,正变得越来越繁荣,但对于元宇宙的实现进程而言,这里面还要解决很多问题。

我们先讨论这样一个话题,如何把真实场景数字化,我们可以看到,像物理世界,它是一个具有空间相关性和时间相关性的一个世界,也就是说空间上它是具有3D三维的这些信息的。同时,时间上也是向前流动的,所以3D的真实世界也是在不断发生变化的。所以,如果把这个物理世界复刻成一个数字世界或是虚拟世界,它其实是需要非常多的技术来做到这一点。
 title=
首先,是要做三维采集,并且要做实时的三维采集。

我们知道空间中的可采集的点其实是无限的,但现有的算力、设备的存储空间及设备的网络带宽都不是无限的,那么我们如何在现有的这些条件下,能够尽量好的把物理世界虚拟化或者数字化,这是很多工程师,很多企业,很多研究机构孜孜不倦追求的一个领域。

最初我们戴着很传统的VR的头盔的时候,大家觉得眼前的网格状效果其实非常明显,现在,我们看到8K显示配置下,网络就变得更加细腻。人们当然希望获得更好的体验,比如在浏览虚拟博物馆的时候,我们希望越精细越好,越逼真越好,这都意味着对于我们如何采集这个世界提出了非常高的要求。所以,只有我们采集的真实,我们才能达到更好的沉浸感

其次,当我们说元宇宙这样一个非常大的技术浪潮的时候,一般情况下我们讲的是一个生态,它是由好几个组件构成的,从底下往上做。

我们先说基础设施,元宇宙本身是有基础设施的,比如说芯片、传感器这些硬件设备,这些核心组件先要成熟,或者要往前走。然后,在这些基础硬件ready的情况下,然后再往上会有核心软件的繁荣,比如说元宇宙的操作系统也好,或者它的生成器也好,到时核心软件会变得越来越成熟。在核心软件变得成熟之后,就是应用软件变得成熟,再往上是生态运营这方面就会繁荣起来。所以,它是一层一层地来构建整个元宇宙这样一个趋势。

那么,率先有所突破的,或者给大家带来可能性的,首先是底层的这些核心的硬件,包括里面的芯片的算力及传感器这些,即采集信息的突破

元宇宙的基础就是一切都要是基于真实场景,因为有了真实场景,你可以在真实场景上叠加各种各样的图层,然后能够去做好各种各样的服务。那么,将物理空间中的物品纹丝不动的重构到元宇宙的虚拟世界中,需要比较强大的AI技术、图像处理的技术以及背后的各种计算能力,尤其是实时地来复刻,这意味着你要在单位时间中把这些都处理完,这个要求就更高。

比如说电影是每秒24帧以上,人眼就看不出来太大的差别,因为这是由人眼的特点决定的。那我们在拍摄的时候,比如拿摄像头拍摄图片,每秒30帧的话意味着在33毫秒之内就需要去实现采集处理一帧。如何能够在这么短的时间内把这些计算全部完成?这其实是一个挺高的要求。所以,包括芯片、传感器在内的元宇宙基础设施核心元器件的涌现,才是元宇宙内容构建的底层技术支撑。今天,我重点会跟大家一起探讨这方面的这方面的内容。

二、元宇宙与机器视觉的关系

如果说内容构建是元宇宙的基础的话,那么,机器视觉就是重构“真实场景”的基础。

首先,内容构建是元宇宙的基础。比如说我身在中国,要跟在美国的一位同事开会互相交流,我们需要身临其境,那么我们会选择一个虚拟会议室,并且肯定是越真实越好,要么是把我这边的会议室虚拟化,或者把他那边的会议室虚拟化,这都意味着内容构建是整个元宇宙的基础,他是有一个共同的空间,这个空间越真实越好。如何重构这些真实的场景,这就涉及到了我们如何去实时地采集,这是非常重要的。
 title=
上面这张图其实是肇观电子在上海办公室的平面图,这张图是由一个机器人通过视觉技术将其走过的区域场景进行复刻,然后通过实时三维重建,把它呈现出来的一个效果。如果您戴着VR头盔或者VR眼镜来观看这个3D模型,你会感觉到栩栩如生。

您看到的这个图,其实是机器人的视角,它观察到这些点,并采集了之后,要经过各种的滤波,各种优化过程。目前优化出来的这些点虽然看上去还不是那么直观,但是基于这些点,我们再利用AI技术,基于想象力就可以再生成一些内容,这样我们就可以把环境变成一个更加漂亮的虚拟环境。当然,这个本质上还是需要真实地采集,真实采集是非常重要的。

那么,具体而言,我们要如何实时重构真实场景?刚才您看到那个场景,实际上是基于肇观电子开发的Feynman 智能深度相机完成的,这个相机采取主动光双目视觉成像技术,并集成了肇观电子自主研发的NE-D163A 芯片。这个芯片有比较强大的几何计算能力,以及3D深度图采集、匹配和各种滤波的这种能力,基于这些能力,我们研发了这款Feynman 智能深度相机。
 title=
我们知道,人类观察一个场景想要获取这种空间感,它其实是基于左眼跟右眼看到的东西有一些相似性,又有一些差异性,根据这些相似性和差异性来判断出物体的距离的远近。比如说我买一支铅笔,如果放在眼前,我们看到左眼跟右眼看到铅笔的位置差距还挺大的。根据这些差异性,我们判断出这个铅笔可能离我的眼睛很近,但如果我们看月亮,我们左眼跟右眼看到月亮几乎没啥差别,那这样其实月亮离我们很远很远。这是人类判断物体远近,以及3D感的一个很重要的方面。另外一方面,人类通过时空时间的相关性,就是他通过前一帧与后一帧,前一秒跟后一秒看到东西的这个相似性和差异性来判断出这个物体的远近变化,智能设备也是一样的。

所以,智能设备基于空间相关性,就是在不同的位置点看到的东西的相似性和差异性,以及在时间顺序上不同的时间点看到东西的相似性,来判断整个空间环境中3D的这些物体之间的空间位置构成。这些其实涉及到比较复杂的、非常大计算量的匹配,因为在不同点、不同时间获得的信息有些相似,有些差异。

对于这些计算工作,如果我们拿传统的CPU或GPU芯片来处理的话,效率往往不是很高,所以如果要做实时采集的话,专门为此设计的这种vision processing unit视觉处理器其实是非常适合的。而肇观电子就是做这样的视觉处理器的这个芯片和系统的公司,像NE-D163A这样的芯片就特别适合用来处理和采集这样的3D环境信息。而基于这样的芯片,我们做出的3D加AI的Feynman智能摄像机,就非常适合来做元宇宙真实场景的复刻这件事。
 title=
我们知道,采集环境信息这件事,之前大家主要是靠激光雷达。激光雷达自然有其特点,它的测距精度是很准确的,但它带来的问题是获得的信息量相对较少,而且如果激光雷达设备中有一些旋转的结构装置的话,可能其使用寿命也会受到一定的影响。

跟激光雷达相比,机器视觉也有一些特点。我们在这种三维采集的情况下,视觉采集的信息量是比较大的。它的特点是更适合采集信息量丰富的,同时需要的后处理计算也比较大的场景,一般情况下,激光雷达和机器视觉可以互为补充,去做很多事情。

但对于三维重建这件事情,基于视觉然后采集到信息,再做AI处理,能够获得更好的效果,同时,能够以比较低成本的方式来获得这样的一个比较好的效果,也是业界的一种共识。所以,如何做好视觉采集,其实对该类型相机的成像能力提出了比较高的要求,他拍得清楚,后面处理才清楚。学电子方面的朋友们都比较了解信息论,根据信息论,有多少信息,采集了多少信息,处理了多少信息,最终流出多少信息,从前面到后面是递减损失的。所以,原始信息采集越清楚越好,越多越好,越完整越好,这样后面就方便后面的这些处理。

然而,采集了这些3D的深度图,这只是3D呈现的第一阶段,后面还有非常多的处理环节。我们知道对于一个相机而言,环境中有各种各样的电源纹波,这些噪声会影响到传感器,这样它采集的点就会有一些波动。这些波动导致你前一帧采集的信息跟后一帧采集的信息就会有微小的位移。以一面墙为例,按道理讲它就是一个平面,但是,如果叠加上电源噪声产生的波动,您采集了几秒钟之后会发现,这个墙面它是好多层,是有厚度的一片点云,它不是一个平面,它有好多平面。

那如何把这些点变得更加的准确?这里就需要滤波,将里面更真实的那些点滤出来,因为你不可能把所有的点都存下来,因为如果你一秒钟要采集至少30帧,这意味着你一秒钟至少采集30张深度图,而每一张深度图都是由无数个点构成,那个数据量计算会爆掉,存储量也会爆掉,后面会没办法计算,所以一定要做各种的滤波,来使得你在这一堆点中找出置信度最高的、最有价值的那些信息,这里面就涉及到非常多的数学计算,这些数据计算也需要像CPU或者GPU这样的芯片,其实CPU做处理也会相对比较吃力一些,那GPU处理的话,这个效率也不是那么的高,用DSP处理效率就会高一些。那么,基于像我们肇观电子做的NE-D163A芯片,上面是内置了DSP的,所以就比较适合用来做这种点云滤波。

三、VSLAM-LIB让机器视觉更加智能

可以给大家介绍一下我们做的这种3D相机,我们实现区域建图实时定位的VSLAM Library,这是软件的这种参考设计。我们支持多传感器融合,前端视觉里程计,后端非线性优化,以及回环检测,规范检测多平台,同时支持多平台部署。这样一套软件的library更有助于大家实现3D采集。
 title=
这款智能深度相机,除了做深度的获取,那上面也有六轴惯性传感器的融合,因为传感器采集点需要保证实时性,所以他要去跟视图做匹配,这样方便后面的处理。此外,我们的这样的VSLAM Library还支持多种地图类型,比如说2D格栅地图,2D拓扑地图,以及3D点云地图,同时支持高精度实时定位,也支持离线模式和在线模式。

机器人边走,或者人边移动,相机边建图,就是基于实时采集的这些信息,后面要做很多很多的优化,各种各样的优化,来把这个地图建得更准。因为如果是实时在线模式,机器人只看一遍这个场景的话,它采集的这些信息重建出来的三维模型是一个OK但不完美的模型,里面还是有一定误差;但如果你给机器人时间,让他自己不停的算,然后让他多看两遍,这样这个这个场景就会变得越精准,所以这是离线模式,要做各种各样的优化。

这样的技术在实时三维重建领域有诸多的好处,它不仅给VR头盔等元宇宙场景带来更多可能,同时也有助于其他产业的升级,比如像机器人在真实场景的互动,因为站在机器人的角度,它也面临着如何从点A到点B的难题,其实就跟人类在一个陌生的商场里面一样。人需要探索这个商场要想办法从这个点走到另外一个点,也是通过记住走过的路,在脑海中构建一个地图,然后通过探索这个商场找到各种目标,然后试图去到达的这样一个过程,其实也是将真实场景数字化的这样一个过程。
 title=
所以,精准的实时三维重建对于机器人而言也很重要。因为我们希望机器人是人工智能,而不是人工愚蠢。但现在很多场景下,还是需要人去做很多事情,机器人才能变得比较有用。

那么,机器人如何变得更加智能?

首先,机器人要能够自主地观看周围,自主地定位,自主地去做很多事情,这样才能够把人从这个繁重的工作过程中解脱出来。比如说送餐机器人或者清洁机器人,它要自主地去做一些事情,它如果要解决从点A到点B的问题,那么它要理解什么是点A?什么是点B?如何从点A到点B?这个过程中,如果遇到障碍,或者遇到一些突发情况该怎么办?因为整个过程中可能环境都是实时动态的,可能有小朋友来好奇,围着这些机器人转,可能有宠物冲过来挡在前面,那它不能撞上去,但是它要改变路径去试图继续完成它的任务。

那这个过程的背后其实就是VSLAM技术的本质,所以,将VSLAM技术应用于三维重建领域,一方面可以帮助AR眼镜或AR头盔更好地实现人与人之间的互动,另一方面是可以将这些信息提供给机器人,机器人可以在实际当中完成各种各样的任务。当然,在狭义角度的三维建图领域,还可以完成现场实勘,以及离线高精度室内全景图等任务。
 title=
关于VSLAM Library技术的性能特点,首先是说它能够站在机器人的视角跑,这样它就能够很快的重建出整个环境,比如说这是一个比较大的办公区域,然后这个行驶区域大概是1000平方米,那么机器人去走一圈,会在采集图的时候同时出现图,出现图之后会优化路径求解和建图。然后,这个整体轨迹的优化和点滤波,得出的结果是地图轨迹的平均误差小于1%。

正下方这个图(上一图的下方图片)的话,您可以看到它是像面粉一样的这么多的点,这些点其实是空间环境中滤波滤出来的,这些就是置信度非常高的这些点,基于这些点,如果再添加上一些信息,它就是一个非常漂亮的地图。然后在右下角的这张图,您可以看到点云的一些细节,您可以看到走廊的灭火器轮廓,以及这些墙面的整洁度,其实是非常逼真的采集效果。
 title=
VSLAM Library复用了稀疏3D landmark地图,可以实时建立出2D的占据栅格图,以用户后续进行控制点任务行走和智能避障,所以是这样的一个功能特点。
 title=
这是肇观电子的一些简介,肇观电子是2016年5月成立一家公司,我们主要是做计算机视觉芯片和系统的这样一家公司,芯片应用也比较广泛,被客户用在了车载、机器人、安防、工业、消费等各个方面,因为这些地方都需要摄像头,都需要这种SoC芯片硬件来处理信息。

这是我的一个简单介绍,接下来看大家有没有什么问题,都可以一起拿来探讨。

四、【自由问答】部分实录

1. 人类喜欢用已有的事物类比未知的事物,于是有人说元宇宙是3D版的互联网,按照这个思路,您觉得肇观电子的定位是什么?

冯:我觉得3D版的互联网可能是一个形象的比喻。按照这个逻辑的话,我觉得肇观电子在做的事情,就是打造虚拟世界与现实世界之间入口所需的核心元器件,属于底层基础设施的部分。

2. 有人说,类似于游戏这样的消费级市场,可能并不会成为元宇宙爆发的核心领域,元宇宙很可能最先在工作场景经历爆发式发展,从肇观电子目前的发展经历与合作模式来看,您是否认同这种说法?

冯:我觉得两方面都有机会。第一方面,我们知道游戏是很多领域往前推进的原动力。因为很多的新技术是由狂热的游戏发烧友去坚持并且推动的,后来再普及到大众,就是因为总是有那个早期的尝鲜者,然后大家坚持下来。这会是一个挺重要的一个原动力,使得在游戏方面能够让大部分人感觉到技术创新的重要性。而对于工作场景或者像to B应用的话呢,它其实是在解决一个具体的问题,所以也很有可能在to B的领域就会流行开。所以从元宇宙如何落地的角度,哪一个最先爆发的话,我们看到to C的游戏应用肯定是一个基础,比如这种核心发烧友,然后再推广到大众的这样一个过程。那么to B呢,往往是说你只要解决了一个挺具体问题,解决效率还比别的做的方法效率高,那你就会比较快速的、会被接受。

3. VSLAM Library这个在什么芯片平台上是做开发的?咱们这个具体对应的芯片平台是什么?

冯:是的,VSLAM Library的话,我们在X86的CPU或者ARM架构的 CPU上跑都没有问题。因为实时三维重构又分为几块,所以我们把它搬到其他平台上,比如说嵌入式的平台上去做的话也没有问题。所以它面对不同的平台是有多个版本。

4. 咱们的渲染引擎用的是什么?目前主要是to B的应用吗?相机是对普通的创作者吗?

冯:是的。我们用的是通用渲染引擎,目前主要是to B,因为我们主要提供VSLAM Library,B端客户基于我们的平台可以去开发to C应用。

5. 是否可能有各处理新芯片支持3D电子地图、遥感地图这类应用?

冯:如果您问的是采集的话,就是像肇观电子做的VPU就非常适合这样的采集,比如说我们有客户把芯片应用在车载方面来做高精度地图的构建,所以确实有这样的应用。

推荐阅读
关注数
2067
内容数
43
专注于人工智能和物联网创业的创新平台
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息