【专利解密】华为基于改进的航拍模型发明视觉定位方案

【嘉勤点评】华为发明的视觉定位方案，通过将地面模型的坐标系转换到航拍模型的坐标系，并基于第一图像的天际线和建筑物线面语义信息和空地模型中的地面模型进行视觉定位，从而提升了视觉定位的成功率和精度。

集微网消息，视觉定位是使用相机所拍摄的图像或者视频来进行定位，精确定位出相机在真实世界中的位置和姿态，是近些年来计算机视觉领域的热点问题。

尤其在增强现实、交互虚拟现实、机器人视觉导航、公共场景监控、智能交通等诸多领域，都具有十分重要的意义。目前，视觉定位技术主要包括基于无人机基础地图或者卫星地图的视觉定位方法。

无人机基础地图主要通过无人机对场景进行倾斜摄影，根据采集到的数据进行运动恢复结构三维重建得到的，或者通过卫星对场景进行白模重建得到的。基于无人机基础地图或者卫星地图的视觉定位方法，使用该无人机基础地图对相机所拍摄的图像或者视频进行定位，获取相机在无人机基础地图中的6个自由度位姿。

这类视觉定位技术虽然可以应对大规模场景的视觉定位，但是也存在着定位成功率较低和定位精度不高的问题。

为此，华为在2020年2月27日申请了一项名为“视觉定位方法和装置”的发明专利（申请号：202010126108.0），申请人为华为技术有限公司。

根据该专利目前公开的相关资料，让我们一起来看看这项视觉定位方法吧。

如上图，为该专利中发明的视觉定位方法的流程示意图，首先，终端设备通过摄像头采集第一图像，即需要进行查询的图像，再将第一图像发送至服务器，当服务器接收后，会根据第一图像和航拍模型，确定图像的第一位姿，这里的第一位姿，即为图像中捕捉到的内容所在的位置。在该专利中，提出了一种改进的基于航拍模型的视觉定位方案，该方案可以有效结合第一图像的天际线和建筑物线面语义信息，确定第一位姿，提升定位成功率和定位精度。

具体来说，服务器会根据第一图像的天际线确定N个初始位姿，以及根据第一图像的建筑物线面语义信息、该N个初始位姿和航拍模型，确定第一位姿。接着，服务器再根据第一位姿确定第一虚拟物体的描述信息，并将该信息返回给终端设备。最后，终端设备在用户界面上显示出由该描述信息对应的虚拟物体，例如通过增强显示的方式带给用户较为良好的体验。

如上图，为上述这种改进的基于航拍模型的视觉定位方法的流程图，首先，该模型通过第一图像对应的终端设备的位置信息和磁力计角度偏转信息，确定初始位姿集合。终端设备的位置信息包括GPS信息和磁力计角度偏转信息。

再根据第一图像获取第一图像的天际线和建筑物线面语义信息，在这个过程中，通常使用语义分割网络来区分出建筑物、天空、植被和地面等。接着，根据获得的天际线和航拍模型，在初始位姿集合中确定N个初始位姿并进行相应的优化。最后，根据建筑物线面语义信息、优化后的N个初始位姿和航拍模型来确定第一位姿。

如上图，为经过语义分割后的效果图，将第一图像(上图最左侧的图像)输入至第一语义分割网络，第一语义分割网络可以区分出建筑物、天空、植被和地面等，输出语义分割效果图(上图中间的图像)，基于该语义分割效果图提取天际线，即可得到第一图像的天际线(上图最右侧的图像)。

以上就是华为发明的视觉定位方法，该方案将地面模型的坐标系转换到航拍模型的坐标系，并基于第一图像的天际线和建筑物线面语义信息和空地模型中的地面模型进行视觉定位，从而提升了视觉定位的成功率和精度。

关于嘉勤

深圳市嘉勤知识产权代理有限公司由曾在华为等世界500强企业工作多年的知识产权专家、律师、专利代理人组成，熟悉中欧美知识产权法律理论和实务，在全球知识产权申请、布局、诉讼、许可谈判、交易、运营、标准专利协同创造、专利池建设、展会知识产权、跨境电商知识产权、知识产权海关保护等方面拥有丰富的经验。

（校对/holly）

推荐阅读

目录