云鹤 · 2023年08月29日

无聚类实时3D点云全景分割网络CPSeg

激光雷达作为自动驾驶车辆主要的感知传感器之一,其主动测距性、不受环境光照影响的特点,使得点云成为感知算法的核心“燃料”,有关点云的感知算法研究一直方兴未艾。其中,基于点云的语义分割和全景分割则吸引着广泛的研究兴趣。

语义分割输出激光雷达的每个点云级别的物体分类信息,已经被众多自动驾驶系统深度使用。具体来说,点云的语义信息经过进一步处理,能够生成运动目标的实例级估计,加上静态环境的语义估计,就构成所谓的全景分割任务。点云语义同样能用来辅助运动物体的3D检测任务、自车的高精度、高效率的语义特征图层构建以及定位任务、静态道路认知中的车道线和路沿检测任务等等,应用可谓既深又广。因此,基于点云的语义分割和全景分割的研究价值非常巨大。

全景分割应用于自动驾驶端侧系统的难点在于,在有限的算力约束下不但要保证点云分割的准确性,还有高效的输出前景的动态目标的实例分割。当前的点云全景分割方案多数使用筛选候选区域(proposals)或点云聚类(clustering)来分割前景实例,很难做到二者兼顾。

华为诺亚方舟实验室自动驾驶项目的最新自主研究成果《CPSeg: Cluster-free Panoptic Segmentation of 3D LiDAR Point Clouds》取得了突破性进展,相关论文被ICRA2023录用。

预印版本的论文链接:https://arxiv.org/abs/2111.01723

论文录取时在Semantic KITTI和nuScenes两大重量级激光雷达全景分割排行榜上的实时方法中都取得了最好的结果。为了应用于端侧,激光雷达全景分割任务通常将点云投影到深度图的像素进行语义分割,并对每个前景像素进行实例分割,从而达到实时性的要求。而华为的这套方案不依赖于聚类算法,同时取得了很好的实时性和准确性的,我们下面来看看具体是怎样做到的。

方法介绍

image.png
图 1激光点云全景分割任务和CPSeg整体框架

方案简介

CPSeg(Cluster-Free Segmentation)不需要依靠任何筛选候选区域或点云聚类算法,而是利用对激光点云数据的学习,提出了一种无聚类全景分割模块(Cluster-free Panoptic Segmentation Module),来分割前景对象从而实现实时预测。该网络由一个双解码器 U-net 组成,并处理经过距离图像的投影后的输入点云以获得语义的预测和每个前景像素与其对应实例质心偏离的预测。其中,负责质心偏离预测的解码器有效地依靠一个新颖的深度补全算法和快速表面法线计算模块,从而提高了预测能力。紧接着U-net,无聚类全景分割模块将这些信息转化为实例的预测,将属于同一个实例的点云联系在一起。最后,快速的后处理步骤结合语义和实例的预测并将结果投影为点云全景预测。

image.png
图 2网络具体整体架构

无聚类全景分割模块

利用前景像素与对应实例质心偏离的预测,此模块的目标是将前景像素分割为各个前景对象。首先,前景像素点根据预测的偏离被移至该点预测的实例质心。移动后的新的位置成为该点的嵌入特征(point embedding)。其次,基于二维网格生成一系列的支柱,并将位置相近的点圈进同一个支柱。每个生成的支柱的嵌入特征(pillar embedding)是被组合在一起的点云的平均嵌入特征。接下来,该模块构建出一个成对比较矩阵,用来查找与每个支柱相连的支柱,并使用一个简单的算法(find connected components)来查找连接的不相交集并为它们分配单独的实例 ID。最后,支柱实例ID被映射回深度视图。语义和实例分割结果现在都可以重新投影回点云并进行后处理,从而生成最终的全景分割结果。

image.png
表1 Semantic KITTI测试数据集结果

image.png
表2 nuScenes lidarseg测试数据集结果

CPSeg在Semantic KITTI 和nuScenes lidarseg这两个激光雷达点云全景分割数据集上均进行了测试,结果见表1和表2。从两张表中可以看到该网络在这两个数据集上均对以往实时的(超过10FPS的)模型有较大提升并取得最佳的结果。其中,在nuScenes lidarseg数据集上,主要指标PQ超过了之前的实时SOTA方案至少2.3%,而mIOU更是超过了至少4%。

在图4中,在一些可视化的实例里,对比其他模型在行人密集或车辆相近的情景中经常出现分割过度或分割不足的情况,CPSeg利用表面法线算法以及无聚类全景分割模块有效地提升了辨别紧挨实例的能力。 尤其是图4下半部分nuScenes数据集的例子,远处的运动车辆和侧面人行道上的行人在传统聚类算法中都出现了分割不足的问题,而CPSeg不仅能够正确分割,而且因为实时性较好,比较善于处理这种动态场景的全景分割。

image.png
图4 测试集预测结果与误差可视化

【免责声明】
华为在本公众号所载的材料和信息,包括但不限于文本、图片、数据、观点、建议、网页或链接,虽然华为力图在网站平台上提供准确的材料和信息,但华为并不保证这些材料和内容的准确、完整、充分和可靠性,并且明确声明不对这些材料和内容的错误或遗漏承担责任,也不对这些材料和内容作出任何明示或默示的、包括但不限于有关所有权担保、没有侵犯第三方权利、质量和没有计算机病毒的保证。

华为可以在没有任何通知或提示的情况下随时对网站上的内容进行修改,为了得到最新版本的信息,请您定时访问本网站。华为(含其关联公司)在本网站上所提及的非华为产品或服务仅仅是为了提供相关信息,并不构成对这些产品、服务的认可或推荐。华为并不就网址上提供的任何产品、服务或信息做出任何声明、保证或认可,所有销售的产品和服务应受华为的销售合同和条款的约束。

作者:诺亚方舟实验室
文章来源:诺亚实验室

推荐阅读

更多嵌入式AI相关技术干货请关注深度学习压缩模型论文专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
1856
内容数
25
深度模型压缩、加速、自动搜索。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息