转载自:计算机视觉工坊
编辑: Mino
导读:
由香港大学CVMI Lab和牛津大学合作提出了一种点云上具有动态内核组装的位置自适应卷积——PAConv: Position Adaptive Convolution with Dynamic Kernel Assembling on Point Clouds,论文已被CVPR2021接收。
PAConv的卷积核由多个基本权重矩阵组装而成,而在组装过程中,这些权重矩阵的系数是通过点的位置关系自适应学习得到的。这种以数据驱动构建卷积核的方式赋予了PAConv很强的灵活性,以更好地处理不规则和无序的点云数据。此外,与现有点云卷积高度工程化的网络结构不同,作者将PAConv直接集成到基于MLP的经典点云网络架构中,而无需更改原有的网络配置。即使建立在简单的网络架构上,PAConv仍然以很高的效率在点云分类、部件分割和场景分割的任务中表现SOTA。目前全部的代码和模型都已开源,欢迎大家follow!
论文、代码地址:在公众号「计算机视觉工坊」,后台回复「PAConv」,即可直接下载。
一、引言
近年来,深度学习在三维点云处理上取得了显着进步,但鉴于点云的稀疏性、不规则性和无序性,这仍然是一项具有挑战性的任务。现有方法大致分为三类:第一类是对点云进行体素化以便可以采用三维网格卷积处理,然而重要的几何信息可能由于量化而丢失,体素化通常也会带来额外的存储和计算成本;第二类是用共享MLP处理所有点,这种方式难以表征点云空间复杂的变化关系;第三类则是设计可以直接处理点云的卷积核,现有方法亦受限于计算复杂度或灵活性,本文中也特别对现有的点云卷积与本文方法的关系和区别进行了详尽的讨论。
本文提出了一种即插即用的位置自适应卷积PAConv,通过动态组装基本权重矩阵来构造内核,这些权重矩阵的组合系数由ScoreNet自适应地学习点的相对位置关系得到。PAConv以数据驱动的方式灵活地对三维点云的复杂空间变化和几何结构进行建模,同时保持很高的效率。另外值得一提的是,最近的点云卷积工作大多采用其量身定制的复杂网络架构,使得我们难以评估到底是其自身卷积操作还是网络设计而带来性能的提升。所以,作者直接将PAConv集成到最简单的MLP点云网络中,旨在最大程度地降低网络结构的影响,以更好地评估PAConv本身的性能。
二、方法概述
至此,本文还将PAConv与现有主流的几种点云卷积PointCNN,PointConv和KPConv进行了详细的对比论述。
三、简单的网络结构
虽然最近的点云网络结构差异较大,但是大多数可以视为经典的MLP点云网络的不同变体。为了评估PAConv的有效性并最大程度地减少复杂网络架构的影响,作者针对不同的点云任务采用了三个基于MLP的经典且简单的网络主干来集成我们的PAConv,而不修改原始的网络架构(如网络层数、特征通道数)。
对于物体分类和物体部件分割任务,作者直接使用PAConv替换了DGCNN中的EdgeConv 和PointNet编码器中的MLP。而对于室内场景分割任务,作者采用了PointNet++最简单的单尺度分组(SSG)版本,并用PAConv直接替换PointNet ++编码器中的MLP。
四、实验
对于物体分类任务,作者采用了ModelNet40数据集,取得了现有方法中最高的分类准确率,并且在不改变原始骨干网络PointNet和DGCNN的结构的情况下,分别带来了明显的提升。
其次,本文还在物体部件分割任务的数据集ShapeNet Part上对PAConv进行了评估,同样也给DGCNN带来了显著的提升。
最后,作者进一步在大规模室内场景分割数据集S3DIS上测试了PAConv的性能。值得一提的是,KPConv和PosPool都对输入点云进行了体素化(Grid-sampling)预处理以获得更规则的输入结构和更多的背景信息来提升性能,然而这种方式不可避免地带来更多的训练内存开销,所以作者直接参考PointNet++采用了更简单的块采样(Block-sampling)来进行数据预处理。PAConv依然为骨干网络PointNet++带来了明显的提升,并保持着较少的计算开销(FLOPs)。
此外,论文还可视化了ScoreNet学到的系数在空间中的分布。可以看出,对于每个权重矩阵,其系数的分布是不同的,表明不同的权重矩阵捕获了不同的点位置关系。
五、总结
本论文提出了PAConv,一种具有动态内核组装的位置自适应卷积,用于点云处理。PAConv通过结合Weight Bank中的基本权重矩阵以及通过ScoreNet从点位置学习的相关系数来构造卷积核。通过将PAConv集成到简单的MLP点云网络而无需修改网络配置时,它依然可以表现SOTA,并且保持着很高的模型效率。大量的实验和可视化证明了PAConv的有效性。
推荐阅读
重点介绍:1、3D视觉算法;2、vslam算法;3、图像处理;4、深度学习;5、自动驾驶;6、技术干货。 博主及合伙人分别来国内自知名大厂、海康研究院,深研3D视觉、深度学习、图像处理、自动驾驶、目标检测、VSLAM算法等领域。
欢迎关注微信公众号