RGPNET: 复杂环境下实时通用语义分割网络

本文介绍的论文提出了一种新的实时通用语义分割体系结构RGPNet，在复杂环境下取得了显著的性能提升。
作者： Tom Hardy
首发：3D视觉工坊微信公众号

论文：RGPNet: A Real-Time General Purpose Semantic Segmentation （文末可下载）
论文链接：https://arxiv.org/abs/1912.01394

一、主要思想

本文提出了一种新的实时通用语义分割体系结构RGPNet，在复杂环境下取得了显著的性能提升。RGPNet由一个轻量级的非对称编码器-解码器和一个适配器组成。适配器有助于从编码器和解码器之间的多层分布式表示中保留和细化抽象概念。它也有助于从较深层到较浅层的梯度流动。大量实验表明，与目前最先进的语义分割网络相比，RGPNet具有更好的性能。

此外还证明了在保持性能的同时，使用改进的标签松弛技术和逐步调整大小可以减少60%的训练时间。论文还对应用在资源受限的嵌入式设备上的RGPNet进行了优化，使推理速度提高了400%，性能损失可以忽略不计。RGPNet在多个数据集之间获得了更好的速度和精度权衡。

二、创新点

1、提出的RGPNet作为一种通用的实时语义分割体系结构，它可以在单分支网络中获得高分辨率的深层特征，从而提高准确性和降低延迟，在复杂的环境中具有竞争力。

2、引入一个适配器模块来捕获多个抽象级别，以帮助细分的边界细化，适配器还通过添加较短的路径来辅助渐变梯度流。

3、对于green AI，在训练期间采用渐进式调整大小技术，从而使训练时间和环境影响减少60%，并且采用一种改进的标签松弛来消除低分辨率标签映射中的混叠效应。

4、使用TensorRT（一个高性能深度学习推理平台）优化RGPNet，以便部署在边缘计算设备上，从而使推理速度提高400%。

5、RGPNet在Cityscpes、CamVid和Mapillary数据集上分别实现了Resnet-101作为backbone 下80.9%、69.2%和50.2% mIoU以及Resnet-18作为backbone下74.1%、66.9%和41.7% mIoU。对于1024×2048分辨率的图像，RGPNet在CityScapes数据集上单NVIDIA GTX2080Ti GPU下达到37.4 FPS。