首发:3D视觉工坊微信公众号
作者:明泽
论文题目:FuseSeg: Semantic Segmentation of Urban Scenes Based on RGB andThermal Data Fusion
论文下载:http://ieeexplore.ieee.org.
简介:
城市场景的语义分割是自动驾驶应用的重要组成部分。随着深度学习技术的兴起,取得了巨大的进步。目前的语义分割网络大多使用单一模式的感知数据,通常是可见光摄像机产生的RGB图像。然而,当光照条件不满足时,如昏暗或黑暗时,这些网络的分割性能容易受到影响。我们发现热成像相机产生的热图像对具有挑战性的光照条件是稳健的。因此,在本文中,提出了一种新的RGB和热数据融合网络FuseSeg, 来实现更好的城市场景语义分割性能。实验结果表明,我们的网络性能优于现有的网络。
拟解决问题:
本文研究的是在照明条件不满足时城市场景的语义分割问题。通过RGB和热数据的信息融合,解决了这一问题。构建端到端的深度神经网络,以RGB图像和热图像为输入,输出像素级语义标签。我们的网络可以用于理解城市场景,这是许多自动驾驶任务的基本组成部分,如环境建模、避障、运动预测和规划。此外,我们的网络设计简单,可以很容易地使用各种深度学习框架来实现,这有利于不同硬件或软件平台上的应用程序。
上图所示的例子表明,即使在几乎完全黑暗的环境下,一个骑自行车的人在RGB图像中几乎看不见,但在热图像中可以清楚地看到。我们可以看到,FuseSeg(图f)为人提供了一个可接受的分割结果,而其他两个网络无法分割人。实例表明,在光照条件不满足的情况下,仅依赖RGB数据的网络会发生退化,FuseSeg可以解决这一问题。
本文的贡献如下:
1)提出一种新的用于城市场景语义分割的RGB-thermal融合网络。该网络可以在光线条件不满足的情况下,如昏暗、完全黑暗或迎面灯等情况下,得到准确的结果,优于单模态网络。
2)利用Monte Carlo (MC)dropout技术构造贝叶斯模糊算法,分析语义分割结果的不确定性。比较了不同dropout率下的性能。
3)在公共数据集上评估我们的网络,这些结果表明我们优于现有的先进网络。
方法:
下图所示为FuseSeg的总体结构,由两个编码器从输入图像提取特征和一个解码器恢复分辨率组成。DenseNet作为编码器的主干。在网络中提出了一种新的TSF策略,可以恢复密集下行采样所造成的空间信息损失。在第一阶段,在RGB编码器中通过元素求和将相应的热图和RGB特征图分层融合。在第二阶段,通过张量级联将融合后的除底部特征图外的特征图与解码器中对应的特征图再次融合。下面的一个直接复制到解码器。
编码器:
使用DenseNet作为主干,去掉最后的池化层保持分辨率和后面的分类层。
解码器:
解码器的设计目的是逐步将特征图的分辨率恢复到原始分辨率。
本文解码器主要包括三个模块:一个特征提取器按顺序包含两个卷积层,一个上采样器和一个输出块,输出块都包含一个转置的卷积层。注意,在特征提取器和上采样中卷积层和反卷积层后面都有一个批处理归一化层和一个ReLu激活层。卷积层和反卷积层的详细配置显示在下表中。
利用特征提取器从融合后的特征图中提取特征,保持特征图的分辨率不变。在TSF的第二阶段,上行采样的特征图与来自RGB编码器的特征图连接在一起。在连接之后,特征通道的数量增加了一倍。上采样器和输出采样块都将分辨率提高了2倍。输出块输出最终的预测结果,在输出后添加一个softmax层,以得到分割结果图。
评价指标:
Accuracy (Acc) 和intersection over union (IoU)
使用mAcc和mIoU来表示九个类中Acc和IoU的算术平均值。
消融实验:
主干网络
上图表示选取的DenseNet的有效性。
DenseNet不同架构的结果如下
不同的融合策略(详细的策略描述见原文)
不同解码器的对比结果:
实验结果:
总的实验结果如下:
白天和夜间的结果如下:
模型参数量和运行速度:
可视化结果如下:
MCdropout
用于推断贝叶斯网络的模型参数的后验分布,进行不确定性估计。通过在初始块之后插入dropout层,最大池层,以及RGB和热编码器的1-4个过渡层来构建贝叶斯FuseSeg。在运行时,对模型采样T次,设T = 50。计算每个像素的不确定性值:
下图为贝叶斯FuseSeg-161的不确定度图。第一行和第二行的dropout率分别为10-4和10-2。不确定性从蓝色增加到红色。
贝叶斯fusesegg -161在不同退学率下的性能。当丢失率大于10−2时,语义分割的性能严重下降,如下图所示:
总结:
本文提出了一种新的深度神经网络用于RGB和热数据融合。目标是在不同的光照条件下获得更好的语义分割性能,实验结果证实了该方法的优越性。进行了强化消融研究,结果显示数据融合在这里是一个好处。消融也证明了我们的网络设计,包括编码器、解码器和融合策略的有效性。使用MC dropout技术估计了我们的网络预测的不确定性。
本文仅做学术分享,如有侵权,请联系删文。
推荐阅读
- CVPR 2020 oral 首次提出VPSnet用于分割界新问题-视频全景分割
- 汇总|目标检测中的数据增强、backbone、head、neck、损失函数
- 3D目标检测深度学习方法之voxel-represetnation内容综述(一)
- 3D目标检测深度学习方法之voxel-represetnation内容综述(二)
重点介绍:1、3D视觉算法;2、vslam算法;3、图像处理;4、深度学习;5、自动驾驶;6、技术干货。 博主及合伙人分别来国内自知名大厂、海康研究院,深研3D视觉、深度学习、图像处理、自动驾驶、目标检测、VSLAM算法等领域。
欢迎关注微信公众号