273.6FPS！百度开源超轻量实时语义分割方案PP-LiteSeg，兼具高性能与高推理速度

640.jfif

paper: https://arxiv.org/abs/2204.02681
code: https://github.com/PaddlePadd...

本文提出一种轻量型实时语义分割方案PP-LiteSeg，它包含以下几个关键性模块改进：

FLD(Flexible and Lightweight Decoder)，它用于降低传统decoder模块的计算负载；
UAFM(Unified Attention Fusion Module)，它采用空域与通道注意力生成用于特征融合的权值；
SPPM(Simple Pyramid Pooling Module)，它以极低的计算消耗进行全局上下文信息聚合。

相比其他方案，所提PP-LiteSeg取得了更佳的精度-速度均衡(可参考下图)。在Cityscapes测试集上，PP-LiteSeg-S取得了72.0%mIoU，推理速度达273.6FPS；PP-LiteSeg-B取得了77.5%mIoU，推理速度达102.6FPS(注：硬件为NVIDIA GTX 1080Ti)。

640 (1).jfif

1Method

640 (2).jfif

上图为本文所提PP-LiteSeg整体架构示意图，它包含三部分：

Encoder：它采用了STDCNet一文中的轻量型骨干(注：骨干部分采用SSLD方案进行预训练)；
Aggregation：它采用SPPM进行长程关系建模，SPPM的输出包含全局上下文信息；
Decoder：它采用渐进式方式融合多级特征并输出最终结果。具体来说，FLD包含两个UAFM与一个分割头。

640 (3).jfif

Flexible and Lightweight Decoder

640 (4).jfif

上图给出了已有方案与本文方案在decoder方面的差异性对比，可以看到：已有方案(上图a)中decoder部分特征的分辨率在提升，同时通道数不变，这会导致浅层特征的计算量远大于深层特征，进而导致浅层特征的计算冗余。

为改善decoder的计算效率，本文提出了FLD，它伴随特征分辨率提升逐渐减少通道数。FLD可以更容易调节计算消耗以达成更好的平衡。

Unified Attention Fusion Module

640 (5).jfif

多级特征融合对于达成高分割精度非常重要。本文提出了UAFM，它采用通道与空域账户和毅力丰富融合特征的表达能力(见上图)。从图示可以看到：UAFM采用注意力模块生成权值α并用于进行特征融合。具体来说，UAFM首先采用双线性插值将 1649385348(1).png 上采样到 1649385354(1).png 相同尺寸，然后将两者作为输入计算权值，最后根据该权值进行两个特征进行加权融合。
1649385319(1).png
注意力的选择上其实就是BAM、CBAM中的计算方式，这里略过不计。不知各位有没有意识到：这里的UAFM跟SKNet一文的注意力的非常像。