华为诺亚方舟实验室自动驾驶研究团队的最新自主研究成果《UCC: Uncertainty guided Cross-head Co-training for Semi-Supervised Semantic Segmentation》发表在计算机视觉领域的顶级会议CVPR 2022。本研究以深度神经网络为依托,面向半监督语义分割,针对现有文献对半监督语义分割中伪标签中噪声高、类别不平衡以及标注数据和无标注数据中Domain GAP的问题,文章提出了Cross-head Co-Training的方法,考虑到了如何有效地利用一致性约束和self-training的方式联合训练对任务进行提升;利用Uncertainty过滤伪标签中的噪声,降低噪声对模型的影响;同时利用Cross-Set的增强方式降低标注数据和无标注数据分布差异的影响,避免了伪标签噪声、Domain GAP所带来的影响。该方法具有较好的域适应、跨域能力,标注数据和无标注数据可以来自于不同分布的域,这一性质对深度神经网络的鲁棒性和分割结果的稳定性起到了重要作用。在训练过程中,利用Cross-head丰富特征提高其通用能力,有效地利用不同head之间输出来计算伪标签的Uncertainty,进而对其进行Pixel Level的加权。本文将该半监督语义分割框架应用到Cityscapes、VOC2012数据集中,在投稿时均取得了各个Setting的SOTA。
图1:Cross-Head Co-Training框架
网络架构
本文提出的UCC方法可以充分利用一致性正则和伪标签训练的优势,利用二者联合训练从而大幅提升半监督语义分割的性能。图1是整体的网络结构图,图像进入一个共享的骨干网络后紧接着有两个不同的分割头独立完成分割任务。与用两个独立的模型相比,我们的这种方式可以学到一种更紧致的特征表达并且能进一步提升其泛化能力。对于标注数据,我们对其进行弱增强并与真值计算损失。对于未标注数据,我们用弱增强后产生的伪标签来监督强增强的结果,并且在不同分割头之间交叉进行。一方面,伪标签在扩大样本数据上很重要,另一方面,在强增强和弱增强之间施加约束可以充分利用一致性正则。紧接着为了抑制伪标签中噪声的影响,我们提出了估计不确定性并加权的UGRM模块用于无监督损失,可以在训练过程中鼓励置信度高的样本权重更大,反之则相反。此外,DCSCP被提出用来增强一致性训练中样本的多样性,同时可以处理长尾和分布不一致问题。
Cross Head
我们通过共享Backbone接着有两个不同的分割头作为我们的结构,Cross Head 网络可以进一步提高泛化能力,然后从不同的视图中学习更紧凑的特征。CM为Cross-Model,CH为Cross-Head。其中Cross-Head的性能会比Cross-Model高出1.03%,一方面是由于Cross-Head能够提升模型的泛化能力,另一方面也能学到不同的模型的View。
UGRM
DCSCP
我们使用一种Cross-set的Copy Paste策略通过复制属于特定类别的所有像素并将它们粘贴到标注和未标注的图像上,能够处理标注数据和未标注数据之间分布不同的问题,同时也能够解决长尾问题。
实验结果
我们在Cityscapes和COCO数据集上均进行了验证,和Baseline相比,我们的方法在ResNet50作为Backbone的情况下分别在1/16,1/8,1/4和1/2上取得了10.74%,6.27%,4.50%,3.50%的精度提升;在ResNet101作为Backbone的情况下分别在1/16,1/8,1/4和1/2上取得了10.01%,6.41%,4.99%,3.87%的精度提升。
论文链接:
【免责声明】
华为在本公众号所载的材料和信息,包括但不限于文本、图片、数据、观点、建议、网页或链接,虽然华为力图在网站平台上提供准确的材料和信息,但华为并不保证这些材料和内容的准确、完整、充分和可靠性,并且明确声明不对这些材料和内容的错误或遗漏承担责任,也不对这些材料和内容作出任何明示或默示的、包括但不限于有关所有权担保、没有侵犯第三方权利、质量和没有计算机病毒的保证。
华为可以在没有任何通知或提示的情况下随时对网站上的内容进行修改,为了得到最新版本的信息,请您定时访问本网站。华为(含其关联公司)在本网站上所提及的非华为产品或服务仅仅是为了提供相关信息,并不构成对这些产品、服务的认可或推荐。华为并不就网址上提供的任何产品、服务或信息做出任何声明、保证或认可,所有销售的产品和服务应受华为的销售合同和条款的约束。
— 完 —
作者:诺亚方舟实验室
文章来源:诺亚实验室
推荐阅读
ECCV 2022 Oral | 华为诺亚提出单目视觉动作捕捉算法CLIFF,降低动捕误差40%以上
FreeTransfer-X:零标注成本?巧用大模型无缝迁移AI应用至各种语言
华为诺亚AI4EDA团队刷新EPFL逻辑综合榜单25/40个世界记录,连续两年排名最前列
更多嵌入式AI相关技术干货请关注深度学习压缩模型论文专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。