CVPR 2021华为诺亚方舟实验室发表30篇论文 |CVPR 2021

一年一度的计算机视觉顶会IEEE计算机视觉及模式识别大会CVPR录用结果最近公布。据悉，今年CVPR投稿量与论文接收量相对往年继续上升，有效投搞量达7015篇，接收论文1663篇，接收率23.7%，与往年相比略有上升。

华为诺亚方舟实验室此次有30篇论文被接收，包括两篇Oral，其中主要由正式或者实习员工完成的工作有24篇，主要由高校合作方完成的工作有6篇。研究方向涵盖模型压缩和能耗高效、神经网络搜索、语义理解、底层视觉、自动驾驶、无损数据压缩、可解释AI等多个方面。诺亚方舟实验室的这些文章，体现出工业界需求与学术前沿的紧密结合，围绕业务中的迫切需求，结合最新学术进展提出创新性解决方案，也让学术研究能够有具体落地。如这些文章中包含了去年AdderNet算法的继续演进AdderSR，以及最近广为流传的IPT网络等。下面挑选一些本次CVPR接收的代表性论文进行介绍。

CVPR 2021代表性工作介绍

AdderSR: Towards Energy Efficient Image Super-Resolution

本论文研究使用加法网络解决图像超分的问题，降低超分网络的能耗。由于任务的属性不同，直接将加法网络应用到超分任务上损失严重，本文对该问题进行了深入分析。首先，加法算子难以学到恒等映射；除此之外，加法算子难以学到有效的高通滤波器，但是这两个特性对于图像处理任务非常重要。在此基础上，本文继而提出自连接加法单元和可学习的幂激活函数来调整特征分布、增强细节，有效解决该问题。实验表明，本文提出的加法超分网络可以有效减少2.5x能耗，并达到与原模型非常接近的效果。

ReNAS: Relativistic Evaluation of Neural Architecture Search (Oral)

一个有效的神经网络结构性能评估方案是神经网络结构搜索(NAS)成功的关键。现有NAS算法通常在训练时间有限的小型数据集上训练和评估神经结构。但这样一种粗糙的评估方式很难对神经网络结构进行准确评估。本文提出一种新的神经网络结构评价方案，旨在确定哪个神经网络结构的性能更好，而不是精确地预测性能绝对值。因此，我们提出了一个结构相对性能预测NAS (ReNAS)。我们将神经结构编码为特征张量，并利用预测器进一步细化表示。本方法可用于离散搜索，无需额外评估。在NASBench101数据集上抽样424个(搜索空间的0.1%)神经架构及其标签已经足够学习一个准确的架构性能预测器。在NAS-Bench-101和NAS-Bench-201数据集上，我们搜索的神经结构的准确性高于最新的方法，显示了本方法的优先性。

Transformation Invariant Few-Shot Object Detection

不同于以往基于元学习的小样本物体检测框架，本文从样本扩增的角度解决这一问题。本文提出了一种简单而有效的变换不变原则，它可以灵活地应用于各种元学习模型，以提高新类物体的检测性能。该方法通过对变换后图像的预测结果引入一致性正则，增强小样本物体检测模型的泛化能力。重要的是，这一方法可以处理未标记数据，从而解决半监督小样本物体检测问题。实验表明，本文提出的方法在标准小样本物体检测和半监督小样本物体检测上均有效。

Joint-DetNAS: Upgrade Your Detector with NAS,Pruning and Dynamic Distillation

Joint-DetNAS是一个融合了NAS、剪枝以及蒸馏的目标检测模型优化算法，由两个主要部分组成：a) 构建弹性教师模型池：通过一次渐进式收缩训练获得大量高质量模型，用于支撑教师模型搜索b)学生-教师网络联合优化：通过交迭搜索，动态寻找最优蒸馏组合。学生网络采用Network Morphism策略，有效融合模型结构演化和剪枝技术。算法直接输出学生模型作为结果，无需额外训练。Joint-DetNAS搜索高效且优化效果显著：如对于R101-FPN模型，在FPS及FLOPS优化 50%的情况下，仍能有2.5%的AP提升。

TransNAS-Bench-101: Improving Transferrability and Generalizability of Cross-Task Neural Architecture Search

神经网络架构搜索（NAS）的最新突破将该领域的研究范围扩展到了更广泛的视觉任务和更多样化的搜索空间。现有的NAS方法大多是在单个任务上进行搜索，而跨任务搜索的算法正在涌现。为了降低计算成本和实验复杂性对跨任务算法研究的阻碍，本论文提出了TransNAS-Bench-101基准测试数据集。该数据集涵盖了图像分类、语义分割、自编码器等七个不同的视觉任务，并探索了两类不同的搜索空间：Cell-based搜索空间和Macro-based搜索空间。通过7,352个backbone在七个任务上的训练，我们提供了51,464个模型的详细训练数据。我们希望借助TransNAS-Bench-101来鼓励跨任务的NAS算法的出现，从而将跨任务搜索的效率和通用性提高到新的水平。

Pre-Trained Image Processing Transformer

随着现代硬件计算能力的快速增强，在大规模数据集上预训练的Transformer模型（例如BERT，GPT-3）表现出了巨大的潜力和超越传统模型的效果。我们提出了一种可用于底层视觉任务（例如，去噪，超分辨率和去雨）的预训练Transformer模型（IPT）。为了最大程度地挖掘Transformer的能力，我们利用具有大量自然图像的ImageNet数据集生成大量降质图像对，并在这些图像上使用多头和多尾机制对IPT模型进行预训练。另外，我们还引入了对比学习以来提升模型的泛化性能。我们提出的IPT模型可以在迅速微调后有效地用于不同的底层视觉任务中，并在多项任务上取得了SOTA的结果。

Neighbor2Neighbor: Self-Supervised Denoising from Single Noisy Images

深度学习领域的图像降噪方法往往需要噪声图像和相应的干净图像配对来训练，然而在真实场景中构造训练配对是十分困难的。我们提出Neighbor2Neighbor：通过近邻采样，从含噪图像采样出两张“相似但不相同”的子图以构成配对数据来训练降噪网络，其中两张子图每个位置对应的像素在原噪声图像中都是近邻像素；同时，在损失函数中引入正则项来修正两张近邻子图“相似但不相同”导致的过度平滑问题。本方法仅需噪声图像数据集即可训练任意降噪网络，在RGB域合成数据和RAW域真实含噪图像数据集上均表现出优秀的降噪效果，性能接近基于“噪声-干净”图像配对进行训练的模型。相比于现有的自监督图像降噪方法，本方法既不需要构造配对数据的采集过程，也不需要改造网络结构，同时无需额外的噪声模型信息，在暗光人脸拍照、夜间户外拍照、医学图像降噪等场景具有较高的应用潜力。

Focus on Local: Detecting Lane Marker from Bottom Up via Key Point

当前车道线检测的主流方向分为基于分割和基于检测的方法两大类。前者生成像素级的语义类别并通过聚类生成不同实例的曲线，后者由每个锚点预测整根曲线，这两种方法都直接建模全局信息，存在聚类容易产生误差以及远端预测不准的问题。受到人体位姿估计方法的启发，我们首次将车道线检测转化为局部关键点估计及其关联问题，用距离信息建模局部关联关系。车道线局部建模相对于全局建模更加简单，复杂度更低，泛化性能更好。我们采用两个轻量化的模型，在车道线检测公开数据集CULane和TuSimple上取得了新的SOTA结果，另外在跨数据集的泛化性能上也展现出了相当大的优越性。综上，我们的方法证明了位姿估计方法在车道线检测中的应用潜力，为解决这一问题开辟了新的方向。

AF2-S3Net: Attentive Feature Fusion with Adaptive Feature Selection for Sparse Semantic Segmentation Network

激光雷达点云的语义分割可视为自动驾驶的基石功能之一，精确的分割结果可以辅助物体检测、定位等核心感知任务。针对LiDAR语义分割问题，AF2S3Net以3D稀疏神经网络为框架，通过多分支、多层级主动特征融合实现了全局空间语义与局部细节的动态叠加，在单个网络中实现了单点网络与3D卷积网络的有机统一。同时为了降低特征融合后产生的梯度噪声，各分支原始特征被投票后送入特征选择模块，该模块通过压缩赋权过滤了部分噪声特征列向量，从而进一步提升了网络稳定性和泛化能力。在SemanticKITTI和nuScenes两大重量级LiDAR数据集语义分割竞赛排行榜上，AF2S3Net斩获双料冠军。

QPP: Real-Time Quantization Parameter Prediction for Deep Neural Networks

深度神经网络的权重和特征的量化可以降低能耗，提升计算效率，有助于促进其在手机等设备上的应用。量化感知训练的方法通常可以达到较好的效果，但是需要完整的数据集，但是这一点很多情况下难以满足。非训练量化的方法通常需要一个比较耗时的量化参数计算过程，否则量化精度损失比较严重。本文提出一种量化参数预测的算法，称为QPP。通过部分训练数据或者无标签数据的学习，QPP预测器在给定网络输入的情况下可以准确预测激活值的量化参数。预测器在避免复杂计算的同时有效保持了原始模型的精度。因此，本文的方法结合了动态量化和静态量化的优点。本文将QPP算法用在两个标准的动态量化算法上，并在分类、分割、超分等视觉任务上进行了广泛的验证。

iVPF: Numerical Invertible Volume Preserving Flows for Lossless Compression

在存储领域，高效无损压缩由于可以有效降低存储介质成本，故被广泛研究。AI算法通过学习数据分布规律并根据数据规律进行压缩，具有压缩率高等有点，具备良好的研究和应用前景。可逆流模型（Flow model）能准确拟合概率分布，理论压缩比高，但由于浮点误差问题，不能直接用于无损压缩任务。本方案第一次提出基于保体积流模型（volume preserving flow）的无损压缩方法吗，具有压缩率高，压缩吞吐率大的优点。首先，设计保体积流算子的数值计算方法，消除数据和待压缩隐变量的误差，保证无损压缩正确性；其次，设计基于保体积流模型的压缩和解压算法，它能达到最优的理论压缩率上界，压缩比高，压缩吞吐率高。本方法在图像数据集取得了最优的压缩率性能。

CausalVAE: Disentangled Representation Learning via Neural Structural Causal Models

解耦表征学习旨在寻找低维的、由多个可解释因子组成的观测数据的隐表征。常用的变分自动编码器（VAE）的框架假设因子是独立的。然而，在实际场景中，具有语义的因素并不是必然独立的。相反，可能有一个潜在的描述这些因素相互依赖的因果结构。因此，我们提出了一个新的基于VAE的框架，名为因果VAE，其中包括带有因果结构的神经层，以此找到数据中的因果相关概念。在华为解耦数据集和真实数据集CelebA的实验表明，因果VAE学习的是语义上可解释的隐表征。我们可以控制某些语义因子，他们之间的信息可以通过表征之间的因果关系正确传递，生成反事实图片。

【免责声明】

华为在本公众号所载的材料和信息，包括但不限于文本、图片、数据、观点、建议、网页或链接，虽然华为力图在网站平台上提供准确的材料和信息，但华为并不保证这些材料和内容的准确、完整、充分和可靠性，并且明确声明不对这些材料和内容的错误或遗漏承担责任，也不对这些材料和内容作出任何明示或默示的、包括但不限于有关所有权担保、没有侵犯第三方权利、质量和没有计算机病毒的保证。

华为可以在没有任何通知或提示的情况下随时对网站上的内容进行修改，为了得到最新版本的信息，请您定时访问本网站。华为（含其关联公司）在本网站上所提及的非华为产品或服务仅仅是为了提供相关信息，并不构成对这些产品、服务的认可或推荐。华为并不就网址上提供的任何产品、服务或信息做出任何声明、保证或认可，所有销售的产品和服务应受华为的销售合同和条款的约束。

推荐阅读

文章首发微信公众号，更多深度模型压缩相关的文章请关注深度学习压缩模型论文专栏。

推荐阅读

目录