CVPR 2022 | 旷视研究院入选论文亮点解读（下） - 极术社区

在近日正式揭晓论文接收情况的 CVPR 2022 中，旷视研究院共入选论文 17 篇，

在上一篇推文中，我们为大家带来了《CVPR 2022 | 旷视研究院入选论文亮点解读（上）》，本篇为下篇，我们整理了余下入选论文的精彩摘要, 分享给大家。

上篇还没看够的小伙伴们，快到这里来！

👇

11 TransMVSNet: Global Context-aware Multi-view Stereo Network with Transformers

TransMVSNet：使用 transformer 捕捉全局上下文信息的多视图立体视觉网络

我们在本文中提出了 TransMVSNet，基于我们对多视图立体视觉任务 (MVS) 中的特征匹配的探索。我们将 MVS 类比回其特征匹配任务的本质，提出了一个强大的特征匹配转换器 (FMT) 来利用内部（自身）和外部（交叉）注意力来聚合图像内和图像之间的上下文信息。为了促进 FMT 更好地工作，我们利用自适应感受野 (ARF) 模块来确保特征范围的平稳过渡，并通过特征传播桥接不同阶段的特征，以跨不同尺度传递转换后的特征和梯度。此外，我们应用特征相关性来衡量特征之间的相似性，并采用减少歧义的 focal loss 来加强监督。我们的方法在 DTU 数据集、Tanks and Temples benchmark 和 BlendedMVS 数据集上实现了最先进的性能。

👉关键词：MVS、3D resconstruction、transformer

https://arxiv.org/abs/2111.14600

12 Decoupled Knowledge Distillation

解耦知识蒸馏

知识蒸馏是一种广泛应用的模型压缩方法，但主流方法都是 feature-based的，KD 这样的 logit-based 方法被忽视了。本文提出了一种新的视角来分析 KD。我们将 KD 的损失函数解耦为两个部分：TCKD 和 NCKD，并通过实验发现：TCKD 在传递“样本难度”相关的知识，而 NCKD 是蒸馏涨点的主要原因。更重要的是，本文发现 KD 的“耦合性”限制了1)NCKD 的有效性和2)平衡两部分损失的灵活性。为解决这两个问题我们提出了解耦知识蒸馏(DKD)，相比 feature-based 的复杂方法，DKD 可以达到相同甚至更优的性能，并且拥有更高的训练效率。

👉关键词：知识蒸馏、解耦

13 Dynamic MLP for Fine-Grained Image Classification by Leveraging Geographical and Temporal Information

一种使用动态多层感知机融合时空信息的细粒度图像分类方法

细粒度图像分类是一项具有挑战性的计算机视觉任务，在图像的视觉外观十分相似的情况下，利用其附带信息，如数据拍摄的位置和日期可以帮助分类。本文探索了一个更加高效的融合图像和地理时间特征的方法——Dynamic MLP。它的权重是由地理时间信息的特征动态提供的，满足多模态特征的不同元素之间可以交叉交互。图像特征经过这种投影后可以展现更好的可辩别性，提升分类准确度，并在 iNaturalist 的各个数据集上达到 SOTA。

👉关键词：细粒度，多模态，动态感知机

https://arxiv.org/abs/2203.03253

14 Learning Optical Flow with Kernel Patch Attention

基于块注意力的光流估计

现有方法主要将光流估计视为特征匹配任务，即学习在特征空间中将相似度高的像素进行匹配。然而，运动理解相关任务的另一个重要组成部分--空间相似性（平滑度约束）被忽视了。本文提出了基于块注意力的光流估计方法(Kernel Patch Attention, KPA)，对特征图的每个局部块进行操作，通过显式地利用局部场景内容和空间关系信息来缓解由像素特征匹配困难造成的误差。通过实验验证该方法可以充分利用局部特征关联性进行更准确的运动分析，在标准光流估计数据集上达到 SOTA 效果。

👉关键词：Optical flow, kernel patch attention, spatial affinity, context relation

15 Unsupervised Homography Estimation with Coplanarity-Aware GAN

基于平面感知对抗学习的无监督单应性矩阵估计

单应性估计是许多应用中的基本图像对齐方法。然而，现有的方法并没有显式地考虑平面诱导视差问题，导致估计的单应性矩阵容易受到多个平面的干扰。对此，本文提出了一种平面感知生成对抗网络 Coplanarity-Aware GAN，通过引导单应性估计网络关注图像对中的主导平面来提高对齐效果。此外，本文还设计了一种由粗到细的单应性估计 Transformer 网络，以更好地捕捉图像对之间的对应关系。在公开数据集上的 SOTA 表现证明了本方法的有效性。

👉关键词：单应性估计 GAN Transformer

16 Semi-Supervised Wide-Angle Portraits Correction by Multi-Scale Transformer

基于半监督策略的超广角人像畸变矫正

近年来，越来越多的智能手机配备了超广角镜头，用来拍摄更大 FOV 的场景影像。但该镜头会造成严重的透视畸变，使得场景中的线性结构弯曲，靠近边缘的人脸拉伸不自然。相比传统的人像矫正算法，现有深度学习方案能更好的解决上述问题，但却需要大量高精度的标记数据，制作流程复杂且成本昂贵。为此，我们提出一种适用于人像畸变矫正的半监督学习方案，并结合高效的端到端 MS-Unet，使我们能够同时使用标记和未标记数据来提高畸变校正效果。

👉关键词：畸变矫正半监督学习 transformer

17 Deep Constrained Least Squares for Blind Image Super-Resolution

基于最小二乘约束的盲超分

本文提出先推导了一种新的降质模型以及对应的模糊核，将去模糊和图像恢复过程拆解开来。针对模糊核估计，提出了一种动态深度线性核网络，使用多层线性网络作为模糊核。之后则推导了一种深度最小二乘滤波方法，可以在图像的高层特征中利用估计的模糊核进行去模糊操作的到清晰的图像。最后再使用双分支结构对图像进行恢复。本方法在多个盲超分数据集上均达到了 SOTA，可以得到边缘清晰，去模糊效果显著的高清图像。

👉关键词：盲超分模糊核最小二乘滤波

https://arxiv.org/pdf/2202.07508

首发：旷视研究院
作者：R

专栏文章推荐

欢迎关注旷视研究院极术社区专栏，定期更新最新旷视研究院成果
加入旷视：career@megvii.com

CVPR 2022 | 旷视研究院入选论文亮点解读（下）

推荐阅读

目录