国际人工智能顶级会议 AAAI 2022
(Association for the Advance of Artificial Intelligence,2022)论文接受结果公布,旷视研究院入选 7 篇论文。
AAAI 是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的 A 类国际学术会议。据了解,本届会议收到来自全球的 9215 篇投稿论文,而接受率仅为 15%,创历史新低。
本届会议旷视研究院被收录的 7 篇论文内容涵盖人-物交互检测、物体检测、知识蒸馏、图像降噪等方向,下面是入选论文的亮点解读,Enjoy~
1.论文题目:Improving Human-Object Interaction Detection via Phrase Learning and Label Composition
中文题目:一种通过短语学习和标签创作来提升人-物交互检测性能的方法
论文链接:https://arxiv.org/pdf/2112.07383.pdf
人-物体交互行为(HOI)检测是以人为中心场景理解的基础任务,我们提出了 PhraseHOI 来联合优化 HOI 检测任务和短语学习任务,利用语言先验知识提升 HOI 检测性能。
其中,新颖的短语学习任务输出用于描述行为关系的语义向量,其真值通过原始的 HOI 标注自动转换而成,无需人为干预。同时,提出了有趣且高效的标签创作方法,通过语义邻居在标签空间构造丰富的语义样本,以缓解标注数据稀缺和长尾分布对性能的损失。
实验表明,我们的方案对比基线网络获得了显著提升,相比近年来的算法取得了更优性能。
所属领域:Human-object Interaction Detection,Scene Analysis and Understanding
关键词:Phrase Learning, Label Composition, HOI Detection
2.论文题目:Anchor DETR: Query Design for Transformer-Based Detector
中文题目:锚点DETR:基于transformer检测器的查询设计
论文链接:https://arxiv.org/abs/2109.07107
之前 transformer 检测算法的物体查询是一组可学向量,但这组向量没有显式的物理意义,查询对应的预测集也没有特定的模式因而难以优化。
本文提出基于锚点的查询设计,如此每个查询有显式的物理意义且仅关注锚点附近的物体。同时,本文设计的查询可以使一个锚点预测多个物体,解决一个区域可能有多个物体的难点。
本文还设计了一种行列特征解耦的 attention,减少显存的消耗且保持精度不降低。本方法实现简单,比 DETR 性能更高且优化更易、速度更快、显存更省。
所属领域:Object Detection
关键词:Object Detection, Transformer, Attention, Query Design
3.论文题目:LGD: Label-guided Self-distillation for Object Detection
中文题目:LGD:用于物体检测的标签引导自蒸馏
论文链接:https://arxiv.org/abs/2109.11496
以往的检测蒸馏均依赖强预训练教师网络的知识。然而现实应用中未必能屡屡获得这样的教师。
由此我们提出了首个用于通用目标检测的自蒸馏框架,它通过跨物体(1)标签嵌入和(2) 学生网络特征的异构模态交互,来获取指导性知识,只需常规监督训练标签。
因此被称为标签引导自蒸馏 (Label-Guided Self-distillation, LGD)。LGD 在多种检测器/数据集下均取得明显提升,相比经典预训练教师蒸馏模型 FGFI 节省 51%的相对时间(除学生网络固有训练时间), 和 34%的绝对时间,且效果更佳。
所属领域:Object Detection; Knowledge Distillation
关键词:Label-guided; Self-distillation
4.论文题目:Multi-Centroid Representation Network for Domain Adaptive Person Re-ID
中文题目:用于域适应行人重识别的多中心表征网络
论文链接:https://arxiv.org/abs/2112.11689
基于伪标签的域适应方法通常使用单个中心来表征一个类别 ID,该中心简单由聚类 cluster 中样本特征平均而来。受限于聚类算法精度,一个 cluster 中可能会包含来自多个 ID 的样本,即存在数据噪声。在这种情况下,使用单个中心来表征一个 ID 是不合适的。
在本文中,我们提出了一种新颖的多中心表征方式来自适应地捕捉 cluster 内部潜在的噪声样本,并提出了一套有效的正负样本挑选策略来进一步缓解 cluster 中噪声样本的问题。本文的方法在多个域适应 benchmark 上均取得明显提升,验证了多中心表征相比单中心表征的优越性。
所属领域:Domain Adaptation; Person Re-ID
关键词:Multi-Centroid Representation; Contrastive Learning
5.论文题目:DarkVisionNet:Low-Light Imaging via RGB-NIR Fusion with Deep Inconsistency Prior
中文题目:暗视觉网络:利用深度不连续先验的RGB IR融合低照度成像方法
RGB-NIR 融合技术可用在极暗环境下增强可见光成像效果。然而现存的融合算法无法处理 RGB-NIR 图像之间的结构不一致问题,从而难以生成高质量的融合结果。
本文中,我们对这个难题进行分析,并提出 Dark Vision Net (DVN)来处理结构不一致问题,通过巧妙的网络设计,DVN 将传统算法的核心思想融合进 CNN 框架之中,从而取得了很好的效果。
所属领域:图像融合/降噪
关键词:RGB-NIR、Fusion
6.论文题目:Learning Optical Flow with Adaptive Graph Reasoning
中文题目:利用自适应图推理的光流学习方法
论文链接:https://github.com/LA30/AGFlow
现有光流估计方法主要解决基于特征相似性的匹配问题,少有工作研究如何显式推理场景中各部分的运动情况。本文从一个新的角度提出基于图模型的方法,充分利用场景(上下文)信息对光流估计进行引导推理。
本文提出利用自适应图推理的光流估计模型(AGFlow),采用了一种适应性学习机制,使得图模型能够利用场景特征节点之间的关系信息来引导运动特征节点进行关系推理和信息交互。
通过实验验证了本文所提方法可以有效地利用上下文信息,推理不同区域的运动情况,从而生成更准确的光流估计结果。
所属领域:光流估计
关键词:Optical flow, graph convolutional network, adaptive graph reasoning
7.论文题目:FINet: Dual Branches Feature Interaction for Partial-to-Partial Point Cloud Registration
中文题目:FINet:用于部分重叠点云配准的双分支特征交互方法
论文链接:https://arxiv.org/abs/2106.03479
数据关联在点云配准中很重要。本文在特征提取阶段引入输入间的多级特征交互以加强输入之间的信息关联,使得在不使用注意力机制或重叠区域预测的情况下实现部分重叠的点云配准。
首先,旋转和平移特征通过双分支网络进行提取。其次,本文提出了刚体变换敏感度损失来获得旋转和平移敏感特征。实验表明,与多个传统方法和之前最优的深度学习的法相比,我们的方法具有更高的精度和鲁棒性。
所属领域:3D Vision
关键词:3D point cloud, feature interaction, registration
首发:旷视研究院
作者:R
专栏文章推荐
欢迎关注旷视研究院极术社区专栏,定期更新最新旷视研究院成果
加入旷视:career@megvii.com