百度的CVPR 2020高光时刻：22篇论文，8项冠军，2场Workshop

近日，全球计算机视觉顶会 CVPR 2020 首次召开线上大会，百度不仅入选22篇接收论文，一举拿下8项挑战赛冠军，涵盖视频动作分析、动作识别、图像增强、智慧城市等多个领域，还主办了2场重量级学术 Workshop，在国际舞台尽显中国 AI 硬实力。

这不仅从侧面反映了百度倾斜 AI「新基建」的策略已有成效，也再次让中国自有的深度学习平台飞桨闪耀全球。更多信息请参见下方链接

百度 CVPR 2020 线上主页：

http://cvpr20.com/sponsor/bei...

国际计算机视觉和模式识别大会（CVPR）一直有计算机视觉领域的「奥斯卡」之称，凭借着严苛的论文录取标准，跻身全球AI顶会之流。实际上，CVPR 是全球参与者检验自身 AI「基本功」的试金石。受到全球疫情影响，CVPR 2020改为6月14-19日举行线上大会。让人喜出望外的是，华人学者及团队大放异彩，组成「中国军团」向全球展示 AI 实力。

作为「中国 AI 头雁」，百度已多年连续出征 CVPR，骄人成绩一如既往。CVPR 2020上，大会论文录取率仅有22%，百度入选22篇论文，较上年增加5篇；在视频动作分析、动作识别、图像增强、智慧城市等挑战赛中，百度与全球科技巨头同台竞技，斩获8项世界冠军，站上计算机视觉「顶流」之席；同时，百度还举办2场高水准 Workshop，并有多篇 Workshop 论文被接收。

百度不仅通过多种形式深度参与 CVPR 2020，也积极为推动行业技术发展做贡献。在全球经济发展重心逐渐偏移智能经济，中国聚焦 AI「新基建」时，百度已准备充分。

在 CVPR 2020 上，百度正在依托包括百度大脑、飞桨等新型 AI 技术基础设施，获得不俗成绩；此后也将秉持开源、共赢原则，为中国 AI 行业输出「车轮」，推动 AI「新基建」发展。接下来回到 AI 竞赛的试炼场，看看百度的 AI「基本功」。

百度斩获8项竞赛夺冠
v2-041143ba68c7ef706d8c3f5e75e81d69_1440w.jpg.png
大秀中国 AI 水平

CVPR 2020覆盖计算机视觉众多热门子领域，其中，百度参与并夺冠多个领域的挑战赛：

视频动作分析挑战赛，专注于提升视频标注效率；
动作识别挑战赛，技术成果可广泛用于可穿戴设备和智能家居；
图像增强挑战赛，可有效提高视频质量；
智慧城市挑战赛，可有效优化现有城市交通管理，提升管理效率，推动智能化进程。
百度夺冠的具体挑战赛及其赛道如下图所示，共计夺冠8项冠军。

百度勇夺 CVPR 2020 挑战赛8项世界冠军
ActivityNet 2020挑战赛

ActivityNet 挑战赛是视频理解领域最具影响力赛事，其中的时序动作定位赛道（弱监督）（HACS temporal action localization —Track2: weakly supervised）主要考验参赛者能否通过弱标签、弱监督方式有效提升现有视频动作检测算法的效率。百度最终击败其余参赛队伍，以 mAP39.29 的得分位居第一。

百度拿下 ActivityNet 2020挑战赛时序动作定位赛道冠军
这项比赛中，百度通过自研 BMN 模型对视频序列提取候选框，并结合弱标签训练数据，提出级联金字塔注意力网络进行打标签动作，两者结合最终获取片段定位及动作标签。该技术对高效的视频数据使用具有指导意义，可应用于视频 Highlight 检测、精彩集锦等多个场景。

EPIC-Kitchens 2020挑战赛

EPIC-Kitchens 2020挑战赛聚焦于第一人称视频理解，其技术可广泛应用于可穿戴设备、智能家居、人机交互等方面。在这次挑战赛的动作识别（Action Recognition）赛道中，百度打败三星剑桥 AI 研究院、牛津大学、佐治亚理工大学等40+支队伍，最终在 Seen kitchens 和 Unseen kitchens 两项测试集上均以第一名的成绩摘获冠军。

百度拿下 EPIC-Kitchens 2020挑战赛动作识别赛道冠军
针对比赛中第一人称视频小物体多、相机运动模糊严重等难点，百度提出共生注意力机制和以物体为中心的对齐模块，大幅提升 3D 卷积网络的性能。该方法可在多种视频 Backbone 和输入模态下取得一致的性能提升。

NTIRE 2020挑战赛

NTIRE（New Trends in Image Restoration and Enhancement）是近年来计算机图像修复领域最具影响力的一场赛事，每年都会吸引大量的关注者和参赛者。百度积极参与 NTIRE 2020挑战赛，并在2项赛道上拿下冠军：

真实图像降噪赛道（Real Image Denoising rawRGB Track）；
视频质量映射赛道（Video Quality Mapping—Track1: Supervised）。
真实图像降噪赛道

图像降噪作为计算机视觉热门领域，在视频监控、无人驾驶、移动可穿戴设备、遥感及医学图像分析等领域应用广泛。对于 NTIRE 2020挑战赛的真实图像降噪赛道（Real Image Denoising rawRGB Track），其首要目标是去除或纠正图像上的噪声信息，百度最终以第一的成绩达成目标，夺得冠军。

百度拿下 NTIRE 2020挑战赛真实图像降噪赛道冠军
针对该项竞赛，百度设计了多跳跃连接的密集残差模块学习不同分辨率下的特征表达，并通过创新性 mosaic-stride 模块提升 rawRGB 的降噪能力，同时使用分布式 SA-NAS 搜索最优的模型结构；其中，SA-NAS 搜索方法是百度首次把 NAS 技术应用于图像降噪领域。

视频质量映射赛道

视频质量映射赛道（Video Quality Mapping—Track1: Supervised）关注于图片视频底层视觉技术的关键问题。这一技术可有效提高视频质量，提升用户观看体验。百度凭借过硬的视觉技术和经验积累，取得了该赛道的冠军成绩。

百度拿下 NTIRE 2020挑战赛视频质量映射赛道冠军
针对该赛道的问题，百度通过把现有 EDVR 模型思路与 CNN 网络结构 DenseNet 相结合，利用 DenseNet 提取视频的图片特征，融合 CNN 浅层与深层特征，从而实现更强的表达能力；EDVR 模型则完成了视频帧之间信息交换，对齐帧间信息，实现信息共享与互补。

AI CITY 2020挑战赛

AI CITY 2020挑战赛由英伟达、亚马逊、马里兰大学等主办，主要集中在交通相关的车辆跟踪、再识别、异常事件分析等应用场景。AI CITY 智慧城市挑战赛的4项比赛中，全球共有315支队伍参加，其中不乏阿里、滴滴、松下、卡内基梅隆大学等一流科技巨头和高校。百度共参战3项竞赛，最终技压群雄，全部取得了冠军成绩：

车流统计（Track 1：Multi-Class Multi-Movement Vehicle Counting）；
车辆再识别（Track 2：City-Scale Multi-Camera Vehicle Re-Identification）；
异常事件检测（Track 4：Traffic Anomaly Detection）。

百度勇夺 AI CITY 挑战赛三项冠军
车流统计赛道

在车流统计赛道中，参赛者需要解决车辆遮挡、复杂天气下的视觉差异等问题。百度提出“检测-跟踪-计数”结合的车流统计算法流程，有效解决了检测框丢失和 ID 翻转问题。在车流统计环节，提出基于数据驱动的轨迹匹配分类算法使统计结果更准确。

百度从运算用时、运算速度等维度均位列第一，夺得该赛道冠军。而这一套算法模型，则离不开百度在城市交通大脑方面的数据积累和洞察，在保定市百度 AI 交管大脑项目中，智慧信控系统有效提升了交通效率的20%-30%。

车辆重识别赛道

车辆重识别旨在确认智能交通系统中的车辆身份，在城市安全场景中发挥着不可替代的作用。该赛道基于真实场景数据，对参赛者提出监控视角变化大、标注数据少等挑战。百度凭借智慧城市领域的技术优势，以明显优势甩开41支参赛队，最终以 mAP 84.13%的成绩登临首位。

为应对任务挑战，百度设计了基于多任务多分支的网络模型，并结合多源信息融合的重识别技术方案。在数据方面，使用风格迁移、图像内容编辑、背景替代等多种方法生成合成数据，以弥补训练数据不足的问题。

异常事件检测赛道

异常事件检测赛道主要考验参赛者对交通场景的复杂性、交通流的密集混乱性、天气和车辆大小的多样性以及异常标注数据缺乏等问题的解决能力。此技术可以提前发现潜在的交通风险、提前预警交通管理部门、提升交通风险的处理能力和效率。百度在该赛道表现优异，取得98.5%的 F1 成绩，均方根误差为4.8737，比赛成绩排名第一。

针对此挑战赛，百度通过模块化的多粒度跟踪方法，将跟踪问题解耦成不同子问题，利用不同模块来处理不同子任务，同时将视频进行正序和逆序分别建模，最后利用一种融合和回溯优化方法，将多个子任务以及正序、逆序的模型进行融合得到最终异常事件的定位结果。

MOTS 2020挑战赛

MOTS (Multi-Object Tracking and Segmentation) 多目标跟踪与实例分割挑战赛由德国慕尼黑大学、德国亚琛工业大学、ETH 联合举办，是多目标跟踪方向的权威竞赛。该挑战赛均是计算机视觉顶会 CVPR 的议程之一，可以直观反映参赛者真实的应用能力。百度最终凭借原创自研的领先技术，拿下 KITTI-MOTS 赛道赛道冠军。

百度拿下 KITTI-MOTS 竞赛冠军
KITTI-MOTS 赛道是自动驾驶权威数据集 KITTI 中多目标跟踪任务的扩展，也是首个同时提供实例分割以及多目标跟踪标注的公开数据集。在 KITTI-MOTS 竞赛中，百度提出新型方法 PointTrack++，在行人和车辆两个类别中均取得冠军。

具体而言，PointTrack++包括视频实例分割、掩膜特征提取以及多目标关联跟踪等技术，突破性地把 3D 点云分析融入 2D MOTS 任务之中，首次实现实时在线的 MOTS 算法，并在车辆场景测评指标上领先第二名3个百分点以上，实现 SOTA 结果。

百度举办2场高水准 Workshop

推进学术交流

Learning from Imperfect Data (LID) Workshop 主要讨论如何在不完美数据标注的条件下，通过机器学习算法训练出高精度的视觉识别模型。百度作为 LID Workshop 组织者，参与设计了弱监督物体分割、弱监督场景解析、弱监督物体定位三项竞赛（Track）。值得一提的是，两支冠军队伍提交了基于飞桨的代码。

CVPR 2020 workshop on Media Forensics 由百度联合举办，旨在发挥人脸防伪检测保护人脸识别系统免受恶意攻击的重要作用，并吸引来自学界/业界共340支参赛队伍，最终有19支队伍进入决赛并提交了模型与代码。百度已经连续两次（2019和2020年）独家赞助该竞赛。

百度聚焦 AI 新基建

助攻各项技术登上国际舞台

近年来，AI 国际顶会上的中国声音日益响亮，中国 AI 企业、开发者及高校纷纷在 CVPR 2020 上交出满意答卷。百度作为中国 AI 行业头雁，更是通过举办 AI 国际顶会研讨会，鼓励开发者使用飞桨进行参赛和科研开发，以更主动的姿态深入参与到全球 AI 行业的发展之中，代表中国 AI 行业「最强音」站上国际舞台。

着眼全球科技竞技，人工智能将成为全新「赛点」，AI「新基建」也成为中国经济发展的关键一环。百度已搭建起以百度大脑、飞桨、智能云等为代表的 AI 平台，将进一步推动智能交通、智慧城市、智慧金融、智慧能源、智慧医疗、工业互联网和智能制造等领域实现产业智能化升级，成为中国乃至全球的 AI 创新者和推动者。

推荐阅读

目录