4

ronghuaiyang · 2020年07月09日

CVPR 2020: 移动端机器学习的研究实现

作者：Derrick Mwiti
编译：ronghuaiyang
首发：AI公园公众号

导读

边缘设备上的机器学习是未来的一大方向。

在最近结束的2020年CVPR会议上，有很多优秀的计算机视觉研究。在本文中，我们将重点关注与移动或与边缘计算相关的任务和内容。虽然并非所有这些论文都直接接触到移动相关的应用，但它们对移动端机器学习的影响是巨大的。它们推动了通常在移动设备和边缘设备上执行的ML任务，因此它们的进步对推动行业向前发展至关重要。

智能手机摄影的感知质量评估

本文作者对智能手机摄影的感知质量评估进行了深入的研究。他们还引入了智能手机摄影属性和质量(SPAQ)数据库。该数据库包含66部智能手机拍摄的11,125张照片。每个图像都有丰富的标注信息。

论文地址：http://openaccess.thecvf.com/content\_CVPR\_2020/html/Fang\_Perceptual\_Quality\_Assessment\_of\_Smartphone\_Photography\_CVPR\_2020\_paper.html

作者还收集了人们对每张图片的看法。收集的一些信息包括图像质量、图像属性、图像属性和场景类别标签。为了进行更深入的分析，他们还记录了每张图像的可交换图像文件格式(EXIF)。然后，他们使用数据库训练由基线和多任务深度神经网络构建的盲图像质量评估(BIQA)模型。得到的结果让我们了解到：

如何用EXIF数据，图像属性，和高级语义与图像质量交互
如何设计下一代BIQA模型
更好的计算摄影系统可以如何优化移动设备

BIQA模型和数据库可以在这里找到

这是一个图像质量评估 — IQA — 相机畸变数据集的比较。

分类级的多关节物体姿态估计

本文研究了单深度图像中分类级的多关节物体的姿态估计问题。他们提出了一种分类级的方法，其中包括在训练中未见过的物体实例。他们为给定类别中的不同关节对象引入了一种规范表示 —— 支持关节的标准化坐标空间层次结构(ANCSH)。

论文：http://openaccess.thecvf.com/content\_CVPR\_2020/html/Li\_Category-Level\_Articulated\_Object\_Pose\_Estimation\_CVPR\_2020\_paper.html

该表示构造了规范的物体空间和一组规范的部件空间，以实现类内泛化。进一步，作者开发了一个基于_PointNet++_的深度网络：

该网络从单深度点云预测ANCSH。通过使用规范化的关节，作者实现了：

使用关节诱导的运动学约束改进部分姿态和尺度估计的性能
摄像机空间联合参数估计精度高

下图是联合参数估计的对比。

KFNet:使用卡尔曼滤波学习瞬时摄像机重新定位

与单镜头重定位通过聚焦静止图像来估计姿态不同，瞬时相机重定位根据序列中每一帧视频来估计姿态。本文旨在提高时域再定位方法的姿态估计能力。

论文：http://openaccess.thecvf.com/content\_CVPR\_2020/html/Zhou\_KFNet\_Learning\_Temporal\_Camera\_Relocalization\_Using\_Kalman\_Filtering\_CVPR\_2020\_paper.html

他们通过使用一个网络架构来实现这一点，该架构包含了用于在线相机重新定位的Kalman filtering (KFNet)。网络的设计和损失是基于贝叶斯学习背景下的卡尔曼滤波。

代码：https://github.com/zlthinker/KFNet

KFNet弥补了瞬时性和一次性定位方法之间的性能差距。作者还提出了一个统计评估工具，使KFNet能够在线自我检查潜在的异常值预测。

下面是不同重定位方法的中值平移和旋转误差的可视化结果。

这是一次one-shot和瞬时的准确度的比较。

EventCap：使用事件摄像机单目3D捕捉高速人体运动

本文提出了一种利用单镜头进行人体运动高速三维捕捉的方法EventCap。利用基于模型的优化和基于cnn的人体姿态估计捕获高频运动细节。

论文：http://openaccess.thecvf.com/content\_CVPR\_2020/html/Xu\_EventCap\_Monocular\_3D\_Capture\_of\_High-Speed\_Human\_Motions\_Using\_an\_CVPR\_2020\_paper.html

作者能够捕捉毫秒分辨率的快速运动，与使用高帧率视频相比，具有更高的数据效率。

在联合优化框架中，利用事件流和来自事件摄像机的低帧率强度图像流，设计了一种运动捕捉算法。这在以下阶段发生：

在二维空间异步跟踪事件，重建相邻亮度图像帧之间的连续时空事件轨迹。
估计人体的3D运动使用基于批处理的优化算法。
根据从异步事件流接收到的边界信息精炼捕获的高速运动。

通过利用跟踪的事件轨迹和基于cnn的二维和三维姿态估计强度图像来解决漂移问题。

作者还提出了一个基于事件相机的快速人体动作捕捉评价数据集。

本文将几种方法在跟踪精度和数据吞吐量方面与本文提出的方法进行比较。

RetinaFace: Single-Shot多层次人脸定位

提出了一种single-shot、多层次的人脸定位方法。他们还对WIDER FACE dataset手工标注了五个人脸landmarks，对WIDER FACE，AFLW，FDDB等数据集采用半自动pipeline为人脸图像生成三维顶点。

将人脸 bounding box预测、二维人脸landmark定位和三维顶点回归相结合，实现了图像平面上的点回归。他们还提出了一种学习策略来训练一种统一的、多层次的人脸定位方法，该方法可以同时预测人脸 bounding box、五个2D人脸landmark和1K个3D顶点。

FReeNet: 多重身份人脸重现

本文提出了一个基于多重身份的人脸重构框架 —— FReeNet。它可以通过共享的模型将来源的脸部表情转移到另一张脸部。框架由两部分组成：

统一Landmark转换器(ULC)，采用编码器 — 解码器的架构，在一个潜在的landmark空间转换表情。这减少了源图像和目标图像之间的面部轮廓的差距。
几何感知发生器(GAG)使用转换的landmark重新制定照片真实的形象，给定目标人脸作为参考。

论文：http://openaccess.thecvf.com/content\_CVPR\_2020/html/Zhang\_FReeNet\_Multi-Identity\_Face\_Reenactment\_CVPR\_2020\_paper.html

作者还提出了一个新的triplet感知损失，使GAG模块同时学习外观和几何信息。这丰富了重现图像的面部细节。这种损失是由triplet损失和感知损失相结合而形成的。

人脸重现面临两个主要挑战：首先，通过统一的网络实现多身份面部表情的转换，其次，在保持姿势、色调和光照的同时，再现逼真的、身份一致的目标人脸。

源人脸和目标人脸之间的轮廓差距也构成了严重的挑战。为了解决这些难题，作者使用了一个landmark探测器来将人脸编码到潜在的landmark空间中。

利用landmark转换模块将源图像转换为潜在landmark空间中的目标人物。几何感知生成器从转换后的landmark空间中提取几何信息，从转换后的landmark空间中提取外观信息。并从参考人物中提取外观信息，重现目标人脸。

通过本文方法得到的一些结果如下：

最后的想法

如果这些论文引起了你的兴趣，那你就走运了！如果你想进一步了解的话，还有很多其他的资源：https://openaccess.thecvf.com/CVPR2020

—END—

英文原文：https://heartbeat.fritz.ai/cv...

推荐阅读

关注图像处理，自然语言处理，机器学习等人工智能领域,请点击关注AI公园专栏。
欢迎关注微信公众号

4 阅读 1.9k

推荐阅读

经典机器学习系列之【集成学习】 100天搞定机器学习|Day22 机器为什么能学习？《机器学习》By：周志华，PDF 免费下载机器学习如何重塑最优定价 oneAPI驱动机器学习加速 MindSpore量子机器学习库MindQuantum

AI公园

关注数

8266

内容数

210

关注图像处理，NLP,机器学习等人工智能领域

关注专栏专栏主页

目录

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息