Jack-Cui · 2020年12月15日

带你「周游世界」的 MODNet 算法

点赞再看,养成习惯,微信公众号搜索【JackCui-AI】关注这个爱发技术干货的程序员。本文 GitHub https://github.com/Jack-Cherish/PythonPark 已收录,有一线大厂面试完整考点、资料以及我的系列文章。

大家好,我是 Jack 。

最近又有一个算法火了,不知道你们看到没?直接看效果!

image.png

效果这么稳定的人像 Image Matting 算法真的不多,并且还能进行实时处理

处理视频、图像,不在话下。人在家中坐,录段视频,你就可以把自己放到世界各地的美景中。

这类的抠图 AI 算法,已经出现过不少,但这一款确实让人觉得很惊艳。

打工人的周游世界梦,还能靠 AI 算法实现,泪目

1 MODNet

当前对人像 Matting 的研究主要围绕这两点:

  • 不使用 trimap 情况下提高精度
  • 实时与准确性兼顾

MODNet 都做到了,作者充分利用 Ground Truth 的信息,将模型学习分为三个部分:语义估计细节预测语义细节融合

image.png

语义估计(Semantic Estimation):采用 MobileNetV2 架构,通过编码器(即 MODNet 的低分辨率分支)来提取高层语义。对 high-level 的特征结果进行监督学习,标签使用的是下采样及高斯模糊后的GT,损失函数用的 L2-Loss。

细节预测(Detail Prediction):结合了输入图像的信息和语义部分的输出特征,通过 encoder-decoder 对人像边缘进行单独地约束学习,用的是交叉熵损失函数。为了减小计算量,encoder-decoder 结构较为 shallow ,同时处理的是原图下采样后的尺度。

语义细节融合(Semantic-Detail Fusion):把语义输出和细节输出结果拼起来后得到最终的 alpha 结果,这部分约束用的是 L1-Loss。

另外,基于以上底层框架,该研究还提出了一种自监督学习方法 SOC(Sub-Objectives Consistency)和帧延迟处理方法 OFD(One-Frame Delay )。

其中,SOC 策略可以保证 MODNet 架构在处理未标注数据时,让输出的子目标之间具有一致性;OFD 方法在执行人像抠像视频任务时,可以在平滑视频序列中预测 alpha 遮罩。

image.png

自监督学习以适应现实数据(SOC):

image.png

帧延迟处理方法以增强时序稳定性(OFD):

image.png

如上图所示,只有红框像素满足处理条件。后处理方式也简单,中间帧结果取首尾两帧平均。

对应到整图的处理效果:

image.png

研究人员创建了一个摄影人像基准数据集 PPM-100(Photographic Portrait Matting)。

它包含了 100 幅不同背景的已精细注释的肖像图像。

为了保证样本的多样性,PPM-100 还被定义了几个分类规则,来平衡样本类型。

比如是否包括整个人体;图像背景是否模糊;是否持有其他物体。

image.png

PPM-100 中的样图具有丰富的背景和人物姿势,可以被看做一个较为全面的基准。

采用 PPM-100 评估集,看下 MODNet 的效果:

image.png

MODNet 在 MSE(均方误差)和 MAD(平均值)上都优于其他无 Trimap 的方法。

虽然它的性能不如采用 Trimap 的 DIM ,但如果将 MODNet 修改为基于 Trimap 的方法。

即以 Trimap 作为输入,它的性能会优于基于 Trimap 的 DIM,这也再次表明显示 MODNet 算法的优越性。

此外,研究人员还进一步证明了 MODNet 在模型大小和执行效率方面的优势。

其中,模型大小通过参数总数来衡量,执行效率采用 NVIDIA GTX1080 Ti GPU 测试。

image.png

MODNet 的推理时间为 15.8ms(63fps),比 FDMPA(31fps)快两倍。

总之,MODNet 提出了一个简单、快速稳定的实时人像抠图处理算法。

论文地址:

https://arxiv.org/pdf/2011.11...

2 代码

我猜,有些读者,早已迫不及待地跳过算法原理说明,直接来找代码了。

遗憾的是,算法还没有开源。

但是项目仓库已经创建了:

https://github.com/ZHKKKe/MODNet

image.png

写稿截图的时候,项目只有一个 README,但是 Star 都快 500 了,足以看出人们对算法效果的认可,以及对算法代码实现的关注。

作者在 issues 中提到,两周后放代码和模型

image.png

心急吃不了热豆腐,好饭不怕晚,咱可以等一等

希望作者不要像我一样,经常「鸽鸽鸽」。

3 絮叨

MODNet 没开源,周末没得玩了

我早已想到,当然不会让你们空手而归!

navigan 也是一个新鲜出炉的算法。能变脸,改变人的鼻子大小、眼睛大小、眼睛朝向、嘴巴的位置、眉毛高低、甚至让人吸血鬼化。

640 (6).gif

640 (7).gif

也可以改变汽车轮子的大小,马的胖瘦。一个挺好玩的 GAN,感兴趣可以周末玩一玩。

项目地址:

https://github.com/yandex-res...

官方权重文件放在了 Dropbox ,下载费事,所以我将代码和权重文件打包放到了百度网盘,有的需要自取(提取码:jack ):

https://pan.baidu.com/s/1U2Sr...

明天就周末了,提前说声周末愉快~

我是 Jack ,我们下期见。

·················END·················

作者:Jack Cui
原文:https://mp.weixin.qq.com/s/kk...
关注作者公众号,获取更多有趣AI应用~
imagy.png

系列篇


更多AIoT领域有趣的算法应用及产品请关注有趣的AIoT应用专栏。
推荐阅读
关注数
2137
内容数
23
介绍有趣好玩的AIoT 实战项目,算法应用及软硬件产品。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息