1简介
在非约束性环境(如大量人群)中捕获的人脸照片,仍然对当前的人脸识别方法构成挑战,因为人脸经常被前景中的物体或人遮挡。然而,很少有研究涉及到识别部分面孔的任务。
本文提出了一种新的遮挡人脸识别方法,能够识别不同遮挡区域的人脸。通过将一个ResNet中间特征映射的attentional pooling与一个单独的聚合模块相结合来实现这一点。为了保证attention map的多样性,并处理被遮挡的部分,作者进一步对遮挡Face的常见损失函数进行了调整。实验表明,在多个benchmark下本文方法的性能优于所有baseline。
本文工作贡献可以概括为以下几点:
- 以ResNet为例,利用attentional pooling和聚合网络提出了一种新的扩展,并使用2种适用于部分FR的常见损失函数进行训练;
- 在多个局部FR的详尽分析中表明,本文的改进大大提高了识别性能。
2方法
2.1 Network Architecture
下图描述了partial FR方法,分为3个模块:Extract、Attend和Aggregate。
1 Extract
受Comparator networks启发,作者使用了一个删减的ResNet-50架构,它在第4个block之后结束。因此,只进行了3次空间降采样,得到了大小为20×20的特征图,其中区域仍然具有很好的可区分性。与Comparator networks不同的是,在第3个block之后分离ResNet,以允许2个分支专注于各自的任务。而在第4个block之后直接得到F,然后再加上一个1×1的卷积以及ReLU激活函数获取a。具体架构总结如表1所示。
生成的attention maps应满足以下2个关键属性:
- attention maps应是互斥的,即不同的attention maps聚焦于人脸图像的不同区域;
- attention maps的激活与区域的可见性相关。
值得注意的是,implicitly-defined attention maps激活并不一定遵循人类定义的面部标志(如眼睛或鼻子)的直觉。
2 Attend
和Comparator networks一样,attention maps A需要重新校准。Xie等人提出了基于集的FR归一化A的attentional pooling方法,对集合内的所有图像分别进行归一化,从而确保从A中激活程度最大的图像中提取出各自的信息。
本文作者只考虑一个单一的图像,并期望不同的attention maps是相关的,因为这些主要取决于脸部的区域,即,如果眼睛被遮挡,相应的attention maps应该包含低激活值。因此,建议使用无参数的重新标定:
3 Aggregate
2.2 Loss Functions
为了训练模型,作者使用3个损失的加权和,其描述如下:
3实验
在图中,中心部分面非遮挡区域a的影响:partial - cross protocol。虽然识别左眼-右眼的准确性只受到a的轻微影响,但验证左眼-嘴是否属于同一身份被认为是最具挑战性的。总的来说可以得出结论,本文模型比所有centered: partial-cross的baseline更稳健。
4参考
[1].ATTENTION-BASED PARTIAL FACE RECOGNITION
[2].https://github.com/stefhoer/P...
END
原文:集智书童
作者: ChaucerG
推荐阅读
- 遮挡人脸问题 | 详细解读Attention-Based方法解决遮挡人脸识别问题
- 基于Msnhnet实现最优化问题(中)一(无约束优化问题)
- OutLook Attention:具有局部信息感知能力的ViT
更多嵌入式AI技术干货请关注嵌入式AI专栏。