来源:格林深瞳
作者:安翔君
链接:知乎
已经开源,先贴地址:
代码和数据地址:deepinsight/insightface
论文地址:Partial FC: Training 10 Million Identities on a Single Machine
1.数据集的表现:
学术界的测评比如IJB-C和megaface,利用该数据集很容易刷到SOTA,大家具体可以看论文,这里展示一下IFRT的结果,IFRT又称国产FRVT, IFRT测试集主要有不同肤色的素人构成,相比起IJB-C和megaface更具有模型的区分度。
- InsightFace Recognition Test (国产FRVT):
相比起目前最好的训练集MS1MV3,Glint360K有十个点的提升
2. 数据集的规模
类别数目和图片数目比主流训练集加起来还要多
Glint360K具有36w类别,和1700w张图片,不论在类别数还是图片数目,相比起MS1MV2都是大幅度的提升。
3. 如何训练大规模的数据
4. Partial-FC
5. 实验表现
性能方面:
我们在内部的业务和FRVT竞赛上都验证了这个方法,再学术界的测试集IJBC和Megaface上,使用Glint360K的Full softmax和10%采样会有着相当的结果。
效率方面:
在64块2080Ti,类别数1000w的实验条件下,Partial FC 的速度会是混合并行的3倍,占用的显存也会更低,并且最大支持的类别数也有了一个数量级的飞跃,成功训练起来了一亿id的分类任务。
推荐专栏文章
更多嵌入式AI算法部署等请关注极术嵌入式AI专栏。