AI学习者 · 2020年10月19日

开源|全球最大最干净的人脸公开数据集Glint360K

来源:格林深瞳
作者:安翔君
链接:知乎

已经开源,先贴地址:

代码和数据地址:deepinsight/insightface​

论文地址:Partial FC: Training 10 Million Identities on a Single Machine​

1.数据集的表现:

学术界的测评比如IJB-C和megaface,利用该数据集很容易刷到SOTA,大家具体可以看论文,这里展示一下IFRT的结果,IFRT又称国产FRVT, IFRT测试集主要有不同肤色的素人构成,相比起IJB-C和megaface更具有模型的区分度。


相比起目前最好的训练集MS1MV3,Glint360K有十个点的提升

2. 数据集的规模


类别数目和图片数目比主流训练集加起来还要多

Glint360K具有36w类别,和1700w张图片,不论在类别数还是图片数目,相比起MS1MV2都是大幅度的提升。

3. 如何训练大规模的数据

1.png

4. Partial-FC

2.png

5. 实验表现

性能方面:

我们在内部的业务和FRVT竞赛上都验证了这个方法,再学术界的测试集IJBC和Megaface上,使用Glint360K的Full softmax和10%采样会有着相当的结果。

效率方面:

在64块2080Ti,类别数1000w的实验条件下,Partial FC 的速度会是混合并行的3倍,占用的显存也会更低,并且最大支持的类别数也有了一个数量级的飞跃,成功训练起来了一亿id的分类任务。

推荐专栏文章

更多嵌入式AI算法部署等请关注极术嵌入式AI专栏
推荐阅读
关注数
18838
内容数
1372
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息