超神经HyperAI · 9月12日 · 香港

数据集汇总|DeepFake 乱象丛生,用魔法打败魔法!高质量数据集助力伪造监测技术发展

随着人工智能技术的飞速发展,人脸识别技术已广泛应用于安防、支付、零售等多个领域,极大地提升了生活便利性和安全性。然而,技术的双刃剑特征也逐渐显现,尤其是在隐私保护方面,人脸识别技术的滥用成为了社会关注的焦点。

据央视 315 晚会报道,多家知名企业在未经消费者同意的情况下,非法收集并存储人脸信息,生成唯一 ID,用于后续的商业分析和精准营销。这种行为严重侵犯了消费者的隐私权,引发了广泛的社会关注。

与此同时,AI 驱动下的深度伪造技术 DeepFake 正在「以假乱真」,扰乱社会秩序,侵犯大众利益。DeepFake 借助海量训练数据,生成众多虚假照片、视频和音频,并且这种换脸模式的精细度极高,普通人难以发现细微差别,不少犯罪分子更是利用该技术进行非法牟利。据了解,韩国以该技术进行非法牟利的犯罪人数高达 22 万。

因此,在技术层面,不断升级人脸识别和伪造检测技术,精确判断这些被篡改的 DeepFake 视频和图像,是当前亟待解决的热点问题。本文将对常用的人脸识别、DeepFake 数据集进行梳理汇总,期望能在一定程度上帮助研究人员更有效地开展相关领域的研究工作。

点击查看更多开源数据集:

https://go.hyper.ai/jpfrj

DeepFake/人脸识别数据集

1、Deepfake Detection 视频识别数据集

发布平台:Kaggle

发布时间:2024 年

预估大小:22.5 GB

下载地址:https://go.hyper.ai/B8dJf

Deepfake Detection 数据集专为深度伪造检测任务而设计,提供了全面的视频序列集合,可用于训练和评估用于识别被操纵媒体的深度学习模型。它是从官方 FaceForensics 服务器下载的,该服务器专门为人脸操纵检测提供高质量的数据集。

2、LAV-DF 多模态音频视觉数据集

发布机构:莫纳什大学、科廷大学、印度理工学院罗帕尔分校

发布时间:2022 年

预估大小:23.11 GB

下载地址:https://go.hyper.ai/wTcYE

LAV-DF 是一个多模态(视频篡改和音频篡改)数据集,源自 VoxCeleb2 数据集,包含 136,304 段视频,其中 36,431 段真实视频,99,873 段伪造视频。

3、OpenForensics 人脸伪造检测数据集 

发布机构:日本国立信息学研究所、日本综合研究大学院大学 (SOKENDAI) 、东京大学

发布时间:2021 年

下载地址:https://go.hyper.ai/64Gn2

OpenForensics 数据集是一个为了多面伪造检测和分割任务而设计的大型挑战性数据集。该数据集由 115K 张野外图像和 334K 张人脸组成,所有图像都有丰富的面部注释,不仅支持多人脸伪造检测和分割任务,还支持涉及一般人脸的常规任务,对于深度伪造预防和一般人类面部检测的研究都有很大的潜力。

4、ForgeryNet 人脸伪造数据集 

发布机构:SenseTime Research、北京邮电大学、上海人工智能实验室、北京航空航天大学软件学院、中国科学技术大学、南洋理工大学 S-Lab 实验室

发布时间:2021 年

下载地址:https://go.hyper.ai/h9fii

ForgeryNet 数据集是一个庞大且全面的基准测试,专为深度伪造分析而构建。它包含了 290 万张图像和 221,247 个视频,涵盖了来自全球的 7 种图像层面和 8 种视频层面的伪造操作方法,支持图像和视频层面的 4 种任务:图像伪造分类、空间伪造定位、视频伪造分类和时间伪造定位。

5、FFIW10K 人脸伪造数据集 

发布机构:苏黎世联邦理工学院计算机视觉实验室、北京航空航天大学人工智能研究院、悉尼科技大学

发布时间:2021 年

下载地址:https://go.hyper.ai/rstji

该数据集包括从 Youtube 收集的 1 万个高质量伪造视频,平均每帧有 3 个人脸,每个视频都包含真实人脸和伪造人脸,更加接近现实复杂场景。操纵过程是全自动的,由领域对抗质量评估网络控制,使数据集具有高度可扩展性和低人力成本。

6、Human Faces Dataset 人脸数据集

发布平台:Kaggle

发布时间:2024 年

预估大小:113.93 MB

下载地址:https://go.hyper.ai/Ewakl

该数据集包含约 9.6K 张人脸图像,5K 张真实人脸图像,4.63K 张 AI 生成的人脸图像。

7、Glint360K 人脸识别数据集

发布机构:DeepGlint 

发布时间:2021 年

预估大小:161.46 GB

下载地址:https://go.hyper.ai/j0rrB

该数据集由大约 1,700 万张人脸图像组成,包含约 36 万个身份,是迄今为止最大、数据最干净的人脸识别数据集,专为训练和评估大规模人脸识别模型而设计,广泛用于人脸识别的研究和开发,特别是与深度学习技术相结合。

8、FaceForensics 人脸作伪检测数据集

发布机构:德国慕尼黑工业大学 (TUM)

发布时间:2020 年

下载地址:https://go.hyper.ai/ItO9I

该数据集包含大量合成和真实场景下的人脸操作,数据来源于 YouTube 平台上的不同视频,涵盖了多个选定的视频创作者。通过使用该数据集,研究人员可以开发出更准确和可靠的方法,以检测和识别虚假的人脸图像和视频。

9、UTKFace 大规模人脸识别数据集

发布机构:美利坚大学

发布时间:2017 年

预估大小:1.45 GB

下载地址:https://go.hyper.ai/8soAU

UTKFace 数据集一个具有较长年龄跨度(范围从 0 到 116 岁)的大规模人脸数据集,包含 2 万多张面部图像,其中包含年龄,性别和种族的标注。图像人物在姿势,面部表情,光照,遮挡,分辨率等方面差别很大,可用于人脸识别、年龄估计、年龄变化预测、landmark 定位等各种任务。

10、CelebA 人脸属性数据集

发布机构:香港中文大学

发布时间:2015 年

预估大小:16.92 GB

下载地址:https://go.hyper.ai/l0j1L

CelebFaces (CelebA) Dataset 是一个大型人脸属性数据集,拥有超过 200K 的名人图像,其中每张图像由 40 个属性注释,图像覆盖了大量的姿势和背景。CelebA 的注释包括 10,177 个身份,202,599 个面部图像和 5 个地标位置。

11、VGG-Face2 人脸识别数据集

发布机构:牛津大学 

发布时间:2015 年

预估大小:37.49 GB

下载地址:https://go.hyper.ai/XKI0Z

VGG-Face2 Dataset 是一个人脸图片数据集,包含共计 9,131 个人的面部数据,图像均来自 Google 的图片搜索。数据集中的人在姿势、年龄、种族和职业方面有很大差异。

以上就是 HyperAI超神经为大家汇总的 11 个人脸识别、DeepFake 数据集,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 1200+ 公开数据集提供国内加速下载节点
  • 收录 300+ 经典及流行在线教程
  • 解读 100+ AI4Science 论文案例
  • 支持 500+ 相关词条查询
  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai

推荐阅读
关注数
665
内容数
215
链接人工智能新场景
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息