数据集永久下架，微软不是第一个，MIT 也不是最后一个

麻省理工学院在近日发出通知，永久下线著名微小图像数据集 Tiny Images Dataset ，原因是被指出涉嫌种族歧视和女性歧视。

麻省理工学院（MIT）近日发布了一则致歉声明，宣布将 Tiny Images Dataset 数据集永久下架，并向全社会呼吁共同停用并删除这个数据集，已有该数据集的用户不要再向他人提供。

近一年内，已经有数个由企业和科研机构发布的知名数据集，遭到下架或永久封禁的处理，其中包括微软的 MS Celeb 1M 名人数据集、杜克大学发布用于行人识别的 Duke MTMC 监控数据集、和斯坦福大学发布的人头检测 Brainwash 数据集。

这次下架的 Tiny Images Dataset 图像数据集由 MIT 在 2006 年开始立项并发布。正如其命名，这是一个微小图像数据集。

包含 7930 万张 32 * 32 像素的彩色图像，基本采集自 Google Images。

数据集较大，文件、元数据和描述符以二进制文件形式存储，需使用 MATLAB 工具箱和索引数据文件进行加载

整个数据集近 400 Gb 大小，数据集规模之大，也让该数据集成为计算机视觉研究领域中，最热门数据集之一。

与该数据集同时发布的论文 _《80 million tiny images: a large dataset for non-parametric object and scene recognition》_，这篇论文的可查询引用，也高达 1718 次。

一篇论文，引发的大型数据集自检

让 Tiny Images Dataset 图像数据集陷入风口浪尖的，正是在近期发布的一篇论文《Large Image Dataset: a pyrrhic win for Computer Vision?》（大型数据集：是计算机视觉的隐藏杀器？）

论文对这些大型数据集的合规性，提出了强烈的质疑。

论文地址：https://arxiv.org/pdf/2006.16...

两位作者，一位是 UnifyID 的首席科学家 Vinay Prabhu 。UnifyID 是硅谷的一家人工智能初创公司，为客户提供用户身份验证的解决方案。

另一位作者是都柏林大学的博士学位候选人 Abeba Birhane。

论文主要以 ImageNet-ILSVRC-2012 数据集为例，作者发现数据集中包含少数偷拍（比如海滩中偷拍他人，甚至包含隐私部位）的图像，认为由于审核不严格，这些图片严重侵犯了当事人的隐私。

曾经的经典数据集，如今成政治不正确

和 ImageNet 涉嫌侵犯隐私不同，论文中对 Tiny Images Dataset 进行声讨原因是：数据集中有数万张种族歧视、女性歧视标签的图像。

并指出 Tiny Images Dataset 由于未经任何审核，存在的歧视、侵犯隐私的问题更加严重。

Tiny Images Dataset 部分选取

这就要说到 Tiny Images Dataset 是基于 WordNet 的规范进行标记，把近八千万张图像分为 75,000 个类别。

也正是因为 WordNet 的部分标记，让数据集遭受了质疑。

WordNet 的锅，图像数据集一起背

众所周知，WordNet 由普林斯顿大学认知科学实验室的心理学家、语言学家和计算机工程师联合设计，自 1985 年发布以来，一直作为英文世界里最规范、全面的英语词典系统。

规范、全面的意思就是：客观地采集人类社会里存在的英文词汇，并赋予其理解和关联。

在 Tiny Images Dataset 中，采用了 WordNet 中的 53,464 个不同名词，来作为图片的标签。

数据集中涉及种族、性别的敏感词统计

也正因为如此，直接引用人类社会存在的表达，就不可避免地引入一些涉及种族歧视、性别歧视的词汇。

比如，表示明确侮辱或贬义的词汇 _Bi*ch、Wh*re、Ni*_g_er_ 等等，均成为了图片的相关标签，除此以外，还有一些主观判断性的称谓，比如 molester 猥亵者、pedophile 恋童癖 等。

科学研究之前，需衡量社会影响

作者认为大型图像数据集，很多在建设之初，并没有仔细衡量社会影响，会对个人权益构成威胁和伤害。

因为信息开源的当下，任何人都可以利用开放 API 运行一段查询，来定义或判断 ImageNet 或其他数据集中人类的身份或画像，这对当事人来说确实是危险，也是侵犯。作者也给了三点解决方向：
一是合成真实和数据集蒸馏，比如在模型训练期间使用（或增强）合成图像来代替真实图像；
二是对数据集强化基于伦理道德的过滤；
三是定量数据集审计，作者对 ImageNet 进行了跨范畴的定量分析，用来评估道德违规的程度，也用来衡量基于模型注释的方法其可行性。