近日,据新华社的报道,一些从业者利用电商平台批量倒卖非法获取的人脸等身份信息以及“照片活化”网络工具及教程,人脸数据 0.5 元一份、修改软件 35 元一套,而芝加哥大学 SAND 实验室近日开源的一款 Fawkes 软件或许可以解决这个问题。
事件回溯
根据新华社的近日报道,在网络交易平台中通过搜索特定关键词,就能找到专门出售人脸数据和“照片活化”工具的店铺。
部分卖家以“人脸全国各地区行业可做,信誉第一”“出售人脸四件套,懂的来”等暗语招徕买家。在电商平台,不少卖家公开兜售人脸数据。为了保证店铺的“正常运营”,卖家常怂恿买家通过微信或 QQ 沟通议价,人脸数据的价格低至 0.5 元一份。
除售卖人脸数据外,一些卖家还会出售“照片活化”工具,利用这种工具,可将人脸照片修改为执行“眨眨眼、张张嘴、点点头”等操作的人脸验证视频,而 这套软件的价格通常在 35 元左右。 新华社的报道中提到, 整套文件的大小约 20GB,内含虚拟视频刷机包、虚拟视频模拟器和人脸视频修改软件等工具,还有相关工具的操作教程文件。
如果只是单纯的有照片可能隐私泄露的风险不大,问题在于,当前网络中售卖的人脸信息并非单纯的“人脸照片”,还包含公民个人身份信息(包括身份证号、银行卡号、手机号等)的一系列敏感数据。从技术角度看,如果将人脸信息和身份信息相关联,利用系统漏洞有可能骗过部分平台的人脸识别机制。
是时候了解照片“伪装术”了
如果不希望自己的照片被用在其他途径,芝加哥大学 SAND 实验室近日发布了一款保护个人隐私的系统 Fawkes 或许可以尝试一下。该软件的 源代码 采用 BSD 3-Clause 许可证托管在 GitHub 上, 相关论文(pdf) 将发表在下个月举行的 USENIX Security 2020 会议上。
Fawkes 是运行在本地计算机上的算法和软件工具,可以让用户伪装照片,限制其被用于面部识别。
简单来说,Fawkes 能对照片进行处理,对其进行像素级别的细微改变,而这种改变人眼无法识别出。研究人员将这种方法称为“image cloaking”。用户可以正常使用伪装后的照片,在社交网络中进行分享,或者发送给朋友。当有人收集这些公开的人脸照片去构建面部识别模型时,伪装后的照片将会构建出高度扭曲的人脸。这种伪装效应难以探测,不会在模型训练中显示错误。如果人脸识别系统试图利用这个模型来识别你,结果就会失败。
躲避人脸识别模型的一种方法是破坏其训练。这种方法利用了针对深度学习模型的 “ 数据中毒攻击 ”来破坏其训练。这些攻击通过修改用于训练模型的初始数据来影响深度学习模型,通常是通过添加一组样本 S 和相关标签 LS , Fawkes 也使用了相关技术 ,并确定 了 其在保护用户隐私时有哪些局限性。首先是 干净标签中毒攻击 ,其 会将 “正确”标记的中毒图像插入到训练数据中,导致在该数据上训练的模型对感兴趣的特定图像进行错误分类。干净标签攻击与普通中毒攻击的区别在于,在中毒过程中,所有图像标签都保持不变——只有中毒图像的内容发生了变化。
Fawkes 做了类似的事情,它可以 影响或破坏一个模型的操作仅限于改变一组带有正确标签的图像,即用户可以改变个人的图像,但不能声称这些图像是别人的图像。
受三种因素制约,目前的干净标签攻击无法解决隐私问题。第一、干净标签攻击只对单一的、预选的图像造成误分类,而用户隐私保护需要对被保护用户现在和未来的图像(即整个模型类)进行误分类。第二、干净标签攻击不能在不同的模型间很好地转移,尤其是从零开始训练的模型。尽管在两个用相同数据训练的模型上,攻击转移的成功率也只有 30% 。第三、干净标签攻击很容易通过特征空间的异常检测被检测出来。
模型破坏攻击。Fawkes 还做了其他的工作,包括提出修改图像的技术,来降低在图像上训练模型的准确性。这样做的目的是传播这些中毒图像,以阻止未经授权的数据收集和模型训练 , Fawkes 的目标是误导而不是破坏。简单地破坏用户类数据,可能会将用户躲避识别的意图无意间泄露给追踪者,并导致追踪者采取更高级的对策。最后,确保用户不被识别出来的成功率只有 50%。
Fawkes 的原理是首先指定用户 U,Fawkes 的输入为用户 U 的照片集合,记为 XU;其次,从包含多个特定分类标签的公开人脸数据集中随机选取 K 个候选目标图像,使用特征提取器 φ 计算每个类 k=1…K 的特征空间的中心点,记为 Ck;然后在 K 个候选集合中,选取特征表示中心点与 XU 中所有图像的特征表示差异最大的类,作为目标类型 T;最后随机选取一幅 T 中的图像,为 x 计算出“隐身衣”δ(x, xT) ,并进行相应优化,其中 |δ(x, xT)| < ρ。
该软件的安装方式也较为简单,可以参考 GitHub 中的项目说明。
研究人员表示,Fawkes 经过了广泛的测试,并在各种环境中被证明是有效的,并且针对最先进的面部识别模型(Microsoft Azure Face API,Amazon Rekognition 和 Face ++)显示出 100%的有效性。
庞大的“人脸搜索”产业
一张照片,只消数分钟,目前的技术就足以将用户在全网发布过的照片以及来源查得一清二楚,这样的操作让人不寒而栗,而其背后的“人脸搜索”产业更加让人惶恐。
以 Clearview AI 为例,这家公司虽然以人脸识别技术起家,但是在业内也算得上是“名声在外”了。这家公司声称自己设计了一套人脸识别寻人系统:用户通过上传某人的照片到该系统,即可获得此人在全网公开的照片信息及其源头链接,简单来讲就是“一张照片,全网寻人”。同时,该公司表示,他们从 Facebook,YouTube,Venmo 等数百万其他网站中抓取了约 30 亿张图像,远远超出了美国政府或硅谷科技巨头们建造的任何数据库。
<center>截至发稿,笔者通过尝试各类关键字找到了相关的人像追踪服务</center/>
全球,类似 Clearview AI 这样依靠“人脸搜索”业务吃饭的公司正在悄悄崛起,甚至逐渐成长为一个庞大产业。
除了形形色色的 App,还有一些专门以搜脸找人为核心业务的网站。这些网站往往打着一些看似正义的旗号,比如“帮您查看是否有人非法使用您的照片”,实际上则是依靠人脸搜索来帮助别有用心之人完成类似人肉搜索的业务。这些网站甚至会对不同的业务明码标价,按级别收费,某些网站的“高级 VIP”甚至可以获得极其详细的目标人物资料,与之相关的亲属等信息也会统统暴露,隐私保护刻不容缓。
本文转自 公众号:AI前线 ,作者钰莹、冬梅,点击阅读原文