CVPR 2020 Oral | 旷视研究院提出对抗攻击新方法DaST：无需真实数据训练替身模型 - 极术社区

IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 大会官方论文结果公布，旷视研究院 16 篇论文被收录（其中含 6篇 Oral 论文），研究领域涵盖物体检测与行人再识别（尤其是遮挡场景），人脸识别，文字检测与识别，实时视频感知与推理，小样本学习，迁移学习，3D感知，GAN与图像生成，计算机图形学，语义分割，细粒度图像，对抗样本攻击等众多领域，取得多项领先的技术研究成果，这与已开放/开源的旷视AI生产力平台Brain++密不可分。

本文是旷视CVPR2020论文系列解读第10篇，本文提出一种替身模型训练方法——DaST，无需任何真实数据即可获得对抗性黑盒攻击的替身模型。实验表明，相较基准替身模型，DaST生产的替身模型可实现具有竞争力的性能。据知，这是首个无需任何真实数据即可生成替身模型并用来产生对抗攻击的工作，代码已开源。本文已入选CVPR 2020 Oral论文。

论文名称：DaST: Data-free Substitute Training for Adversarial Attacks

论文链接：https://arxiv.org/abs/2003.12703

论文代码：https://github.com/zhoumingyi/Adversarial-Imitation-attacks

导语

深度神经网络面对细微的图像扰动非常脆弱，如何研究神经网络的攻击和防御，提高起鲁棒性，激发了研究社区的极大兴趣。对抗攻击分为两类，白盒攻击和黑盒攻击，前者知道模型的全部信息，后者只知道部分信息。黑盒攻击在实际应用中比白盒攻击更实用。

在攻击方法中，score-based攻击和decision-based攻击直接使用分类概率或者目标模型返回的硬标签直接攻击目标模型。这些攻击方法无需一个预训练的替身模型，但是作为替换，它们需要关于目标模型的大量查询，以生成每一次攻击。

相反，gradient-based攻击需要了解目标模型的架构和权重，Goodfellow等人论文表明，对抗样本具有迁移性，这意味着由白盒攻击方法生成的针对某一模型的对抗样本可以攻击其他模型；因此，为了实施黑盒攻击方法，他们通过一个替身模型获得对抗样本，接着基于这些对抗样本的迁移性攻击目标模型。

相较于score-based攻击和decision-based攻击，替身攻击无需查询来生成对抗样本，但是需要一个预训练的模型来生成对抗攻击。Papernot等人论文提出一个方法，利用大量图像数据模拟目标模型的输出，得到替身模型。另外，Trame\`r等人提出的预测API也可用来窃取机器模型，并应用到不同的真实攻击任务上。

这些方法不需要预训练模型，但是需要很多目标模型的真实数据来训练替身模型，实际情况是这些真实数据很难获得。因此，提出一种无需数据即可训练替身模型的方法很重要，它能更好地揭示当前机器学习技术所面临的风险。

简介

旷视研究院提出一个无需数据训练替身模型实现黑盒对抗攻击的方法，称之为DaST（Data-free Substitute Training），它利用生成对抗网络GAN生成合成样本，以训练替身模型，而合成样本的标签来自目标模型。

性能方面，合成样本可平等分布在输入空间，样本标签涵盖全部类别。然而，传统的GAN如果没有真实数据，可能生成的样本分布极其不均，并且只包含其中的部分类别，这意味着替身模型将无法充分学习到目标模型的分类特性。

因此，旷视研究院为生成模型设计了一个多分支架构和一个控制标签的损失函数，以解决合成样本分布不均的问题。给定目标模型，生成模型可以生成带有随机标签的合成样本。如此，替身模型可通过对抗训练学习目标模型的分类特性，并生成对目标模型有很强迁移性的对抗样本。

方法

这里首先描述攻击场景，接着引入替身攻击，并提出一个无需真实数据训练替身模型的新方法。

攻击场景

假设目标机器学习模型是线上的，攻击者可以自由探查目标模型的输出标签，但是很难获取输入空间之内的任何数据，这是只有标签（label-only）的场景，DaST在这一场景之下写作DaST-L。

另一种场景下，如果攻击者可以获取目标模型的输出概率，称这种情况为只有概率（probability-only）的场景，DaST在这一场景之下写作DaST-P。

对抗攻击

这里给出了对抗性替身攻击的定义。对于非目标的攻击，对抗攻击的目标可表示为：

对于有目标的攻击，目标为：

对于白盒攻击来说，它需要完全获取目标模型的梯度信息，接着用其生成对抗样本攻击目标模型。对于黑盒攻击，训练一个目标模型的替身模型以生成对抗样本，并迁移样本以攻击目标模型。

黑盒攻击的成功率严重依赖于对抗样本的可迁移性，因此，替身攻击的关键点在于训练一个替身模型，它的属性尽可能和目标模型相似。

当前的攻击方法一般利用和目标模型相同的训练集，或者收集目标模型的标注的大量其他图像以训练替身模型。下文将引入一个无需任何真实图像训练替身模型的方法，整个过程如图1所示。

图1：DaST示意图

对抗性生成器-分类器训练

无需任何数据地训练替身模型，可以使用生成模型获得替身模型的训练数据。生成器从输入空间中随机采样噪声并合成数据，接着把合成数据输入目标模型获得到输出数据。替身模型即是使用这一输入-输出数据对来训练。

如图1所示，生成模型的目标是生成新的样本，了解目标模型和替身模型的不同，替身模型的任务是模仿目标模型的输出。这是一个两者的博弈，其中目标模型可以被视为裁判。这一博弈的价值函数可写为：

对于label-only攻击场景，这一度量可为：

对于probability-only攻击场景，这一度量可为：

因此，通过这一对抗性训练，替身模型复制了目标模型的信息，或者说完成了窃取；而且，一个训练良好的替身模型，其生成的对抗样本对目标模型有着很强的迁移性。

控制标签的数据生成

为了获取分布均匀的合成数据来训练替身模型，这里给出了一个新方法控制合成数据的分布。在训练替身模型窃取目标模型的过程中，合成数据的作用是探知目标模型的信息；而替身模型用来训练的目标模型输出标签应该涵盖所有类别，这样才能使得替身模型的训练更加充分。

因此，如图1蓝色方块所示，设计的生成网络有N个上采样解卷积层，它们共享一个后处理卷积网络。生成网络从输入空间和变量标签值中随机采样噪音向量，接着输入第n个上采样解卷积层和共享的卷积网络，以生成合成数据。这个控制标签的损失函数可表示为：

接着，需要训练一个无需目标模型梯度信息的控制标签的生成模型。对于这一模仿过程，可被近似为一个目标函数：

训练时，如果输入相同，替身模型的输出将逐渐靠近目标模型的输出。因此，可用替身模型替代等式（6）中的目标模型：

替身模型的训练可以避免获取目标模型的信息。接着更新生成网络的参数为：

最终，替身模型可以学习模仿目标模型的信息，由此提升替身模型生成的对抗样本的迁移性。这里将这一方法命名为DaST，如算法1所示。

算法1：DaST Mini-batch随机梯度下降训练

实验

MNIST

这里在MNIST数据集上使用DaST训练一个替身模型实现对抗攻击，并评估了其在label-only和probability-only场景之下的攻击成功率和带有三种不同替身架构的表现，实验结果如表1/表2所示：

表1：DaST在MNIST数据集上的表现

表2：MNIST数据集上，三种不同替身架构的DaST的表现对比

CIFAR-10

这里在CIFAR-10数据集上使用DaST训练一个替身模型实现对抗攻击，并评估了其在label-only和probability-only场景之下的攻击成功率和带有三种不同替身架构的表现，实验结果如表3/表4所示：

表3：DaST在CIFAR-10数据集上的表现

表4：CIFAR-10数据集上，三种不同替身架构的DaST的表现对比

Microsoft Azure

在上述两种场景下，这里给出了DaST在Microsoft Azure攻击在线模型的实验结果，并与其他攻击方法做了对比，如表5/表6所示：

5：DaST在Microsoft Azure样本模型上的表现

表6：DaST与其他攻击方法的对比

结论

本文提出一个无需真实数据训练替身模型实现黑盒对抗攻击的新方法，称之为DaST，它通过GAN生成样本来训练替身模型，减少了对抗性替身攻击的先决条件。据我们所知，这是首个无需任何真实数据训练替身模型的方法，实验结果表明了该方法的有效性。它也表明当前机器学习系统暴露在风险之下，虽然真实数据难以搜集，攻击者无需真实数据也可以训练替身模型实现攻击。

DaST无法独自生成对抗样本，需要配合gradient-based方法使用。未来，旷视研究院将设计一个新的替身训练方法，直接生成对抗攻击；同时也将探索DaST在防御方面的应用。

参考文献

Wieland Brendel, Jonas Rauber, and Matthias Bethge. Decision-based adversarial attacks: Reliable attacks against black-box machine learning models. arXiv preprint arXiv:1712.04248, 2017.
Pin-Yu Chen, Huan Zhang, Yash Sharma, Jinfeng Yi, and Cho-Jui Hsieh. Zoo: Zeroth order optimization based black- box attacks to deep neural networks without training sub- stitute models. In Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security, pages 15–26. ACM, 2017.
Alexey Kurakin, Ian Goodfellow, and Samy Bengio. Adversarial examples in the physical world. International Conference on Learning Representations (ICLR), 2017.
Ian J Goodfellow, Jonathon Shlens, and Christian Szegedy. Explaining and harnessing adversarial examples. International Conference on Learning Representations (ICLR), 2015.
Nicolas Papernot, Patrick McDaniel, Ian Goodfellow, Somesh Jha, Z Berkay Celik, and Ananthram Swami. Practical black-box attacks against machine learning. In Proceed- ings of the 2017 ACM on Asia conference on computer and communications security, pages 506–519. ACM, 2017.
Florian Trame\`r, Fan Zhang, Ari Juels, Michael K Reiter, and Thomas Ristenpart. Stealing machine learning models via prediction apis. In 25th {USENIX} Security Symposium ({USENIX} Security 16), pages 601–618, 2016.

专栏文章推荐