对抗样本并非bug，它们只是特征罢了

栏目: 数据库 · 发布时间: 6年前

内容简介：研究者构建了一个理论框架，并在其中捕捉这些特征，从而在标准数据集中建立了它们的广泛存在。最终，研究者展示了一个简单的任务设置，在该设置中研究者将实践中观察到的对抗样本现象，与（人类设定的）稳健性概念和数据内部几何之间的不匹配性严格地联系起来。

对抗样本在机器学习领域受到广泛关注，但它们存在和流行的原因却并不明晰。来自 MIT 的一项研究表明，对抗样本的产生可直接归因于非稳健特征的出现：某些来自数据分布模式的特征具备高度预测性，但对于人类来讲是脆弱且难以理解的。

研究者构建了一个理论框架，并在其中捕捉这些特征，从而在标准数据集中建立了它们的广泛存在。最终，研究者展示了一个简单的任务设置，在该设置中研究者将实践中观察到的对抗样本现象，与（人类设定的）稳健性概念和数据内部几何之间的不匹配性严格地联系起来。

论文：Adversarial Examples Are Not Bugs, They Are Features

对抗样本并非bug，它们只是特征罢了

论文地址：https://arxiv.org/pdf/1905.02175.pdf

什么是对抗样本？

近年来，深度神经网络的脆弱性吸引了大量关注，尤其是对对抗样本现象的担忧：对自然输入进行微小的扰动就会使当前最优的分类器出现错误的预测结果，而这种扰动在人类看来是不影响整体的。

如下图所示给定一张熊猫的图像，攻击方给图片添加了微小的噪声扰乱，尽管人眼是很难区分的，但是模型却以非常高的概率将其误分类为长臂猿。随着机器学习的大规模应用，这类误差对于系统安全显得尤为重要。

对抗样本并非bug，它们只是特征罢了

上图为Ian Goodfellow在 14 年展示的对抗样本，这种对抗样本是通过一种名为 FGSM 的算法得出。

既然对抗样本的危害这么大，那么理解它的原因就非常重要了。一般而言，该领域之前的研究大多把对抗样本视为高维输入空间产生的畸变，或训练数据中统计波动导致的偏差。

从这个观点来看，将对抗稳健性作为目标是非常顺理成章的，这个目标可以仅通过最大化模型准确率来解决或达到，而最大化准确率可以通过改善标准正则化方法或网络输入/输出的预处理和后处理来实现。

理解对抗样本的新观点

那么到底为什么会有对抗样本？它是不是深度神经网络中的一个 Bug？以前也有很多研究从理论模型解释对抗样本的各种现象，但是它们并不能解释所有观察到的东西。

MIT 的新研究提出了一种新的视角。与之前的模型相反，研究者将对抗脆弱性（adversarial vulnerability）作为主流监督学习机制的基础后果来看待。具体而言，他们表示：

对抗脆弱性是模型对数据中泛化较好的特征具备敏感性的直接结果。

他们的假设也对对抗可迁移性给出了解释，对抗可迁移性即为一个模型计算的对抗扰动通常可以迁移到另一个独立训练的模型。由于任意两个模型有可能学习类似的非稳健特征，因此操控此类特征的扰动可以应用于二者。最后，该研究提出的新观点将对抗脆弱性作为完全「以人为中心」（human-centric）的现象，因为从标准监督学习的角度来看，非稳健特征和稳健特征具备同等的重要性。

该论文表明，通过引入「先验」来增强模型可解释性的方法实际上隐藏了真正「有意义」和具备预测性的特征。因此，生成对人类有意义同时也忠实于底层模型的解释，无法仅从模型训练中获取。

MIT 的主要做法

为证实该理论，研究者展示了在标准图像分类数据集上将非稳健特征和稳健特征分离开来是可能的。具体而言，给定任意训练数据集，研究者能够构建：

稳健分类的「稳健」版本（见图 1a）：研究者展示了从数据集中高效移除非稳健特征是可能的。具体做法是，创建一个与原始数据集语义相似的训练数据集，在其上进行标准训练后，模型可在原始未修改测试集上获得稳健的准确率。该发现表明，对抗脆弱性并非一定与标准训练框架有关，也有可能与数据集属性有关。

标准分类的「非稳健」版本（见图 1b）：研究者构建一个训练数据集，输入与原始数据集几乎一致，但所有输入都是标注错误的。事实上，新训练数据集中的输入与其标签之间的关联仅通过微小的对抗扰动来维系（从而仅利用非稳健特征）。尽管缺乏有预测性的人类可见信息，但在该数据集上训练后，模型可在原始未修改测试集上获得不错的准确率。

对抗样本并非bug，它们只是特征罢了

图 1：论文第三章中实验的概念图。在 a 中，研究者将特征分解成稳健和非稳健特征。b 中研究者构建一个数据集，由于对抗样本它对于人类而言是错误标注的，但它能在原始测试集上获得不错的准确率。

最后，研究者使用一个具体的分类任务，严谨地研究对抗样本和非稳健特征之间的联系。该任务包括分割高斯分布，使用模型基于 Tsipras 等人的模型，不过 MIT 研究者从以下几个方面对该模型进行了扩展。

首先，在该研究设置中，对抗脆弱性可以被准确量化为内在数据几何和对抗样本扰动集合的数据几何之间的差异。
其次，稳健的训练得到的分类器利用的是二者结合所对应的几何。
最后，标准模型的梯度会与类内方向产生更大的不匹配性，从而在更复杂场景中捕捉到实践中观测到的现象。

实验

该研究提出的理论框架的核心前提是在标准分类任务中存在稳健性和非稳健性特征，它们都能为分类提供有用的信息。为证实这一点，研究者进行了一些实验，实验的概念描述见图 1。

分解稳健性特征和非稳健性特征

对抗样本并非bug，它们只是特征罢了

给出新训练集对抗样本并非bug，它们只是特征罢了（稳健性训练集，见下图 2a），研究者使用标准（非稳健性）训练得到一个分类器。然后在原始测试集（D）上测试其性能，结果如图 2b 所示。这表明使用新数据集训练得到的分类器在标准和对抗环境中都能够得到不错的准确率。

给出新训练集对抗样本并非bug，它们只是特征罢了（非稳健性训练集，稳健性训练集，见下图 2a），研究者使用同样的方法得到一个分类器。实验结果表明在该数据集上训练得到的分类器也能获得不错的准确率，但是它几乎不具备稳健性（见下图 2b）。

这些发现印证了对抗样本来自数据的（非稳健性）特征的假设。

非稳健性特征足以支持标准分类

仅在非稳健性特征上训练得到的模型能够在标准测试集上得到不错性能吗？研究者进行了实验。

使用对抗扰动 x 和目标类别 t，构建数据集对抗样本并非bug，它们只是特征罢了和，然后使用标准（非稳健）模型在 D、和三个数据集上进行训练得到分类器，再在测试集 D 上进行测试得到准确率，如下表 1 所示。实验结果表明，在这些数据集上进行标准训练后得到的模型可以泛化至原始测试集，这说明非稳健性特征确实在标准环境中是有用的。