One Pixel Attack for Fooling DNN 对抗样本单像素攻击-CFANZ编程社区

One Pixel Attack for Fooling DNN 对抗样本单像素攻击

2019 One Pixel Attack for Fooling DNN

1.前言

通过在图像中添加一些人眼无法识别的扰动，可以使分类器分类对抗图片错误。
在这篇文章中，作者认为分析DNN的分类边界的集合特征也能够帮助理解DNN的分类特性。以往的工作对这方面的研究相对较少，是因为理解高维空间的几何特征相对困难。然而，DNN相对于对抗性扰动的鲁棒性评估可能有助于解决这个复杂的问题。
论文中使用差分进化提出一种单像素的黑盒攻击方法，唯一可获取的信息是概率标签。

该工作与之前工作的优点：

1.有效性。

2.半黑盒攻击。

3.灵活性。

2. 提出的方法

以往的攻击论文，多是对整张图片的像素点进行一些变换，扰动的限制条件为总变换的大小。这篇文章对可改像素点的个数进行了限制，只改变一个像素点的值，但不限制其变换大小，以此达到变换后的图像被误分类的目的。

2.1 单像素攻击。其中：

f为接收n维输入的目标图像分类器， x为正确分类为 t类的原始自然图像。因此，x属于类t的概率为 $f_{t}(x)$ 。向量 $e(x)=\left(e_{1}, \ldots, e_{n}\right)$ 为额外添加的对抗扰动，目标类别为adv，最大改动范围为 $L$ 。注意， $L$ 一般由它的长度来衡量。

所以目标对抗攻击的目的是找到一个优化解 $e(x)^{*}$ ：
$\begin{array}{cc} \operatorname{maximize}_{e(x)^{*}} & f_{a d v}(x+e(x)) \\ \text { subject to } & \|e(x)\| \leq L \end{array}$
寻找最优解涉及找到两个值：（a）需要扰动哪个像素点；（b）每个像素点的修改范围。在我们的方法中，上式有一些改动：
$\begin{array}{cc} \operatorname{maximize}_{e(x)^{*}} & f_{a d v}(x+e(x)) \\ \text { subject to } & \|e(x)\|_{0} \leq d \end{array}$

如图，很少像素的攻击会在输入空间的低维切片上产生干扰。实际上，一个像素的扰动允许以任意强度朝n个可能方向中的选定方向修改图像。考虑一张只有三个像素点的图片（即n = 3时（的情况如下图所示。
在这里插入图片描述
图中可视化了一个三维输入空间，x , y ,z 轴分别代表 Pixel 1, Pixel 2, Pixel 3像素值的取值范围，其中绿色的交点代表由三个确定的像素值所确定的一张图片。推广到 [公式] 维输入空间，即是由 [公式] 个点的像素值确定的一张图片。如果要进行单像素攻击，那么我们固定其中两维的值，在剩下的Pixel的取值范围进行搜索，以求找到能够改变分类结果的像素值，也就是搜索图中三条红线的任意一条。而对于二像素攻击，则是固定某一维的值，对剩下两维进行搜索，也就是搜索图中三个蓝色平面的任意一个。

因此，通常的对抗图像是通过扰动所有像素而对累积的修改强度产生整体约束而构造的，而本文中所考虑的少数像素攻击则是相反的，它只专注于少数像素，但并不限制修改强度。

2.2 差分进化

差分进化（Differential evolution，DE）是用于解决复杂的多模式优化问题的基于总体的优化算法。DE属于进化算法（evolutionary algorithms，EA）的一般类别。此外，它具有在种群选择阶段保持多样性的机制，因此在实践中，有望有效地找到比基于梯度的解决方案甚至其他类型的EA更优质的解决方案。具体而言，在每次迭代期间，根据当前解决方案（父代）生成另一组候选解决方案（子代）。然后将子代与相应的父代进行比较，如果他们比父代更适合（拥有更高的价值），则保留。以这种方式，仅比较父代和他的子代，就可以同时实现保持多样性和提高价值的目标。
DE不使用梯度信息进行优化，因此不需要目标函数是可微的或先前已知的。因此，与基于梯度的方法（例如，不可微，动态，噪声等）相比，它可以用于更广泛的优化问题。使用DE生成对抗性图像具有以下主要优点：
1.更容易找到全局最优解。

2.需要得信息更少。

3.简易。

2.3 实际做法

3.实验和效果

3.1 评价指标

1.Success Rate:
在非目标攻击的情况下，被定义为对抗图像被成功分为任意其他类别的比例。
在目标攻击的情况下，它被定义为将图像扰动为一个特定目标类的概率。

2.Adversarial Probability Labels(confidences)：
累加每次成功扰动为目标类别概率值除以成功扰动的总数。
表示模型对对抗图像产生“误分类”的confidence。

3.Number of target classes：
计算成功扰动到一定数量类别的图片的数量。尤其，计算无法被其他类别扰动的图片数量，可以评估非目标攻击的有效性。

4.原始目标类别对的数量：计算原始目标类别对被攻击的次数。

3.2 实验结果

1.单像素攻击方法在AllConv(全卷机网络)、NiN(Network in Network)和 VGG16、BVLC AlexNet进行实验的成功率：
在这里插入图片描述
2.在CIFAR-10上攻击成功的对抗性图片，由于CIFAR-10分辨率较低，生成的对抗性图片比较明显。

3.ImageNet上攻击成功的对抗性图片，圆圈的位置是改变像素值的位置。

4.使用BVLC AlexNet，作者实践了改变3个像素、5个像素的情况：
在这里插入图片描述
5.只改变图像中0.098%的像素点，即可达到72.85%的攻击成功率：

4.总结与展望

关于为什么单像素就能成功？先前的结果表明，许多数据点可能位于决策边界附近。为了进行分析，将数据点在输入空间中移动了一小步，同时定量分析了类别标签的更改频率。在本文表明，还可以沿很少的维度移动数据点以查找类标签更改的点。结果还表明，由I. J. Goodfellow等人做出的假设，小尺寸的扰动会累积在多个维度的值上，并导致输出发生巨大变化，这可能并不需要解释为什么自然图像对小扰动敏感，因此只更改了一个像素即可成功干扰大量图像。

这个方法的局限性在于是个搜索，而且图像尺寸越大效果越差，但是如果迭代次数够，就能找到比较好的解。

One Pixel Attack for Fooling DNN 对抗样本单像素攻击