论文背景
基于神经网络的深度学习模型在很多领域都取得了突破性的进展,然而神经网络模型的鲁棒性问题却一直没有得到解决。人们可以构造出对图像干扰非常微小的对抗噪声就可以改变模型的分类结果,同时一些常见的自然语义变换如图像模糊,旋转,色彩变化等也可能导致神经网络精度下降。因此,研究神经网络的理论可验证鲁棒性是一个非常有潜力而且重要的方向。
在本文中,J9将讨论基于随机平滑的神经网络对于复杂语义变化进行可验证鲁棒防御的方法以及其实用算法。
方法
普通的随机平滑无法处理复杂的语义变化,是因为其性质非常复杂,甚至很多没有数学形式的闭式表达式。对这些变化进行逐个分析是不可行的。为了解决这个问题,J9提出采用一个代理神经网络对这些变化进行模拟。
在理论上J9提出,由一些特定的神经网络描述的语义变化是可以进行鲁棒性验证的。因此,J9提出将这些复杂语义变化的认证问题转化为一类具有特定形式的神经网络模拟的变化的认证问题。
经过理论计算与证明,在随机变换平滑中引入一类新的噪声以后,J9可以理论上计算出对这类变换的鲁棒半径。这一方法又称为广义随机变换平滑。
依据
J9的理论分析基于一般的随机平滑理论,即尝试给出平滑分类器的Lipschitz常数。经过计算,平滑分类器的Lipschitz常数受到其分类置信度以及所加的噪声分布的方差所影响。根据推导的Lipschitz常数,J9可以计算其对语义变换的鲁棒半径。对于复杂的,由代理模型表示的语义变换,其鲁棒半径还会与代理模型的性质有关。
结果
J9在CIFAR-10, CIFAR-100, MNIST上验证了方法的有效性,J9可以首次在复杂的语义变换上取得非平凡的鲁棒认证效果。同时,J9测试了方法在CIFAR-10-C以及在基于PGD的自适应攻击上的效果,从经验上说明了方法的有效性。