【Bias 02】BENCHMARKING NEURAL NETWORK ROBUSTNESS TO COMMON CORRUPTIONS AND PERTURBATIONS

摘要

对图像分类的鲁棒性评估，建立benchmark。我们的第一个benchmark是ImageNet-C，它可以评估哪一个分类器更适合安全关键的应用。第二个benchmark是ImageNet-P，使得研究人员可以衡量分类器对常见扰动的鲁棒性。并且本文探究加强腐蚀和扰动的鲁棒性，本文甚至发现bypassed adversarial defense提供了对于常见扰动的鲁棒性。

Related Work

在某一种扰动、腐蚀上做fine-tune，并不能使得模型在其他扰动、腐蚀上表现得更好。但是在多种扰动、腐蚀上做fine-tune则会导致表现较差。
在噪声图片中做fine-tuning会导致欠拟合，因此他们鼓励让噪声图片的softmax distribution和clean image 的softmax distribution想匹配。
通过假设腐蚀已知，通过a mixture of corruption-specific experts来解决欠拟合的问题。

ImageNet-C

包含15中corruption，可分为noise、blur、weather和digital。

【Bias 02】BENCHMARKING NEURAL NETWORK ROBUSTNESS TO COMMON CORRUPTIONS AND PERTURBATIONS

评价指标：

【Bias 02】BENCHMARKING NEURAL NETWORK ROBUSTNESS TO COMMON CORRUPTIONS AND PERTURBATIONS

MeanCE则是所有corruption的均值。

【Bias 02】BENCHMARKING NEURAL NETWORK ROBUSTNESS TO COMMON CORRUPTIONS AND PERTURBATIONS

Relative mCE则是所有corruption的均值

增强鲁棒性的方法

Multiscale Networks，例如Multigrid Networks和MSDNet（bind network layers with DenseNet-like skip conneections）由于多尺度架构具有经过精细细节处理的高级表示,因此该架构似乎能够更好地抑制其他分散的像素噪声
Feature Aggregating and Larger Networks：DenseNets、ResNeXts
Stylized ImageNet：图片用style transfer处理过，在这上面训练过的分类器会更少的依赖纹理，专注于目标形状。
Adversarial Logit Pairing：设计用于增加对small gradient perturbations的鲁棒性。但是它对于提高模型鲁棒性有很好的作用。