SSL论文笔记（数据增广）：RandAugment

Abstract

日前，自动化增广策略帮助图像分类和目标检测实现了SOTA结果，且也帮助了半监督学习领域并提升了鲁棒性

但是由于需要一个单独的搜索阶段，存在两个问题：

本文解决了上述困境，显著缩小了搜索空间（仅有两个超参），以此完全消除了在一个单独的代理任务上的搜索阶段，构建了模型参数和数据增广的统一优化策略。

数据增广方法需要专业知识，以及手工工作来设计策略，以获取每个领域中的先验知识。这种需求使得将现有的数据增强方法扩展到其他应用程序和领域变得很困难。

learned policies for data augmentation to automate the design of augmentation strategies

优点：提升准确性，模型鲁棒性和半监督学习的性能；并且不会引入测试阶段的额外复杂度【通用】

缺点：计算需求以及两个单独的优化过程的额外复杂性令人望而却步（类似NAS）

目前自动化数据增广的原始范式是假设对一个小的代理任务进行单独搜索，代理任务的结果可能被转移到一个较大的目标任务。这个范式依托于一个强有力的假设：代理任务提供了更大任务的预测指示。

但是本文提供了实验证据挑战这个核心假设，并说明这个策略是次优的（详见贡献第一点）。

Contribution：

一些操作（如对于自然图像的随机翻转和剪裁、平移，对于字符样本的弹性变形等）在保持训练集分布的同时增加数据

一些操作不保持训练集分布（随机删除或向图像补丁添加噪声等）

Mixup

Smart Augmentation/Bayesian-based/GAN

搜索策略花费时间有所改进，但必须在单独的搜索阶段实现这些方法

Note：

相比于其他工作对AutoAugment方法效率的提升，本工作旨在完全消除单独代理任务上的搜索阶段。

为了消除单独的搜索阶段，将数据增强策略的参数折叠为训练模型的超参数：

先前工作表明，学习增强策略的主要好处来自于增加样本多样性，提出了 $K=14$ 个可用变换：
SSL论文笔记（数据增广）：RandAugment

本文使用一个始终选择具有均匀概率的变换的无参数过程来代替每次变换的学习策略和概率，也就是RandAugment可以表达 $K^N$ 种可能的策略

和AutoAugment一致，使用相同的线性尺度表示每个变换的强度【0-10】

观察到每次变换学到的幅度遵循相似的schedule，因此假设单一的全局失真就足以参数化所有的变换。

由于仅有两个超参，朴素网格搜索就很有效。

SSL论文笔记（数据增广）：RandAugment

Figure 3a/3b:

演示了在三个Wide-ResNet模型中，模型在不断增大的失真度下训练的相对精度增益。

最佳失真度随网络大小增加而单调增加。

Figure 3c/3d:

在更小的训练集上训练的模型可以从数据增广得到更多提升。

最佳失真度随训练集大小增加而单调增加。（作者认为这是反直觉的，可能的解释是在小数据集中做过强的数据增强可能会导致较低的信噪比）这个现象不仅强调了在大数据集增强数据增强策略的必要性，也展现了在一个仅包含训练子集的代理任务上优化学习增强策略的不足。