如果我们先扩充数据然后随机选择数据然后拆分数据可以吗？答案

【问题标题】：Is it okay if we augment the data first then randomly choose the data and split the data afterward?如果我们先扩充数据然后随机选择数据然后拆分数据可以吗？
【发布时间】：2019-11-15 02:58:09
【问题描述】：

我正在做一个关于对医学图像进行分类的科学项目，但我没有很多数据，所以我可以先扩充数据，然后随机选择要保留的数据，然后再拆分保留的数据吗？起初，我的老师告诉我先扩充数据，然后将数据拆分为训练、验证和测试。但是我认为我提出的方法会使训练数据集与测试数据集发生冲突，这将导致准确性不切实际（太高），所以我认为我在进行数据增强后随机选择文件的方法应该有助于增强数据集彼此不要太相似，解决数据集数量不平衡的问题。

【问题讨论】：

标签： validation machine-learning training-data data-augmentation

【解决方案1】：

我们希望我们的模型能够很好地在训练集上泛化，所以从技术上讲，我们应该只在训练集上进行数据增强。我建议您将数据集拆分为训练、验证和测试，然后仅对训练集进行数据扩充。

【讨论】：

"so technically, we should do data augmentation only on the training set"：这并不是一个硬性规定。查找测试时增强。
同意，这并不是一个硬性规定。尽管它会帮助我们获得更好的性能（在某些情况下），但大多数时候我们最终只在训练集中进行增强。