批量标准化会破坏验证性能答案

【问题标题】：Batch normalization destroys validation performances批量标准化会破坏验证性能
【发布时间】：2020-03-23 08:36:29
【问题描述】：

我正在向我的模型添加一些批量标准化，以缩短训练时间，遵循一些教程。这是我的模型：

model = Sequential()

model.add(Conv2D(16, kernel_size=(3, 3), activation='relu', input_shape=(64,64,3)))
model.add(BatchNormalization())

model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Conv2D(64, kernel_size=(3, 3), activation='relu'))
model.add(BatchNormalization())

model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Conv2D(128, kernel_size=(3, 3), activation='relu'))
model.add(BatchNormalization())

model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Conv2D(256, kernel_size=(3, 3), activation='relu'))
model.add(BatchNormalization())

model.add(MaxPooling2D(pool_size=(2, 2)))


model.add(Flatten())

model.add(Dense(512, activation='relu'))
model.add(Dropout(0.5))

#NB: adding more parameters increases the probability of overfitting!! Try to cut instead of adding neurons!! 
model.add(Dense(units=512, activation='relu'))
model.add(Dropout(0.5))

model.add(Dense(units=20, activation='softmax'))

如果没有批量标准化，我的数据准确率大约为 50%。添加批量标准化会破坏我的性能，验证准确度会降低到 10%。

为什么会这样？

【问题讨论】：

标签： tensorflow keras conv-neural-network batch-normalization

【解决方案1】：

我不确定这是否是您要问的，但批标准化在验证期间仍然有效，只是参数是在训练期间定义和设置的，而在验证期间没有更改。

至于为什么批量标准化通常不适合您的模型/问题，它就像任何超参数一样，有些适用于某些场景，但不适用于其他场景。您知道这是否是您网络中 BN 的最佳位置吗？除此之外，您还需要了解更多关于您的数据和问题的信息，以便做出进一步的猜测。

【讨论】：

我遵循了 Medium 上的教程，用户在每个卷积层之后放置了一个批量标准化层，声称这将提高性能/训练时间。我完全没想到我的验证性能会下降
无论如何，我正在尝试根据大约 1500 张图像的数据集对 20 个类别进行分类（因此每个类别或多或少有 75 张图像，分布不均匀，某些类别可能有一些额外的图像）
BN 通常用于帮助过拟合。根据我的经验，它对网络架构非常敏感（我在激活之前使用它，不确定它在哪里适合池化层）。您想在网络中使用 BN 的任何特殊原因？
我没有特别的理由。我正在尝试提高我的准确性（我被困在或多或少的 50%-54% 上）并且我尝试了许多方法以获得更好的结果。课堂上的 75 张图片实际上不足以进行适当的训练，但我试图用我自己的网络做到最好（在转向迁移学习之前）

【解决方案2】：

尝试使用较少数量的批量标准化层。在最后一个卷积层使用它是一种普遍的做法。从其中一个开始，如果能提高验证准确性，则添加更多。

【讨论】：