图像分类器的训练数据中每个类的大小是否必须相等？答案

【问题标题】：Does the size of each class in an image classifier's training data have to be equal?图像分类器的训练数据中每个类的大小是否必须相等？
【发布时间】：2018-01-07 18:25:08
【问题描述】：

我目前正在使用 Nvidia DIGITS 训练图像分类器。我正在下载 1,000,000 张图像作为ILSVRC12 数据集的一部分。您可能知道，该数据集包含 1,000 个类别，每个类别包含 1,000 张图像。问题是很多图像是从死的 Flickr URL 下载的，因此在我的数据集的相当一部分（大约 5-10%）中填充了下面显示的通用“不可用”图像。我计划遍历并删除这个“通用”图像的每个副本，从而使我的数据集只剩下与每个类相关的图像。

此操作会使类的大小不均匀。它们不再包含 1,000 张图像。它们每个将包含 900-1,000 张图像。 每个类的大小必须相等吗？ 换句话说，我可以删除这些通用图像而不影响分类器的准确性吗？提前感谢您的反馈。

【问题讨论】：

标签： machine-learning computer-vision caffe nvidia-digits

【解决方案1】：

每个类的训练数据数量不必完全相同。 10% 的差异不会显着影响训练过程。
如果您仍然担心标签不平衡，可以考虑使用"InfogainLoss" 层来弥补缺失的示例。

PS，您可以利用所有无效的 flickr 照片实际上相同这一事实，并根据它们的 md5sum 自动删除它们。
例如，请参阅this answer，了解如何在下载 imagenet 照片时过滤掉这些图像。

【讨论】：