【发布时间】:2018-01-07 18:25:08
【问题描述】:
我目前正在使用 Nvidia DIGITS 训练图像分类器。我正在下载 1,000,000 张图像作为ILSVRC12 数据集的一部分。您可能知道,该数据集包含 1,000 个类别,每个类别包含 1,000 张图像。问题是很多图像是从死的 Flickr URL 下载的,因此在我的数据集的相当一部分(大约 5-10%)中填充了下面显示的通用“不可用”图像。我计划遍历并删除这个“通用”图像的每个副本,从而使我的数据集只剩下与每个类相关的图像。
此操作会使类的大小不均匀。它们不再包含 1,000 张图像。它们每个将包含 900-1,000 张图像。 每个类的大小必须相等吗? 换句话说,我可以删除这些通用图像而不影响分类器的准确性吗?提前感谢您的反馈。
【问题讨论】:
标签: machine-learning computer-vision caffe nvidia-digits