为什么 imagenet 数据集标签存在差异？答案

【问题标题】：Why is there a discrepancy in the imagenet dataset labels?为什么 imagenet 数据集标签存在差异？
【发布时间】：2017-11-30 04:38:14
【问题描述】：

用于训练的标签和用于验证的标签是否相同？我认为它们应该是一样的；但是，在线提供的标签似乎存在差异。当我从官方网站下载其验证数据的 imagenet 2012 标签时，我得到的标签以 kit_fox 作为第一个标签，与我从官方网站下载的 2012 年数据集验证图像完全匹配。这是标签的示例：https://gist.github.com/aaronpolhamus/964a4411c0906315deb9f4a3723aac57

但是，对于几乎所有预训练模型，包括由 Google 训练的模型，它们用于训练的 imagenet 标签实际上都是以 tench, tinca tinca 开头的。见这里：https://gist.github.com/yrevar/942d3a0ac09ec9e5eb3a

为什么会有这么大的差异？ 'tinca tinca' 之类的标签从何而来？

如果我们使用与实际验证图像相对应的第一个标签映射，我们将面临另一个问题：2 个类（“Crane”和“maillot”）实际上是重复的，即它们具有相同的名称但引用不同类型的起重机 - 机械起重机和动物起重机 - 在 2 个类别中产生 100 个图像，而不是假设的 50 个。如果我们不使用第一个映射，哪里是对应于第二个标签映射的验证图像的可靠来源?

【问题讨论】：

我还意识到“maillot”在数据集中出现了两次，两次都表示相同的意思。 “crane”也出现了两次，但在这里我们有不同的含义——鸟和物体。

标签： machine-learning computer-vision deep-learning classification imagenet

【解决方案1】：

我的微调也有同样的问题。您解决了您的问题，将类名称 tench, tinca tinca 更改为 synset number。可以找到here的映射

【讨论】：