【发布时间】:2017-11-30 04:38:14
【问题描述】:
用于训练的标签和用于验证的标签是否相同?我认为它们应该是一样的;但是,在线提供的标签似乎存在差异。当我从官方网站下载其验证数据的 imagenet 2012 标签时,我得到的标签以 kit_fox 作为第一个标签,与我从官方网站下载的 2012 年数据集验证图像完全匹配。这是标签的示例:https://gist.github.com/aaronpolhamus/964a4411c0906315deb9f4a3723aac57
但是,对于几乎所有预训练模型,包括由 Google 训练的模型,它们用于训练的 imagenet 标签实际上都是以 tench, tinca tinca 开头的。见这里:https://gist.github.com/yrevar/942d3a0ac09ec9e5eb3a
为什么会有这么大的差异? 'tinca tinca' 之类的标签从何而来?
如果我们使用与实际验证图像相对应的第一个标签映射,我们将面临另一个问题:2 个类(“Crane”和“maillot”)实际上是重复的,即它们具有相同的名称但引用不同类型的起重机 - 机械起重机和动物起重机 - 在 2 个类别中产生 100 个图像,而不是假设的 50 个。如果我们不使用第一个映射,哪里是对应于第二个标签映射的验证图像的可靠来源?
【问题讨论】:
-
我还意识到“maillot”在数据集中出现了两次,两次都表示相同的意思。 “crane”也出现了两次,但在这里我们有不同的含义——鸟和物体。
标签: machine-learning computer-vision deep-learning classification imagenet