【问题标题】:Why is there a discrepancy in the imagenet dataset labels?为什么 imagenet 数据集标签存在差异?
【发布时间】:2017-11-30 04:38:14
【问题描述】:

用于训练的标签和用于验证的标签是否相同?我认为它们应该是一样的;但是,在线提供的标签似乎存在差异。当我从官方网站下载其验证数据的 imagenet 2012 标签时,我得到的标签以 kit_fox 作为第一个标签,与我从官方网站下载的 2012 年数据集验证图像完全匹配。这是标签的示例:https://gist.github.com/aaronpolhamus/964a4411c0906315deb9f4a3723aac57

但是,对于几乎所有预训练模型,包括由 Google 训练的模型,它们用于训练的 imagenet 标签实际上都是以 tench, tinca tinca 开头的。见这里:https://gist.github.com/yrevar/942d3a0ac09ec9e5eb3a

为什么会有这么大的差异? 'tinca tinca' 之类的标签从何而来?

如果我们使用与实际验证图像相对应的第一个标签映射,我们将面临另一个问题:2 个类(“Crane”和“maillot”)实际上是重复的,即它们具有相同的名称但引用不同类型的起重机 - 机械起重机和动物起重机 - 在 2 个类别中产生 100 个图像,而不是假设的 50 个。如果我们不使用第一个映射,哪里是对应于第二个标签映射的验证图像的可靠来源?

【问题讨论】:

  • 我还意识到“maillot”在数据集中出现了两次,两次都表示相同的意思。 “crane”也出现了两次,但在这里我们有不同的含义——鸟和物体。

标签: machine-learning computer-vision deep-learning classification imagenet


【解决方案1】:

我的微调也有同样的问题。您解决了您的问题,将类名称 tench, tinca tinca 更改为 synset number。可以找到here的映射

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-04-06
    • 2012-05-30
    • 2020-06-21
    • 1970-01-01
    • 2018-05-10
    • 2021-02-05
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多