【问题标题】:Why do the EMNIST ByMerge and Balanced datasets have exactly 47 classes each?为什么 EMNIST ByMerge 和 Balanced 数据集各有 47 个类?
【发布时间】:2020-04-25 13:42:10
【问题描述】:

我将 EMNIST 用作使用深度学习进行文本检测和识别的数据集。我从https://pypi.org/project/emnist/(使用pip install emnist)下载了数据集。数据集来自https://www.nist.gov/itl/products-and-services/emnist-dataset,其描述如下:

EMNIST ByClass:814,255 个字符。 62 个不平衡类。

EMNIST ByMerge:814,255 个字符。 47 个不平衡类。

EMNIST 平衡:131,600 个字符。 47个平衡类。

EMNIST 信件:145,600 个字符。 26个平衡类。

EMNIST 数字:280,000 个字符。 10个平衡类。

EMNIST MNIST:70,000 个字符。 10个平衡类。

其中大部分是有意义的,例如 62 个类由 10 个数字、26 个大写字母和 26 个小写字母组成。但是对于 ByMerge 和 Balanced,我们有 47 个。

我自己查看了数据,发现了 10 个数字、26 个字母(大小写混合),然后据我所知,其余 11 个是随机的小写字母('a'、'b'、'd ','e','f','g','h','n','q','r','t')。

有谁知道为什么要特别包含这些额外的 11 个?

【问题讨论】:

    标签: deep-learning dataset


    【解决方案1】:

    此后,我通过查看论文 EMNIST:MNIST 对 G. Cohen 的手写字母的扩展(可在此处获取:https://arxiv.org/pdf/1702.05373v1.pdf)找到了这个问题的答案。

    这说明很多字母在字符识别方面存在问题,即大小写变体非常相似。这会导致尝试对这些字母进行分类时出现问题。为了解决这个问题,他们合并了他们认为有问题的字母。

    来自论文:

    按照 NIST 的建议,合并后的类用于字母 C, I、J、K、L、M、O、P、S、U、V、W、X、Y 和 Z。

    这说明了缺少的类别(尽管我希望看到 62 个平衡类别选项或 36 个类别选项与所有字母合并)。

    【讨论】:

      【解决方案2】:

      我不确定这是否是正确的答案,但这是我的猜测。诸如“C”或“S”之类的字符具有非常相似的大写和小写字母。即使对于人类来说,如果您看到单个“C”或“S”本身,也很难区分大写和小写字母。这就是为什么我认为 EMNIST 的 ByMerge 分裂的创建者决定排除这样的字母,而只包括像“A”或“R”这样的字母,它们看起来与它们的小写字母非常不同。

      供参考:
      A、B、C、D、E、F、G、H、I、J、K
      a, b, c, d, e, f, g, h, i, j, k

      其中一些字母看起来非常相似(例如 C 和 K),而另一些则不相似(例如 b 和 g)。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2020-09-02
        • 1970-01-01
        • 2018-12-10
        • 2011-12-08
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2011-07-07
        相关资源
        最近更新 更多