为什么 EMNIST ByMerge 和 Balanced 数据集各有 47 个类？答案

【问题标题】：Why do the EMNIST ByMerge and Balanced datasets have exactly 47 classes each?为什么 EMNIST ByMerge 和 Balanced 数据集各有 47 个类？
【发布时间】：2020-04-25 13:42:10
【问题描述】：

我将 EMNIST 用作使用深度学习进行文本检测和识别的数据集。我从https://pypi.org/project/emnist/（使用pip install emnist）下载了数据集。数据集来自https://www.nist.gov/itl/products-and-services/emnist-dataset，其描述如下：

EMNIST ByClass：814,255 个字符。 62 个不平衡类。

EMNIST ByMerge：814,255 个字符。 47 个不平衡类。

EMNIST 平衡：131,600 个字符。 47个平衡类。

EMNIST 信件：145,600 个字符。 26个平衡类。

EMNIST 数字：280,000 个字符。 10个平衡类。

EMNIST MNIST：70,000 个字符。 10个平衡类。

其中大部分是有意义的，例如 62 个类由 10 个数字、26 个大写字母和 26 个小写字母组成。但是对于 ByMerge 和 Balanced，我们有 47 个。

我自己查看了数据，发现了 10 个数字、26 个字母（大小写混合），然后据我所知，其余 11 个是随机的小写字母（'a'、'b'、'd ','e','f','g','h','n','q','r','t')。

有谁知道为什么要特别包含这些额外的 11 个？

【问题讨论】：

标签： deep-learning dataset

【解决方案1】：

此后，我通过查看论文 EMNIST：MNIST 对 G. Cohen 的手写字母的扩展（可在此处获取：https://arxiv.org/pdf/1702.05373v1.pdf）找到了这个问题的答案。

这说明很多字母在字符识别方面存在问题，即大小写变体非常相似。这会导致尝试对这些字母进行分类时出现问题。为了解决这个问题，他们合并了他们认为有问题的字母。

来自论文：

按照 NIST 的建议，合并后的类用于字母 C， I、J、K、L、M、O、P、S、U、V、W、X、Y 和 Z。

这说明了缺少的类别（尽管我希望看到 62 个平衡类别选项或 36 个类别选项与所有字母合并）。

【讨论】：

【解决方案2】：

我不确定这是否是正确的答案，但这是我的猜测。诸如“C”或“S”之类的字符具有非常相似的大写和小写字母。即使对于人类来说，如果您看到单个“C”或“S”本身，也很难区分大写和小写字母。这就是为什么我认为 EMNIST 的 ByMerge 分裂的创建者决定排除这样的字母，而只包括像“A”或“R”这样的字母，它们看起来与它们的小写字母非常不同。

供参考：
A、B、C、D、E、F、G、H、I、J、K
a, b, c, d, e, f, g, h, i, j, k

其中一些字母看起来非常相似（例如 C 和 K），而另一些则不相似（例如 b 和 g）。

【讨论】：