【发布时间】:2020-04-25 13:42:10
【问题描述】:
我将 EMNIST 用作使用深度学习进行文本检测和识别的数据集。我从https://pypi.org/project/emnist/(使用pip install emnist)下载了数据集。数据集来自https://www.nist.gov/itl/products-and-services/emnist-dataset,其描述如下:
EMNIST ByClass:814,255 个字符。 62 个不平衡类。
EMNIST ByMerge:814,255 个字符。 47 个不平衡类。
EMNIST 平衡:131,600 个字符。 47个平衡类。
EMNIST 信件:145,600 个字符。 26个平衡类。
EMNIST 数字:280,000 个字符。 10个平衡类。
EMNIST MNIST:70,000 个字符。 10个平衡类。
其中大部分是有意义的,例如 62 个类由 10 个数字、26 个大写字母和 26 个小写字母组成。但是对于 ByMerge 和 Balanced,我们有 47 个。
我自己查看了数据,发现了 10 个数字、26 个字母(大小写混合),然后据我所知,其余 11 个是随机的小写字母('a'、'b'、'd ','e','f','g','h','n','q','r','t')。
有谁知道为什么要特别包含这些额外的 11 个?
【问题讨论】:
标签: deep-learning dataset