使用自定义数据集而不是 MNIST 进行训练答案

【问题标题】：Training using the custom dataset instead of MNIST使用自定义数据集而不是 MNIST 进行训练
【发布时间】：2017-07-29 10:13:13
【问题描述】：

我想使用一个自定义数据集，其中包含英语以外的其他语言的手写字符图像。我打算使用KNN算法对手写字符进行分类。

以下是我目前面临的一些挑战。 1. 图片大小不一。 - 我们如何解决这个问题，任何使用 Python 完成的 ETL 工作？ 2. 即使我们假设它们大小相同，每个图像的潜在像素也会在 70 * 70 左右，因为字母比英语复杂，字符之间有很多特征。 - 这对我的训练和表现有何影响？

【问题讨论】：

【解决方案1】：

无论如何，如果绘制的字母彼此过于相似，当然会更难识别。

一个有趣的想法不是简单地将像素用作训练数据，您还可以创建一些特殊功能，如下所述：http://archive.ics.uci.edu/ml/datasets/Letter+Recognition

【讨论】：