OCR - 大多数“不同”或“可识别”的 ASCII 字符？答案

【问题标题】：OCR - most "different" or "recognizable" ASCII characters?OCR - 大多数“不同”或“可识别”的 ASCII 字符？
【发布时间】：2009-09-11 18:56:06
【问题描述】：

我正在寻找一种方法来确定最“不同”或“可识别”的 N 个 ASCII 字符...例如，如果 N = 10，那么从 0x21 到 0x7E 的 ASCII 集中最不同的 N 个字符是什么?显然，字符“X”与“O”（字母）非常不同，但“O”（字母）与“0”（零）非常相似。假设一个受限制的 OCR 字符子集，这样零和字母 O 将被检测为一个或另一个，并且不必担心它是零还是字母 O，那么最不同的 N 是什么典型 OCR 引擎（例如 Tesseract）容易从质量差的输入图像中识别的字符？假设。例如“+”和“t”可能会被广泛地误认为是彼此。可以制作，因此每个输入字符，无论是“+”还是“t”，都只会对应一个。

谢谢，本

【问题讨论】：

我认为字符的选择将取决于用于识别它们的方法。为什么要这样做？
实际上，我认为这将更多地取决于 FONT...
针对单个字母提出问题也不是非常有用，因为 OCR 错误通常会将“d”与“cl”、“m”与“rn”等混淆。
Brian：当然，这在很大程度上取决于字体。 Amuck：我对此很好奇，并且一直想知道它（基本上是在看到带有一些标记为“ocr”的字符的扩展 ASCII 集之后），这更像是一个理论问题。
取决于您的应用程序的需要。您是否正在尝试想出一些可以打印到一张纸上并且计算机和人类都可以轻松阅读的东西？出于某种奇怪的原因，我会想到每个字符下方带有盲文式点的文本。

标签： image-processing theory ocr computer-vision

【解决方案1】：

很遗憾，我认为不会有一个唯一的答案。

这将取决于字体：比较 0、f、s 的不同表示方式以及风格的繁荣。

这将取决于字符在被扫描之前受到的损坏类型，有些可能更能抵抗污迹，有些可能更能抵抗割伤，有些则能抵抗覆盖。

如果您正在寻找一种最适合打印、扫描和 OCRed 的表示，那么一维或二维条码可能是更好的选择？

【讨论】：

【解决方案2】：

只有一种方法可以回答这个问题：测试它。为每个字母创建一组样本，并对每个样本运行 OCR。 OCR 最常正确识别的字母是最“可识别”的； OCR 最常出错的字母是最“不同”的。

【讨论】：