【发布时间】:2009-09-11 18:56:06
【问题描述】:
我正在寻找一种方法来确定最“不同”或“可识别”的 N 个 ASCII 字符...例如,如果 N = 10,那么从 0x21 到 0x7E 的 ASCII 集中最不同的 N 个字符是什么?显然,字符“X”与“O”(字母)非常不同,但“O”(字母)与“0”(零)非常相似。假设一个受限制的 OCR 字符子集,这样零和字母 O 将被检测为一个或另一个,并且不必担心它是零还是字母 O,那么最不同的 N 是什么典型 OCR 引擎(例如 Tesseract)容易从质量差的输入图像中识别的字符?假设。例如“+”和“t”可能会被广泛地误认为是彼此。可以制作,因此每个输入字符,无论是“+”还是“t”,都只会对应一个。
谢谢, 本
【问题讨论】:
-
我认为字符的选择将取决于用于识别它们的方法。为什么要这样做?
-
实际上,我认为这将更多地取决于 FONT...
-
针对单个字母提出问题也不是非常有用,因为 OCR 错误通常会将“d”与“cl”、“m”与“rn”等混淆。
-
Brian:当然,这在很大程度上取决于字体。 Amuck:我对此很好奇,并且一直想知道它(基本上是在看到带有一些标记为“ocr”的字符的扩展 ASCII 集之后),这更像是一个理论问题。
-
取决于您的应用程序的需要。您是否正在尝试想出一些可以打印到一张纸上并且计算机和人类都可以轻松阅读的东西?出于某种奇怪的原因,我会想到每个字符下方带有盲文式点的文本。
标签: image-processing theory ocr computer-vision