【问题标题】:OCR for known font已知字体的 OCR
【发布时间】:2011-04-07 10:31:17
【问题描述】:

我正在搜索一个可以用字体参数化的 OCR 库, 因为我一直都知道,我相信这样识别结果会好很多。

有人知道吗?

【问题讨论】:

  • 您是在问OCR 使用什么字体或OCR 库来识别已知字体?
  • @tommieb75:我认为他明确表示他正在寻找图书馆......
  • @Matti:好的......这是我不明白的“用字体参数化”问题的措辞......
  • 我也对此感兴趣。有一种名为 OCR-A 的字体,我想在过滤掉扫描区域中可能存在的任何其他文本时识别它。

标签: fonts ocr


【解决方案1】:

大多数 OCR 引擎都能很好地处理这种情况。事实上,如果页面上只有一种字体需要识别,OCR 引擎就不会感到困惑。奇怪但在我的经验中是真实的。

如果 OCR 引擎一开始就可以读取您的字体,那么我会直接使用它而不用担心它。有更好的选择来提高识别度。

许多 OCR 引擎允许您设置一些识别参数来帮助改进识别,例如固定宽度或比例、衬线或非衬线、机器或手印。您还可以选择字符子集,例如大写或数字,以显着改善结果。 IE。如果您只有数字字符,那么 0(零)字符永远不会与“O”或“o”或“Ø”混淆。您会发现这些提示比选择 OCR 的确切字体类型更有效。

其他引擎将允许您训练 OCR 引擎以处理新字体,如果您有奇怪的字体,这将有很大帮助。

如果您的图像质量良好并且字体干净且大小合适,那么我建议您使用来自 Google 的 Tesseract OCR 和 OCROpus 作为suggested by Michael Mior。它是免费的,并且在干净清晰的文本上效果很好。如果文本有点难,那么肯定有更好的 OCR 引擎,例如 ABBYY、Prime Recognition、Omnipage 和许多其他引擎,尽管它们会花钱。

【讨论】:

    【解决方案2】:

    查看OCRopus。它是开源的,由 Google 赞助 :) 我不确定它是否允许选择特定的字体,但无论如何它似乎都能产生良好的效果。

    【讨论】:

      【解决方案3】:

      显然它只适用于 Windows,并不主要关注 OCR,但 Simba 的 OCR 具有需要了解所使用字体的方法。

      http://docs.villavu.com/simba/scriptref/ocr.html

      【讨论】:

        猜你喜欢
        • 2019-01-22
        • 1970-01-01
        • 2013-03-18
        • 1970-01-01
        • 1970-01-01
        • 2012-07-26
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多