【问题标题】:tesseract 2.x - using multiple fonts at the same timetesseract 2.x - 同时使用多种字体
【发布时间】:2012-10-04 02:53:37
【问题描述】:

我已经成功地训练了 tesseract 2.x 来识别一些特定的字体。但是,似乎我无法让 tesseract 同时识别所有这些字体——即源图像包含所有这些字体。目前只能将一组 tesseract 数据放入 tessdata 文件夹(即一组具有一种训练好的字体)。

我知道 tesseract 3.x 可以正确处理多种字体 - 但是,我无法升级,因为没有与 .NET 的良好绑定,它与 2.x 版的 .NET 绑定具有相同的功能。

另外,我想避免对每种字体进行多次预处理和 OCR 本身。

【问题讨论】:

    标签: ocr tesseract


    【解决方案1】:

    对于 Tesseract 2.0x,一个语言数据包可以识别多种字体。你cluster你的训练文件了吗?

    Tesseract 3.01 有几个出色的 .NET 包装器。查看其AddOn 页面了解更多信息。

    【讨论】:

    • 只有一个 .NET 包装器用于 tesseract 3(我知道),而且质量非常差 - 使用默认 tessdata 进行 OCR 会产生非常糟糕的结果。然而,最大的问题是,做这样的 OCR 将比 tesseract 2 的 .NET 包装器多花费大约 10-20 倍的时间。关于集群 - 我错过了那个。我以为我不能在集群中混合字体。相反,我不能在一张训练图像中混合字体。
    猜你喜欢
    • 1970-01-01
    • 2013-11-28
    • 2018-02-17
    • 2016-01-15
    • 1970-01-01
    • 2018-08-20
    • 2017-07-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多