【问题标题】:How to improve accuracy of tesseract engine on my images?如何提高 tesseract 引擎在我的图像上的准确性?
【发布时间】:2016-06-29 04:13:38
【问题描述】:

我使用 tesseract 引擎对我的图像进行 OCR,如下所示。 image1 to OCR image2 to OCR

我使用了 eng lang,并为引擎配置了一个白名单字符:“0123456789abcdefghijklmnopqrstuvwxyz”

pOCREngine->SetVariable("tessedit_char_whitelist", "0123456789abcdefghijklmnopqrstuvwxyz");

准确率不好,大概在10%左右。我试图用大约 200 张这样的图像来训练引擎,并将训练后的数据与 eng+mytrainedfont 结合起来。精度没有提高。

有没有人想改进此类图像的 OCR?提前致谢。

【问题讨论】:

    标签: ocr tesseract


    【解决方案1】:

    您提供的图像在我尝试时很难获得 100% 的准确度。要改进 tesseract ocr,您需要应用一些图像处理方法。 我在两者上都使用了高斯滤波器,之后使用了最大滤波器来降低噪声。之后我将图像二进制化。

    我在 c++ 中使用 tesseract ocr,并且我使用 OpenCV 库进行图像处理。我测试了以下图片,结果如下:

    image1 结果: yfsxf

    image2 结果: 26ww(

    希望这能让您了解如何改进 tesseract 结果。不幸的是,您提供的图像使用 tesseract 有点难以阅读。

    【讨论】:

      猜你喜欢
      • 2020-12-08
      • 1970-01-01
      • 2012-03-17
      • 2021-04-20
      • 2019-11-02
      • 1970-01-01
      • 2021-06-30
      • 1970-01-01
      相关资源
      最近更新 更多