如何提高 tesseract 引擎在我的图像上的准确性？答案

【问题标题】：How to improve accuracy of tesseract engine on my images?如何提高 tesseract 引擎在我的图像上的准确性？
【发布时间】：2016-06-29 04:13:38
【问题描述】：

我使用 tesseract 引擎对我的图像进行 OCR，如下所示。 image1 to OCR image2 to OCR

我使用了 eng lang，并为引擎配置了一个白名单字符：“0123456789abcdefghijklmnopqrstuvwxyz”

pOCREngine->SetVariable("tessedit_char_whitelist", "0123456789abcdefghijklmnopqrstuvwxyz");

准确率不好，大概在10%左右。我试图用大约 200 张这样的图像来训练引擎，并将训练后的数据与 eng+mytrainedfont 结合起来。精度没有提高。

有没有人想改进此类图像的 OCR？提前致谢。

【问题讨论】：

【解决方案1】：

您提供的图像在我尝试时很难获得 100% 的准确度。要改进 tesseract ocr，您需要应用一些图像处理方法。我在两者上都使用了高斯滤波器，之后使用了最大滤波器来降低噪声。之后我将图像二进制化。

我在 c++ 中使用 tesseract ocr，并且我使用 OpenCV 库进行图像处理。我测试了以下图片，结果如下：

image1 结果： yfsxf

image2 结果： 26ww(

希望这能让您了解如何改进 tesseract 结果。不幸的是，您提供的图像使用 tesseract 有点难以阅读。

【讨论】：