使用 python 进行 tesseract ocr 的最佳实践答案

【问题标题】：Best practices for tesseract ocr using python使用 python 进行 tesseract ocr 的最佳实践
【发布时间】：2019-10-15 12:22:50
【问题描述】：

我正在做一个项目，我想从信用卡大小的文档中识别文本。该文档包含姓名、电话号码、地址等详细信息。我正在捕获图像并将图像传递给 tesseract 引擎使用 text = pytesseract.image_to_string(Image.open(filename), lang = 'eng')。有时我在每个领域都得到了不错的结果，但大多数时候结果很糟糕。我该如何解决这个问题？什么是最佳实践。文档阅读器如何使用 OCR。是否可以在文档中处理基于区域的ocr？

【问题讨论】：

预处理图像非常重要。通常，您希望所需的文本为黑色，背景为白色。看看here1、here2、here3、here4

标签： machine-learning computer-vision ocr tesseract python-tesseract

【解决方案1】：

单一的方法无法阅读所有文本。您必须对多种类型的 pdf 应用多种方法。

如果文本不是水平的，则必须旋转文本。如果文本是弯曲的，则必须使用转换（例如 hog 转换）。

此外，要使用包阅读文本，文本应清晰且水平。否则，您需要创建规则并对其进行转换。

【讨论】：