【发布时间】:2019-11-15 01:09:27
【问题描述】:
我正在为我的应用程序使用 pyocr (https://github.com/openpaperwork/pyocr),除了以下情况外,它都运行良好:
来自这张图片:
Tesseract 将提取:
42Z8
它检测到其中一个 Z 而不是另一个“Z”,这很重要,因为如果发生此问题,此数字会通过验证失败。
我尝试过的事情:
- 将字体 (flama) .traineddata 文件与 tesseract 一起使用,未修复。
- 像图像一样隔离块以查看检测是否更好。
- 进行一些图像处理,例如:
thresh = cv.threshold(blocktext, 127, 255, cv.THRESH_BINARY)
我该如何解决这个问题?也许解决方案是一些更复杂的图像处理,但我现在有点迷失了。
谢谢。
更新图片:
【问题讨论】:
-
如果格式一直相同(一个数字,两个字母,一个数字),那么您可以限制 tesseract 正在寻找的字符。仅查找数字并仅查找字符。然后合并结果。
标签: python opencv ocr tesseract