【问题标题】:Tesseract confuses "-" and "7" in a single-line imageTesseract 在单行图像中混淆了“-”和“7”
【发布时间】:2016-08-28 15:41:29
【问题描述】:

This image 被识别为
08787365076858,而不是
0878-3650-6858

我有一个包含 50 个相似图像文件的列表,每个文件中的所有“-”字符都匹配为“7”。

使用默认设置,即使安装 tesseract 以清除系统。 还尝试使用 -psm=7/8(单行/单词)并设置白名单字符。

这个问题的原因是什么,我该如何克服它? 我知道训练,但有趣的是,为什么准确的(在大多数情况下)tesseract 会混淆如此不同的字符。

【问题讨论】:

    标签: ocr tesseract


    【解决方案1】:

    重新缩放到 300DPI 将有助于在图像中获得这些破折号。

    【讨论】:

    • 谢谢。将图像拉伸到 390x50 解决了这个问题。
    • 谢谢大家,这是一个很好的学习,pytesseract 为不同的分辨率提供了不同的结果,调整图像大小有很大帮助(通常宽度是我的图像的 3 倍高度)。
    猜你喜欢
    • 1970-01-01
    • 2011-11-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多