Tesseract 在单行图像中混淆了“-”和“7”答案

【问题标题】：Tesseract confuses "-" and "7" in a single-line imageTesseract 在单行图像中混淆了“-”和“7”
【发布时间】：2016-08-28 15:41:29
【问题描述】：

This image 被识别为
08787365076858，而不是
0878-3650-6858

我有一个包含 50 个相似图像文件的列表，每个文件中的所有“-”字符都匹配为“7”。

使用默认设置，即使安装 tesseract 以清除系统。还尝试使用 -psm=7/8（单行/单词）并设置白名单字符。

这个问题的原因是什么，我该如何克服它？我知道训练，但有趣的是，为什么准确的（在大多数情况下）tesseract 会混淆如此不同的字符。

【问题讨论】：

【解决方案1】：

重新缩放到 300DPI 将有助于在图像中获得这些破折号。

【讨论】：