【发布时间】:2016-08-28 15:41:29
【问题描述】:
This image 被识别为
08787365076858,而不是
0878-3650-6858
我有一个包含 50 个相似图像文件的列表,每个文件中的所有“-”字符都匹配为“7”。
使用默认设置,即使安装 tesseract 以清除系统。 还尝试使用 -psm=7/8(单行/单词)并设置白名单字符。
这个问题的原因是什么,我该如何克服它? 我知道训练,但有趣的是,为什么准确的(在大多数情况下)tesseract 会混淆如此不同的字符。
【问题讨论】: