【发布时间】:2011-06-24 02:37:21
【问题描述】:
我想使用tesseract 仅识别数字。问题是我混合了数字和字母,当我使用 SetVariable("tessedit_char_whitelist", "0123456789")
对于每个符号,tesseract 返回错误的数字。
我可以设置一个阈值,以便tesseract 忽略低相似度的符号吗?
注意:我将 tesseract 设置为仅识别数字,因此 O 和 0 之间不会混淆。
【问题讨论】:
-
您好,我也在使用 Tesseract 和 Java 项目,我遇到了一些问题,我有名片图像,我需要提取电子邮件地址,问题是有时它会混淆数字和信件,电子邮件“j.schneiderheinze@dunskie.de”变成“j.5chneiderheinze@dunskie.de”,你知道如何解决这个问题吗?