强制 Tesseract 匹配模式（连续四位数字）答案

【问题标题】：Forcing Tesseract to match pattern (four digits in a row)强制 Tesseract 匹配模式（连续四位数字）
【发布时间】：2015-01-11 01:32:48
【问题描述】：

我试图让 Tesseract（使用 Tess4J 包装器）仅匹配特定模式。模式是连续四位数，我认为应该是\d\d\d\d。这是我正在喂 tesseract 的图像的一个非常小子集（平面图受到限制，所以我很谨慎地发布更多内容）：http://mike724.com/view/a06771

我正在使用以下 java 代码：

    File imageFile = new File("/<redacted>/file.pdf");

    Tesseract instance = Tesseract.getInstance();
    instance.setTessVariable("load_system_dawg", "F");
    instance.setTessVariable("load_freq_dawg", "F");
    instance.setTessVariable("user_words_suffix", "");
    instance.setTessVariable("user_patterns_suffix", "\\d\\d\\d\\d");

    try {
        String result = instance.doOCR(imageFile);
        System.out.println(result);
    } catch (TesseractException e) {
        System.err.println(e.getMessage());
    }

我遇到的问题是 tesseract 似乎没有遵守这些配置选项，我仍然在结果中得到文本/单词。我希望只获得房间号（例如 2950）。

【问题讨论】：

Tesseract 不是解析器。它只是给你它读到的东西。之后你必须选择你需要的东西！
嗯，是的，但我想如果我“训练” tesseract 我只想要数字并且只想要四个一组的数字，它会提高准确性。现在准确度很差，完全无法使用。
添加 char 白名单 (0123456789) 也会对您有所帮助！

标签： tesseract tess4j

【解决方案1】：

您没有正确配置它。

user_patterns_suffix 表示包含您的模式的文本文件的文件扩展名，例如

user_patterns_suffix pats

这意味着您需要在 tesseract tessdata 文件夹中放置一个文件

tessdata/eng.pats

...假设 eng 是您使用的语言。

我确实记得，用户模式在一个模式之前可能不会短于 6 个固定字符，因此您在任何情况下都可能无法完成此操作 - 但请先尝试正确的配置。

【讨论】：

谢谢！我今天会试一试
另外，在模式的开头至少需要 kSaneNumConcreteChars 字符，但是，从我可以看出的代码来看，它设置为 0（在主分支上）。

【解决方案2】：

它们看起来像只用于初始化的参数；因此，它们需要在一个配置文件中，例如，名为 bazaar 的文件位于 configs 文件夹下，以便传递给 setConfigs 方法。

instance.setConfigs(Arrays.asList("bazaar");

参考资料：
https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc
https://github.com/tesseract-ocr/tesseract/wiki/ControlParams
http://tess4j.sourceforge.net/docs/docs-1.4/

【讨论】：

谢谢，我不知道（也找不到任何东西）关于 Tess4J 中的 setConfigs 方法。目前我唯一的另一个问题是 kSaneNumConcreteChars 限制，但为此我想我只需要使用自定义构建的 tesseract。