【问题标题】:Forcing Tesseract to match pattern (four digits in a row)强制 Tesseract 匹配模式(连续四位数字)
【发布时间】:2015-01-11 01:32:48
【问题描述】:

我试图让 Tesseract(使用 Tess4J 包装器)仅匹配特定模式。模式是连续四位数,我认为应该是\d\d\d\d。这是我正在喂 tesseract 的图像的一个非常小子集(平面图受到限制,所以我很谨慎地发布更多内容):http://mike724.com/view/a06771

我正在使用以下 java 代码:

    File imageFile = new File("/<redacted>/file.pdf");

    Tesseract instance = Tesseract.getInstance();
    instance.setTessVariable("load_system_dawg", "F");
    instance.setTessVariable("load_freq_dawg", "F");
    instance.setTessVariable("user_words_suffix", "");
    instance.setTessVariable("user_patterns_suffix", "\\d\\d\\d\\d");

    try {
        String result = instance.doOCR(imageFile);
        System.out.println(result);
    } catch (TesseractException e) {
        System.err.println(e.getMessage());
    }

我遇到的问题是 tesseract 似乎没有遵守这些配置选项,我仍然在结果中得到文本/单词。我希望只获得房间号(例如 2950)。

【问题讨论】:

  • Tesseract 不是解析器。它只是给你它读到的东西。之后你必须选择你需要的东西!
  • 嗯,是的,但我想如果我“训练” tesseract 我只想要数字并且只想要四个一组的数字,它会提高准确性。现在准确度很差,完全无法使用。
  • 添加 char 白名单 (0123456789) 也会对您有所帮助!

标签: tesseract tess4j


【解决方案1】:

您没有正确配置它。

user_patterns_suffix 表示包含您的模式的文本文件的文件扩展名,例如

user_patterns_suffix pats

这意味着您需要在 tesseract tessdata 文件夹中放置一个文件

tessdata/eng.pats

...假设 eng 是您使用的语言。

在这里查看更多:

http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1.html#_config_files_and_augmenting_with_user_data

我确实记得,用户模式在一个模式之前可能不会短于 6 个固定字符,因此您在任何情况下都可能无法完成此操作 - 但请先尝试正确的配置。

【讨论】:

  • 谢谢!我今天会试一试
  • 另外,在模式的开头至少需要 kSaneNumConcreteChars 字符,但是,从我可以看出的代码来看,它设置为 0(在主分支上)。
【解决方案2】:

它们看起来像只用于初始化的参数;因此,它们需要在一个配置文件中,例如,名为 bazaar 的文件位于 configs 文件夹下,以便传递给 setConfigs 方法。

instance.setConfigs(Arrays.asList("bazaar");

参考资料:
https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc
https://github.com/tesseract-ocr/tesseract/wiki/ControlParams
http://tess4j.sourceforge.net/docs/docs-1.4/

【讨论】:

  • 谢谢,我不知道(也找不到任何东西)关于 Tess4J 中的 setConfigs 方法。目前我唯一的另一个问题是 kSaneNumConcreteChars 限制,但为此我想我只需要使用自定义构建的 tesseract。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2021-10-14
  • 1970-01-01
  • 1970-01-01
  • 2017-03-04
  • 1970-01-01
  • 1970-01-01
  • 2011-12-28
相关资源
最近更新 更多