【问题标题】:Can I configure Tesseract to detect only single letters and digits?我可以将 Tesseract 配置为仅检测单个字母和数字吗?
【发布时间】:2016-01-05 19:49:47
【问题描述】:

我正在尝试使用 Tesseract ocr 来处理具有如下矩阵的特定卡片:

有什么方法可以配置 Tesseract 只提取单个字母?

问题是矩阵的列有字母作为标题:“A B C D E F G H I”当我使用 BOX 文件进行训练时,每个字母都会被检测到,但是当我执行 ocr 过程时,这些字母会合并成一个单词:“ABCDEFGHI”。我需要将单词分开,因为我需要每列的边界(x、y、高度、宽度),这将使整个列的处理更加准确。

谢谢,

【问题讨论】:

    标签: ocr tesseract


    【解决方案1】:

    如果您可以将间距增大到足够大,则 Tesseract 可以在设置变量 preserve_interword_spaces=1 后拾取间距(参见 doc)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-08-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-12-28
      • 2012-07-19
      • 2014-12-17
      • 1970-01-01
      相关资源
      最近更新 更多