我可以将 Tesseract 配置为仅检测单个字母和数字吗？答案

【问题标题】：Can I configure Tesseract to detect only single letters and digits?我可以将 Tesseract 配置为仅检测单个字母和数字吗？
【发布时间】：2016-01-05 19:49:47
【问题描述】：

我正在尝试使用 Tesseract ocr 来处理具有如下矩阵的特定卡片：

有什么方法可以配置 Tesseract 只提取单个字母？

问题是矩阵的列有字母作为标题：“A B C D E F G H I”当我使用 BOX 文件进行训练时，每个字母都会被检测到，但是当我执行 ocr 过程时，这些字母会合并成一个单词：“ABCDEFGHI”。我需要将单词分开，因为我需要每列的边界（x、y、高度、宽度），这将使整个列的处理更加准确。

谢谢，

【问题讨论】：

标签： ocr tesseract

【解决方案1】：

如果您可以将间距增大到足够大，则 Tesseract 可以在设置变量 preserve_interword_spaces=1 后拾取间距（参见 doc）。

【讨论】：