【发布时间】:2016-01-05 19:49:47
【问题描述】:
我正在尝试使用 Tesseract ocr 来处理具有如下矩阵的特定卡片:
有什么方法可以配置 Tesseract 只提取单个字母?
问题是矩阵的列有字母作为标题:“A B C D E F G H I”当我使用 BOX 文件进行训练时,每个字母都会被检测到,但是当我执行 ocr 过程时,这些字母会合并成一个单词:“ABCDEFGHI”。我需要将单词分开,因为我需要每列的边界(x、y、高度、宽度),这将使整个列的处理更加准确。
谢谢,
【问题讨论】: