【发布时间】:2018-08-28 03:58:43
【问题描述】:
我正在使用 Tesseract 3.05.01 for Windows 从包含几行的图像中提取文本。 这些线被一个圆角矩形包围。 [Image attached for reference].
Tesseract 将圆角矩形检测为开头的“C”和行尾的“>”。
这是 Tesseract 返回的内容:
The Richter scale is used for measuring the
magnitude of which natural phenomenon?
C Earthquake >
C Hurricane >
C Tsunami
我尝试在黑名单中包含“>”,但列入黑名单的符号被类似的东西取代。 所以我认为如果有一个选项只提取相似大小的字符,那么它会避免形状。
有没有办法只检测字体大小/高度相似的行?或 建议我解决这个问题的任何方法。
【问题讨论】: