【发布时间】:2020-04-18 14:37:29
【问题描述】:
我已经从源代码编译了 tesseract 5.0.0-alpha, 并尝试了所有不同的页面分割模式。 我事先知道实际字体是用字体 DejaVu Sans Mono 编写的, 所以我用这个字体(maxpages = 600)训练了模型,最终生成了模型。
但由于某种原因 tesseract 未命中。例如,这是一个经过预处理后的简单图像:
但我总是得到错误的值,字母 l 被数字 1 取代。 数字 6 到字母 l 之间的实际空格被忽略/消失。 谁能给我一些建议?
谢谢大家, 我非常感谢任何帮助!
【问题讨论】: