【问题标题】:Configuring Tesseract OCR to read words of same font size配置 Tesseract OCR 以读取相同字体大小的单词
【发布时间】:2018-08-28 03:58:43
【问题描述】:

我正在使用 Tesseract 3.05.01 for Windows 从包含几行的图像中提取文本。 这些线被一个圆角矩形包围。 [Image attached for reference].

Tesseract 将圆角矩形检测为开头的“C”和行尾的“>”。

这是 Tesseract 返回的内容:

The Richter scale is used for measuring the
magnitude of which natural phenomenon?

C Earthquake >
C Hurricane >
C Tsunami

我尝试在黑名单中包含“>”,但列入黑名单的符号被类似的东西取代。 所以我认为如果有一个选项只提取相似大小的字符,那么它会避免形状

有没有办法只检测字体大小/高度相似的行?建议我解决这个问题的任何方法。

【问题讨论】:

    标签: ocr tesseract


    【解决方案1】:

    您也许可以使用白名单而不是包含您想要拥有的所有字母的黑名单! 例如,在 tesseract.js 中是这样的:

    tessedit_char_whitelist: "abcdefghijklmnop ...."
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2014-10-30
      • 1970-01-01
      • 1970-01-01
      • 2011-10-26
      • 2014-01-03
      • 1970-01-01
      相关资源
      最近更新 更多