【问题标题】:Reasonable Tesseract OCR settings using Apache Tika…?使用 Apache Tika 进行合理的 Tesseract OCR 设置……?
【发布时间】:2020-09-18 10:22:29
【问题描述】:

我正在使用 Apache Tika 进行文本提取,我必须处理扫描的 PDF 图像。所以我正在尝试 Tesseract,但我在找到任何好的默认设置的好资源时遇到问题……?

我还遇到了一些看起来很奇怪的后处理工件:

我明白了:

"och ptensionskos nader"

来自这张图片:

确实似乎一些后处理已将 t 移至单词的开头并留空。对我来说似乎超级奇怪为什么它会这样做,除非有一些非常糟糕的后处理设置。

这些是我在 Apache Tika 中的基本设置:

    val pdfConfig: PDFParserConfig = {
      val pdfConf = new PDFParserConfig()
      pdfConf.setOcrDPI(150)
      pdfConf.setDetectAngles(false)
      pdfConf.setOcrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY)
      pdfConf
    }

    val tesseractOCRConfig: TesseractOCRConfig = {
      val tessConf = new TesseractOCRConfig()
      tessConf.setLanguage("eng+swe")
      tessConf.setEnableImageProcessing(1)
      tessConf.setResize(100) // 100-900 - lower faster.
      // tessConf.setApplyRotation(true)
      tessConf
    }

非常感谢任何帮助!

【问题讨论】:

    标签: tesseract apache-tika


    【解决方案1】:

    跳过/包含内部图像处理也是pdf配置中的一个重要属性

    pdfConf.setExtractInlineImages(true) //for the scanned pdf setting it to false has no sense
    

    在 TesseractOCRConfig 中,usefil 也是 setTimeout()

    【讨论】:

      猜你喜欢
      • 2018-02-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-05-10
      • 2015-06-14
      • 2013-02-06
      相关资源
      最近更新 更多