使用 Apache Tika 进行合理的 Tesseract OCR 设置……？答案

【问题标题】：Reasonable Tesseract OCR settings using Apache Tika…?使用 Apache Tika 进行合理的 Tesseract OCR 设置……？
【发布时间】：2020-09-18 10:22:29
【问题描述】：

我正在使用 Apache Tika 进行文本提取，我必须处理扫描的 PDF 图像。所以我正在尝试 Tesseract，但我在找到任何好的默认设置的好资源时遇到问题……？

我还遇到了一些看起来很奇怪的后处理工件：

我明白了：

"och ptensionskos nader"

来自这张图片：

确实似乎一些后处理已将 t 移至单词的开头并留空。对我来说似乎超级奇怪为什么它会这样做，除非有一些非常糟糕的后处理设置。

这些是我在 Apache Tika 中的基本设置：

    val pdfConfig: PDFParserConfig = {
      val pdfConf = new PDFParserConfig()
      pdfConf.setOcrDPI(150)
      pdfConf.setDetectAngles(false)
      pdfConf.setOcrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY)
      pdfConf
    }

    val tesseractOCRConfig: TesseractOCRConfig = {
      val tessConf = new TesseractOCRConfig()
      tessConf.setLanguage("eng+swe")
      tessConf.setEnableImageProcessing(1)
      tessConf.setResize(100) // 100-900 - lower faster.
      // tessConf.setApplyRotation(true)
      tessConf
    }

非常感谢任何帮助！

【问题讨论】：

标签： tesseract apache-tika

【解决方案1】：

跳过/包含内部图像处理也是pdf配置中的一个重要属性

pdfConf.setExtractInlineImages(true) //for the scanned pdf setting it to false has no sense

在 TesseractOCRConfig 中，usefil 也是 setTimeout()

【讨论】：