【发布时间】:2020-09-18 10:22:29
【问题描述】:
我正在使用 Apache Tika 进行文本提取,我必须处理扫描的 PDF 图像。所以我正在尝试 Tesseract,但我在找到任何好的默认设置的好资源时遇到问题……?
我还遇到了一些看起来很奇怪的后处理工件:
我明白了:
"och ptensionskos nader"
来自这张图片:
确实似乎一些后处理已将 t 移至单词的开头并留空。对我来说似乎超级奇怪为什么它会这样做,除非有一些非常糟糕的后处理设置。
这些是我在 Apache Tika 中的基本设置:
val pdfConfig: PDFParserConfig = {
val pdfConf = new PDFParserConfig()
pdfConf.setOcrDPI(150)
pdfConf.setDetectAngles(false)
pdfConf.setOcrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY)
pdfConf
}
val tesseractOCRConfig: TesseractOCRConfig = {
val tessConf = new TesseractOCRConfig()
tessConf.setLanguage("eng+swe")
tessConf.setEnableImageProcessing(1)
tessConf.setResize(100) // 100-900 - lower faster.
// tessConf.setApplyRotation(true)
tessConf
}
非常感谢任何帮助!
【问题讨论】:
标签: tesseract apache-tika