【问题标题】:OCR of PDF files with images带有图像的 PDF 文件的 OCR
【发布时间】:2021-01-08 17:59:09
【问题描述】:

我让 Tika 使用 Tesseract 处理 PDF 文件,但似乎如果我给它一个包含可搜索文本和图像的 PDF 文件,文本会被 OCRed 两次。有没有办法避免这种情况?即使它必须通过两次,一次用于纯文本,然后另一次用于图像

【问题讨论】:

  • 其他工具是否已经完成 OCR 并将该文本存储在扫描图像后面?
  • 不,我用自己创建的测试文件尝试了这个。一段是纯文本,另一段是纯图像(文本)

标签: ocr tesseract apache-tika


【解决方案1】:

tika 使用 2 个重要的标志来提取文本:

  1. X-Tika-PDFextractInlineImages(真/假)。 当 false 比所有图像都被忽略时。所以它适用于原生 pdf - 文本是从原生 pdf 中提取的 当为真时,图片将用于文本提取
  2. X-Tika-PDFocrStrategy:https://tika.apache.org/1.24/api/org/apache/tika/parser/pdf/PDFParserConfig.OCR_STRATEGY.html NO_OCR - 提取没有 ocr 的文本 - 适用于原生 pdf OCR_ONLY - 只使用 ocr - 所以来自“native pdf”的文本也被发送到 ocr OCR_AND_TEXT_EXTRACTION - 调用 NO_OCR OCR_ONLY

所以当您拥有完全原生的 pdf 时,X-Tika-PDFextractInlineImages: false, X-Tika-PDFocrStrategy: NO_OCR 的组合似乎是最好的

对于完全扫描的 pdf,您可以使用 X-Tika-PDFextractInlineImages: true, X-Tika-PDFocrStrategy: OCR_ONLY

但您的文档可能是混合的。它包含原生部分(您只需要提取文本)和图像(您需要对其进行 ocr 处理)。在我看来,没有办法在 tika 中处理混合 pdf

【讨论】:

    猜你喜欢
    • 2019-10-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-07-22
    • 1970-01-01
    • 1970-01-01
    • 2012-01-21
    • 1970-01-01
    相关资源
    最近更新 更多