带有图像的 PDF 文件的 OCR答案

【问题标题】：OCR of PDF files with images带有图像的 PDF 文件的 OCR
【发布时间】：2021-01-08 17:59:09
【问题描述】：

我让 Tika 使用 Tesseract 处理 PDF 文件，但似乎如果我给它一个包含可搜索文本和图像的 PDF 文件，文本会被 OCRed 两次。有没有办法避免这种情况？即使它必须通过两次，一次用于纯文本，然后另一次用于图像

【问题讨论】：

【解决方案1】：

tika 使用 2 个重要的标志来提取文本：

X-Tika-PDFextractInlineImages（真/假）。当 false 比所有图像都被忽略时。所以它适用于原生 pdf - 文本是从原生 pdf 中提取的当为真时，图片将用于文本提取
X-Tika-PDFocrStrategy：https://tika.apache.org/1.24/api/org/apache/tika/parser/pdf/PDFParserConfig.OCR_STRATEGY.html NO_OCR - 提取没有 ocr 的文本 - 适用于原生 pdf OCR_ONLY - 只使用 ocr - 所以来自“native pdf”的文本也被发送到 ocr OCR_AND_TEXT_EXTRACTION - 调用 NO_OCR OCR_ONLY

所以当您拥有完全原生的 pdf 时，X-Tika-PDFextractInlineImages: false, X-Tika-PDFocrStrategy: NO_OCR 的组合似乎是最好的

对于完全扫描的 pdf，您可以使用 X-Tika-PDFextractInlineImages: true, X-Tika-PDFocrStrategy: OCR_ONLY

但您的文档可能是混合的。它包含原生部分（您只需要提取文本）和图像（您需要对其进行 ocr 处理）。在我看来，没有办法在 tika 中处理混合 pdf

【讨论】：