Adobe Acrobat/Python PDF 输出不同答案

【问题标题】：Adobe Acrobat/Python PDF Outputs VaryingAdobe Acrobat/Python PDF 输出不同
【发布时间】：2018-02-22 17:04:03
【问题描述】：

我注意到，当我使用 OCR 将扫描的 PDF 文档（在本例中为 Adobe Acrobat Pro）转换为文本时，根据我提取数据的方式，我得到的输出非常不同。

在上面的照片中 - 您可以看到一段 PDF 已被 OCR 处理成质量相当好的文本。如果我在 Adobe 中选择它并复制它说，一个单词或 txt 文档，它会完美地粘贴过来。

但是，如果我使用 Adobe 将其导出为富文本格式，使用 Python 的 PDFminer 或 Python Apache Tika，那么我会得到上面的照片，正如你所看到的那样，它完全混乱了。两种方法之间的提取结果非常一致 - 基本上所有 3 种方法都以完全相同的方式将其混杂在一起。

你们中有人知道为什么 OCR 处理的 PDF 可以很好地复制到文本编辑器中，但却以如此奇怪的方式提取吗？

谢谢！

问候，马诺

【问题讨论】：

一种是文本提取，一种是图像提取。
是的 - 但是为什么文本提取会一直搞乱原本看起来非常精细的图像提取呢？如果图像提取严重弄乱了 PDF，我可以看到它，但在这种情况下，它可以很容易地被复制粘贴到另一个文本文档并且出来就好了。也许我根本不懂PDF文本提取？
请分享您的 PDF。

【解决方案1】：

所以最终对我有用的是使用 Apache-Tika 运行初始解析，然后，在少数无法使用的情况下，将它们传递给 PyPDF2。我的理论是 PyPDF2 使用一种不同的解析机制，它不像 Tika 那样依赖于 PDF 的根目录，这在一些 OCR 文档中似乎已经损坏。

不确定最初的原因，但这是我的解决方案。

【讨论】：