【问题标题】:Adobe Acrobat/Python PDF Outputs VaryingAdobe Acrobat/Python PDF 输出不同
【发布时间】:2018-02-22 17:04:03
【问题描述】:

我注意到,当我使用 OCR 将扫描的 PDF 文档(在本例中为 Adob​​e Acrobat Pro)转换为文本时,根据我提取数据的方式,我得到的输出非常不同。

在上面的照片中 - 您可以看到一段 PDF 已被 OCR 处理成质量相当好的文本。如果我在 Adob​​e 中选择它并复制它说,一个单词或 txt 文档,它会完美地粘贴过来。

但是,如果我使用 Adob​​e 将其导出为富文本格式,使用 Python 的 PDFminer 或 Python Apache Tika,那么我会得到上面的照片,正如你所看到的那样,它完全混乱了。两种方法之间的提取结果非常一致 - 基本上所有 3 种方法都以完全相同的方式将其混杂在一起。

你们中有人知道为什么 OCR 处理的 PDF 可以很好地复制到文本编辑器中,但却以如此奇怪的方式提取吗?

谢谢!

问候, 马诺

【问题讨论】:

  • 一种是文本提取,一种是图像提取。
  • 是的 - 但是为什么文本提取会一直搞乱原本看起来非常精细的图像提取呢?如果图像提取严重弄乱了 PDF,我可以看到它,但在这种情况下,它可以很容易地被复制粘贴到另一个文本文档并且出来就好了。也许我根本不懂PDF文本提取?
  • 请分享您的 PDF。

标签: python-3.x adobe pdfbox apache-tika pdfminer


【解决方案1】:

所以最终对我有用的是使用 Apache-Tika 运行初始解析,然后,在少数无法使用的情况下,将它们传递给 PyPDF2。我的理论是 PyPDF2 使用一种不同的解析机制,它不像 Tika 那样依赖于 PDF 的根目录,这在一些 OCR 文档中似乎已经损坏。

不确定最初的原因,但这是我的解决方案。

【讨论】:

  • 由于您没有共享示例文档(Tilman 要求您这样做),我们无法正确分析问题并帮助您了解“最初的原因”。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-08-10
  • 2022-01-19
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多