【问题标题】:Python PDF text extraction - Unable to extract from a specific document with pdfminer/textractPython PDF 文本提取 - 无法使用 pdfminer/textract 从特定文档中提取
【发布时间】:2018-03-23 23:15:42
【问题描述】:

我正在使用 Python 做一个项目,该项目涉及从许多 PDF 文档中提取文本,有趣的是,我遇到了一个无法被这些项目中的任何一个解析的文档:

https://github.com/euske/pdfminer/

https://github.com/deanmalmgren/textract

确实,即使是命令行工具pdftotext 也无法从文档中提取文本。它首先打印文本,然后在提取大约 2 分钟后继续打印垃圾。

文档可以在这里找到:https://www.aiaa.org/uploadedFiles/Events/Conferences/2013_Conferences/2013_-_GNC_Infotech/Promotional_Materials/GNC%202013%20Final%20Program.pdf

我对以下两种解决方案之一感兴趣:

  1. 如何实现在 Python 中从该文档中提取文本的目标?
  2. 一般而言,我如何才能检测到这样的文档,从而避免尝试完全解析它们?

这些解决方案中的任何一个都是理想的,所以提前致谢!

【问题讨论】:

    标签: python pdf text extraction pdf-scraping


    【解决方案1】:

    我在 win10 下使用 Jupyter 和 Python 3.6。在这种情况下,我必须使用 pdfminer.six

    这些天我不得不重新安装所有东西。 This 对我仍然有效

    【讨论】:

      猜你喜欢
      • 2014-12-17
      • 1970-01-01
      • 1970-01-01
      • 2021-10-05
      • 1970-01-01
      • 1970-01-01
      • 2019-06-09
      • 2012-09-18
      • 2022-10-14
      相关资源
      最近更新 更多