Python PDF 文本提取 - 无法使用 pdfminer/textract 从特定文档中提取答案

【问题标题】：Python PDF text extraction - Unable to extract from a specific document with pdfminer/textractPython PDF 文本提取 - 无法使用 pdfminer/textract 从特定文档中提取
【发布时间】：2018-03-23 23:15:42
【问题描述】：

我正在使用 Python 做一个项目，该项目涉及从许多 PDF 文档中提取文本，有趣的是，我遇到了一个无法被这些项目中的任何一个解析的文档：

https://github.com/euske/pdfminer/

https://github.com/deanmalmgren/textract

确实，即使是命令行工具pdftotext 也无法从文档中提取文本。它首先打印文本，然后在提取大约 2 分钟后继续打印垃圾。

文档可以在这里找到：https://www.aiaa.org/uploadedFiles/Events/Conferences/2013_Conferences/2013_-_GNC_Infotech/Promotional_Materials/GNC%202013%20Final%20Program.pdf

我对以下两种解决方案之一感兴趣：

如何实现在 Python 中从该文档中提取文本的目标？
一般而言，我如何才能检测到这样的文档，从而避免尝试完全解析它们？

这些解决方案中的任何一个都是理想的，所以提前致谢！

【问题讨论】：

标签： python pdf text extraction pdf-scraping

【解决方案1】：

我在 win10 下使用 Jupyter 和 Python 3.6。在这种情况下，我必须使用 pdfminer.six。

这些天我不得不重新安装所有东西。 This 对我仍然有效

【讨论】：