【发布时间】:2018-03-23 23:15:42
【问题描述】:
我正在使用 Python 做一个项目,该项目涉及从许多 PDF 文档中提取文本,有趣的是,我遇到了一个无法被这些项目中的任何一个解析的文档:
https://github.com/euske/pdfminer/
https://github.com/deanmalmgren/textract
确实,即使是命令行工具pdftotext 也无法从文档中提取文本。它首先打印文本,然后在提取大约 2 分钟后继续打印垃圾。
我对以下两种解决方案之一感兴趣:
- 如何实现在 Python 中从该文档中提取文本的目标?
- 一般而言,我如何才能检测到这样的文档,从而避免尝试完全解析它们?
这些解决方案中的任何一个都是理想的,所以提前致谢!
【问题讨论】:
标签: python pdf text extraction pdf-scraping