【发布时间】:2014-12-17 02:54:44
【问题描述】:
我正在寻找有关如何使用 PDFMiner 和 Python 从 PDF 文件中提取文本的文档或示例。
看起来 PDFMiner 更新了他们的 API,我发现的所有相关示例都包含过时的代码(类和方法已更改)。我发现使从 PDF 文件中提取文本的任务更容易的库正在使用旧的 PDFMiner 语法,所以我不知道该怎么做。
事实上,我只是在查看源代码,看看我是否能弄清楚。
【问题讨论】:
-
请查看 stackoverflow.com/help/how-to-ask 和 stackoverflow.com/help/mcve 并更新您的答案,使其格式更好并符合指南。
-
您使用的是哪个 Python 发行版,2.7.x 还是 3.x.x?需要注意的是,作者明确详细说明了
PDFminer不适用于 Python 3.x.x。这可能是您收到import错误的原因。如果是这样,您应该使用pdfminer3k,因为它是该库的常规 Python 3 导入。 -
@Nanashi,对不起,我忘了添加我的 Python 版本。这是2.7,所以这不是问题。我一直在查看源代码,看起来他们重组了一些东西,这就是导入中断的原因。我也找不到 PDFMiner 的任何文档,或者我只是在解决这个问题:(
-
我刚刚从 GitHub 安装了
PDFminer,它可以正常导入。能否请您发布您的代码并发布您的完整错误回溯? -
@Nanashi,就像我在最初的问题中所说的那样,依赖 PDFMiner 的库在完成导入之前会中断以及我能找到的任何示例。这不是 PDFMiner 问题。这是我在寻找文档,或如何使用 PDFMiner 的示例。我能找到的一切都是使用 PDFMiner 的旧语法。为了清楚起见,我继续编辑了我的问题。我想我让它变得比它需要的更混乱。对此感到抱歉。
标签: python python-3.x python-2.7 text-extraction pdfminer