【发布时间】:2016-06-07 09:16:21
【问题描述】:
我想在 python 中解析 PDF 文件。我已经看到 PDFMiner 的示例无法解释我的要求。
例如,如果我想解析一份简历,它包含各种字段,如摘要、经验和爱好。
我有兴趣仅提取经验,并且该经验字段将位于第一位或第二位或任何位置,我需要确定经验字段的位置并需要提取数据。
我该怎么做?
【问题讨论】:
-
到目前为止做了什么,到底出了什么问题?
-
这是否可行,提取带有标题的数据。否则,有什么想法可以做到这一点
-
在一般情况下无法完成(缺少渲染 PDF 文件并将结果输入 OCR 系统)。 PDF 是一种显示格式,不保证具有任何用于定义字段的内部结构,更不用说任何标准化结构。如果您有一堆由完全相同的软件堆栈生成的 PDF,您也许可以将它们解析为特殊情况(这将不同于其他人的特殊情况)。
标签: python parsing pdf pdfminer pdf-parsing