【问题标题】:Extracting Data from PDF with particular heading in python在python中从具有特定标题的PDF中提取数据
【发布时间】:2016-06-07 09:16:21
【问题描述】:

我想在 python 中解析 PDF 文件。我已经看到 PDFMiner 的示例无法解释我的要求。

例如,如果我想解析一份简历,它包含各种字段,如摘要、经验和爱好。

我有兴趣仅提取经验,并且该经验字段将位于第一位或第二位或任何位置,我需要确定经验字段的位置并需要提取数据。

我该怎么做?

【问题讨论】:

  • 到目前为止做了什么,到底出了什么问题?
  • 这是否可行,提取带有标题的数据。否则,有什么想法可以做到这一点
  • 在一般情况下无法完成(缺少渲染 PDF 文件并将结果输入 OCR 系统)。 PDF 是一种显示格式,不保证具有任何用于定义字段的内部结构,更不用说任何标准化结构。如果您有一堆由完全相同的软件堆栈生成的 PDF,您也许可以将它们解析为特殊情况(这将不同于其他人的特殊情况)。

标签: python parsing pdf pdfminer pdf-parsing


【解决方案1】:

有两种可行的方法来提取该字段数据:

  1. 搜索一些预定义的关键字,如@9​​87654321@ 以获取其位置。然后搜索下一节的关键字(Hobbies),然后只需确定这两个节之间的文本分区的坐标,并从该位置提取此文本。

  2. 如果 PDF 是使用相同的生成器生成的,那么您可能只找到 Experience 部分的坐标,并且每次都从同一位置提取文本。

  3. (最简单)只需将整个页面转换为文本,然后使用子字符串搜索或正则表达式解析生成的文本。这将是最简单和最简单的方法,因为有关 PDF 格式的所有工作都依赖于专门的工具

【讨论】:

  • 这种方法的缺点: 1. 在某些情况下,可以写“职业历史”、“职业历史”或其他东西来代替“经验”。 2.“经历”一词在简历中可以出现多次。
猜你喜欢
  • 1970-01-01
  • 2022-10-15
  • 1970-01-01
  • 1970-01-01
  • 2019-04-11
  • 2014-12-16
  • 2018-08-14
  • 2018-06-14
  • 1970-01-01
相关资源
最近更新 更多