在python中从具有特定标题的PDF中提取数据

【问题标题】：Extracting Data from PDF with particular heading in python在python中从具有特定标题的PDF中提取数据
【发布时间】：2016-06-07 09:16:21
【问题描述】：

我想在 python 中解析 PDF 文件。我已经看到 PDFMiner 的示例无法解释我的要求。

例如，如果我想解析一份简历，它包含各种字段，如摘要、经验和爱好。

我有兴趣仅提取经验，并且该经验字段将位于第一位或第二位或任何位置，我需要确定经验字段的位置并需要提取数据。

我该怎么做？

【问题讨论】：

到目前为止做了什么，到底出了什么问题？
这是否可行，提取带有标题的数据。否则，有什么想法可以做到这一点
在一般情况下无法完成（缺少渲染 PDF 文件并将结果输入 OCR 系统）。 PDF 是一种显示格式，不保证具有任何用于定义字段的内部结构，更不用说任何标准化结构。如果您有一堆由完全相同的软件堆栈生成的 PDF，您也许可以将它们解析为特殊情况（这将不同于其他人的特殊情况）。

标签： python parsing pdf pdfminer pdf-parsing

【解决方案1】：

有两种可行的方法来提取该字段数据：

搜索一些预定义的关键字，如@987654321@ 以获取其位置。然后搜索下一节的关键字（Hobbies），然后只需确定这两个节之间的文本分区的坐标，并从该位置提取此文本。
如果 PDF 是使用相同的生成器生成的，那么您可能只找到 Experience 部分的坐标，并且每次都从同一位置提取文本。
（最简单）只需将整个页面转换为文本，然后使用子字符串搜索或正则表达式解析生成的文本。这将是最简单和最简单的方法，因为有关 PDF 格式的所有工作都依赖于专门的工具

【讨论】：

这种方法的缺点： 1. 在某些情况下，可以写“职业历史”、“职业历史”或其他东西来代替“经验”。 2.“经历”一词在简历中可以出现多次。

猜你喜欢

1970-01-01
2022-10-15
1970-01-01
1970-01-01
2019-04-11
2014-12-16
2018-08-14
2018-06-14
1970-01-01

相关资源

下载 2021-06-05
下载 2022-12-13
下载 2023-02-14

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode