【问题标题】:How to extract charts/tables/graphs from PDF files using Python?如何使用 Python 从 PDF 文件中提取图表/表格/图形?
【发布时间】:2019-04-29 08:16:11
【问题描述】:

搜索了很多,但由于我找不到此类问题的解决方案,因此在同一问题上发布了一个明确的问题。大多数答案都涵盖了相对容易的图像/文本提取。

我需要将表格和图形分别从 PDF 中提取为文本 (csv) 和图像。

谁能帮我用一个高效的 p​​ython 3.6 代码来解决这个问题?

到目前为止,我可以使用 startmark = b"\xff\xd8" 和 endmark = b"\xff\xd9" 来提取 jpg,但并非 PDF 中的所有表格和图形都是纯 jpg,因此我的代码在实现这一目标。

例如,我想从第 11 页提取表格和从第 12 页提取图表作为图像或从下面给出的链接中可行的东西。该怎么办?

https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf

【问题讨论】:

  • 嗨 Aakash,很想知道您是如何做到这一点的。尤其是识别/提取图表和图形。

标签: python pdf python-3.6 ocr extract


【解决方案1】:

要提取表格,您可以使用camelot

这是一个关于它的article

对于图片我找到了这个问题并回答Extract images from PDF without resampling, in python?

【讨论】:

  • 图像或多或少已完成。但最大的挑战是这些图表不是图像,它们是文本、条形、线和轴的融合。我真的很高兴知道人们如何从高质量的 PDF 中解析出来。
  • 收到此错误:RuntimeError:请确保已安装 Ghostscript。即使我已经安装了 Ghostscript 9.27。有什么帮助吗?
【解决方案2】:

尝试使用 PyMuPdf(https://github.com/pymupdf/PyMuPDF/tree/1.18.3) 合并文本、条形、线条和轴。它有很多额外的实用程序。

【讨论】:

猜你喜欢
  • 1970-01-01
  • 2023-02-20
  • 1970-01-01
  • 2021-10-19
  • 2018-05-12
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多