如何使用 Python 从 PDF 文件中提取图表/表格/图形？答案

【问题标题】：How to extract charts/tables/graphs from PDF files using Python?如何使用 Python 从 PDF 文件中提取图表/表格/图形？
【发布时间】：2019-04-29 08:16:11
【问题描述】：

搜索了很多，但由于我找不到此类问题的解决方案，因此在同一问题上发布了一个明确的问题。大多数答案都涵盖了相对容易的图像/文本提取。

我需要将表格和图形分别从 PDF 中提取为文本 (csv) 和图像。

谁能帮我用一个高效的 python 3.6 代码来解决这个问题？

到目前为止，我可以使用 startmark = b"\xff\xd8" 和 endmark = b"\xff\xd9" 来提取 jpg，但并非 PDF 中的所有表格和图形都是纯 jpg，因此我的代码在实现这一目标。

例如，我想从第 11 页提取表格和从第 12 页提取图表作为图像或从下面给出的链接中可行的东西。该怎么办？

https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf

【问题讨论】：

嗨 Aakash，很想知道您是如何做到这一点的。尤其是识别/提取图表和图形。

标签： python pdf python-3.6 ocr extract

【解决方案1】：

要提取表格，您可以使用camelot

这是一个关于它的article。

对于图片我找到了这个问题并回答Extract images from PDF without resampling, in python?

【讨论】：

图像或多或少已完成。但最大的挑战是这些图表不是图像，它们是文本、条形、线和轴的融合。我真的很高兴知道人们如何从高质量的 PDF 中解析出来。
收到此错误：RuntimeError：请确保已安装 Ghostscript。即使我已经安装了 Ghostscript 9.27。有什么帮助吗？

【解决方案2】：

尝试使用 PyMuPdf(https://github.com/pymupdf/PyMuPDF/tree/1.18.3) 合并文本、条形、线条和轴。它有很多额外的实用程序。

【讨论】：

检查extract-graphics in this(github.com/pymupdf/PyMuPDF-Utilities)