【发布时间】:2019-04-29 08:16:11
【问题描述】:
搜索了很多,但由于我找不到此类问题的解决方案,因此在同一问题上发布了一个明确的问题。大多数答案都涵盖了相对容易的图像/文本提取。
我需要将表格和图形分别从 PDF 中提取为文本 (csv) 和图像。
谁能帮我用一个高效的 python 3.6 代码来解决这个问题?
到目前为止,我可以使用 startmark = b"\xff\xd8" 和 endmark = b"\xff\xd9" 来提取 jpg,但并非 PDF 中的所有表格和图形都是纯 jpg,因此我的代码在实现这一目标。
例如,我想从第 11 页提取表格和从第 12 页提取图表作为图像或从下面给出的链接中可行的东西。该怎么办?
https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf
【问题讨论】:
-
嗨 Aakash,很想知道您是如何做到这一点的。尤其是识别/提取图表和图形。
标签: python pdf python-3.6 ocr extract