使用python从pdf文件中提取表数据

【问题标题】：Table data extraction from a pdf file using python使用python从pdf文件中提取表数据
【发布时间】：2019-12-12 06:34:17
【问题描述】：

我正在尝试使用 python 从 pdf 文件中提取数据，我尝试对 camelot 和 tabula 做同样的事情，但结果不够准确。有什么方法可以获取pdf表格中的数据吗？

【问题讨论】：

这可能会帮助你datascience.blog.wzb.eu/2017/02/16/…
你能把你的PDF带到这里吗？

标签： python-3.x pdf data-extraction

【解决方案1】：

试试pdfreader。您可以提取包含“pdf markdown”的任一文本，然后使用正则表达式对其进行解析，例如：

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

pdf_markdown = ""

try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        viewer.next()
except PageDoesNotExist:
    pass

data = my_table_parser(pdf_markdown)

【讨论】：