【问题标题】:Table data extraction from a pdf file using python使用python从pdf文件中提取表数据
【发布时间】:2019-12-12 06:34:17
【问题描述】:

我正在尝试使用 python 从 pdf 文件中提取数据,我尝试对 camelot 和 tabula 做同样的事情,但结果不够准确。有什么方法可以获取pdf表格中的数据吗?

【问题讨论】:

标签: python-3.x pdf data-extraction


【解决方案1】:

试试pdfreader。您可以提取包含“pdf markdown”的任一文本,然后使用正则表达式对其进行解析,例如:

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

pdf_markdown = ""

try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        viewer.next()
except PageDoesNotExist:
    pass

data = my_table_parser(pdf_markdown)

【讨论】:

    猜你喜欢
    • 2023-02-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-04-20
    相关资源
    最近更新 更多