【问题标题】:How to extract data from tables in a pdf using Python?如何使用 Python 从 pdf 中的表中提取数据?
【发布时间】:2020-09-17 02:38:56
【问题描述】:

我需要使用 Python 从多个 PDF 的表中提取数据。我已经测试了 camelot 和 tabula ,但是它们都无法准确地获取数据。这些表格有一些合并的单元格,包含多行信息的单元格等,所以这两个库都会混淆。有没有解决这个问题的好方法?

【问题讨论】:

    标签: python pdf tabula


    【解决方案1】:

    如果是这样的话,PDF 中编码的表格的底层结构可能有问题。

    您可以使用 OCR,并进行一些字符串/正则表达式操作以从每一行中提取列数据。 github.com/cseas/ocr-table 似乎有效。查看input.pdfoutput.txt 看看它是否适合您的情况。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-10-09
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多