【问题标题】:Camelot Cannot extract entire tableCamelot 无法提取整个表
【发布时间】:2021-09-09 14:06:46
【问题描述】:

我正在使用 Camelot 从我已使用 ocrmypdf(500dpi) 从扫描转换为可搜索的 PDF 中提取表格信息。

Camelot 似乎能够识别表格并提取表格中的大部分数据,但似乎无法提取下半部分。本质上,它看到了表格的上半部分,但似乎无法将文本与下半部分分开。

这是相关 PDF 中的表格:

但是当我使用 Camelot 的可视化调试方法时,我要求它向我显示它将提取的单词,它似乎将表格的底部识别为一个巨大的块

您可以在此处提供有关改进 Camelots“视力”的任何指导。

【问题讨论】:

    标签: python pdf-extraction python-camelot pdftables ocrmypdf


    【解决方案1】:

    除了块,横线也标为文字,很奇怪。

    Camelot 使用 pdfminer.six 进行文本提取,您可以将 LAParams(第 16 页)传递给 camelot.read_pdf() 进行调整。
    您还应该查看camelot.plot(table, type="grid") 以查看是否正确识别这些行。如果不是,那可能就是问题所在。

    【讨论】:

      猜你喜欢
      • 2019-05-28
      • 2019-04-12
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-04-11
      相关资源
      最近更新 更多