Camelot 无法提取整个表答案

【问题标题】：Camelot Cannot extract entire tableCamelot 无法提取整个表
【发布时间】：2021-09-09 14:06:46
【问题描述】：

我正在使用 Camelot 从我已使用 ocrmypdf(500dpi) 从扫描转换为可搜索的 PDF 中提取表格信息。

Camelot 似乎能够识别表格并提取表格中的大部分数据，但似乎无法提取下半部分。本质上，它看到了表格的上半部分，但似乎无法将文本与下半部分分开。

这是相关 PDF 中的表格：

但是当我使用 Camelot 的可视化调试方法时，我要求它向我显示它将提取的单词，它似乎将表格的底部识别为一个巨大的块

您可以在此处提供有关改进 Camelots“视力”的任何指导。

【问题讨论】：

标签： python pdf-extraction python-camelot pdftables ocrmypdf

【解决方案1】：

除了块，横线也标为文字，很奇怪。

Camelot 使用 pdfminer.six 进行文本提取，您可以将 LAParams（第 16 页）传递给 camelot.read_pdf() 进行调整。
您还应该查看camelot.plot(table, type="grid") 以查看是否正确识别这些行。如果不是，那可能就是问题所在。

【讨论】：