【发布时间】:2021-09-09 14:06:46
【问题描述】:
我正在使用 Camelot 从我已使用 ocrmypdf(500dpi) 从扫描转换为可搜索的 PDF 中提取表格信息。
Camelot 似乎能够识别表格并提取表格中的大部分数据,但似乎无法提取下半部分。本质上,它看到了表格的上半部分,但似乎无法将文本与下半部分分开。
这是相关 PDF 中的表格:
但是当我使用 Camelot 的可视化调试方法时,我要求它向我显示它将提取的单词,它似乎将表格的底部识别为一个巨大的块
您可以在此处提供有关改进 Camelots“视力”的任何指导。
【问题讨论】:
标签: python pdf-extraction python-camelot pdftables ocrmypdf