【发布时间】:2020-08-17 01:59:15
【问题描述】:
最近我从事表格提取工作,特别是 stream 表格。在this 的一个帖子中,我看到tabula 很好地实现了这种提取。
例如,当比较“budget.pdf”中的tabula 与camelot 时,在提取Tabula 中合并了最后两列。使用.split(' ', expand = True)可以固定,然后使用combine、join或merge制作原始pdf表格。
我注意到当列之间的间隙如此接近时,它们会合并为一个。在我试图实现的目标中,这是非常普遍的。我不知道我的解决方案有多好,因为在我在数据框中间处理的一些示例中,列被合并,我必须对整个数据框的列进行排序。
我想知道 Tabula 是否有超参数调整来处理这个问题,例如 PDFMiner,您可以在其中管理值之间的距离...
【问题讨论】: