【问题标题】:Can tabula lead with merge columns?表格可以与合并列一起引导吗?
【发布时间】:2020-08-17 01:59:15
【问题描述】:

最近我从事表格提取工作,特别是 stream 表格。在this 的一个帖子中,我看到tabula 很好地实现了这种提取。 例如,当比较“budget.pdf”中的tabulacamelot 时,在提取Tabula 中合并了最后两列。使用.split(' ', expand = True)可以固定,然后使用combinejoinmerge制作原始pdf表格。

我注意到当列之间的间隙如此接近时,它们会合并为一个。在我试图实现的目标中,这是非常普遍的。我不知道我的解决方案有多好,因为在我在数据框中间处理的一些示例中,列被合并,我必须对整个数据框的列进行排序。

我想知道 Tabula 是否有超参数调整来处理这个问题,例如 PDFMiner,您可以在其中管理值之间的距离...

【问题讨论】:

    标签: python pandas tabula


    【解决方案1】:

    这里是 Tabula 的维护者。

    您可以尝试指定列边界的水平坐标。此参数在read_pdf 方法的columns= 关键字参数中的tabula-py 中公开。

    【讨论】:

    • 如果我不知道列的确切位置,tabula-py 可以选择将 pdf 页面绘制为:camelot.plot(tables[0], kind='grid').show() ?
    • 您可以使用 Acrobat Reader 中的测量工具找出页面中元素的位置。这里有更多信息:stackoverflow.com/questions/45457054/…
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-03-11
    • 1970-01-01
    相关资源
    最近更新 更多