【问题标题】:How can I stop camelot-py from splitting multi-line text in a single cell into multiple cells?如何阻止 camelot-py 将单个单元格中的多行文本拆分为多个单元格?
【发布时间】:2020-05-10 07:51:39
【问题描述】:

我正在尝试构建一个应用程序来读取任意 PDF 并从中提取表格,并且我正在使用 Camelot 来提取表格。这适用于单元格具有单行值的表格。但是,对于具有多行值的单元格的表格,Camelot 将单个单元格中的多行文本拆分为多个单元格。由于 Camelot 是在 pdfminer 之上构建的,我尝试调整布局分析参数(特别是 line_margin)以使 Camelot 不会拆分行。但是,问题仍然存在。

我可以调整哪些其他参数来处理这个问题?这是有此问题的表的示例。

我不想使用“格子”风格,因为我希望看到的大多数表格都没有分界线。

【问题讨论】:

  • 根据我的经验,“流”风格,每一行都变成一行。
  • 是的,该行为导致了问题。有没有办法覆盖这种行为?
  • @RohitGavval 运气好吗?我也有同样的问题。

标签: python python-camelot


【解决方案1】:

如果您的 PDF 表格中的线条比单元格亮,如您的示例所示,那么您可以尝试使用 process_background=True 的格子风格。

tables = camelot.read_pdf('background_lines.pdf', process_background=True)

见,https://camelot-py.readthedocs.io/en/master/user/advanced.html

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-09-10
    相关资源
    最近更新 更多