【发布时间】:2020-05-10 07:51:39
【问题描述】:
我正在尝试构建一个应用程序来读取任意 PDF 并从中提取表格,并且我正在使用 Camelot 来提取表格。这适用于单元格具有单行值的表格。但是,对于具有多行值的单元格的表格,Camelot 将单个单元格中的多行文本拆分为多个单元格。由于 Camelot 是在 pdfminer 之上构建的,我尝试调整布局分析参数(特别是 line_margin)以使 Camelot 不会拆分行。但是,问题仍然存在。
我可以调整哪些其他参数来处理这个问题?这是有此问题的表的示例。
我不想使用“格子”风格,因为我希望看到的大多数表格都没有分界线。
【问题讨论】:
-
根据我的经验,“流”风格,每一行都变成一行。
-
是的,该行为导致了问题。有没有办法覆盖这种行为?
-
@RohitGavval 运气好吗?我也有同样的问题。
标签: python python-camelot