【发布时间】:2022-01-24 04:57:34
【问题描述】:
【问题讨论】:
-
请更好地解释所需的输出并显示您尝试过的内容。在任何情况下,您都可以手动指定一个 table_areas 列表,每个表对应一个表 (camelot-py.readthedocs.io/en/master/user/…)。
-
我希望内部表格,即费用表与合同时间表等其他表格一起被检测到。现在,当我将 pdf 传递给 camelot 时,它只给了我下面的一整张表格行'合约是在 ABCD ....之间提取的'。我知道我们可以通过 table_regions 或 table_areas 但我不选择那个。我有其他与此不同的pdf。我想要一个通用的解决方案,如果有的话。
-
好的。您可以尝试通过
table_regions(camelot-py.readthedocs.io/en/master/user/…),指定页面的固定受限部分。也许如果你排除外线,检测会更类似于所需的结果......让我知道这是否有效...... -
是的。此解决方案有效。我已经使用指定的 table_regions 进行了尝试。但是如果不指定 table_regiogs,我们就无法获得它,对吧?就像我有许多其他 pdf 文件一样,它们也有与这个不同的简单表格。出于这个原因,我想要一个通用的解决方案。我想我必须检查 pdf 上的行,然后相应地应用 table_regions。
-
如果幸运的话,表格区域在各个文档中是相同的。也许,我要写一个答案,从我上一条评论开始……
标签: python data-extraction python-camelot