【问题标题】:Table not being recognized无法识别表格
【发布时间】:2019-07-22 13:57:33
【问题描述】:
import pandas as pd
from tabula import read_pdf
FileName="Filepath"
DF3=read_pdf(FileName,multiple_tables=True,options="--pages 'all'", lattice= True)
print DF3

import pandas as pd
import camelot
FileName="Filepath"
tables = camelot.read_pdf(FileName,pages='1-end')
print tables

如果表格分布在多个页面上并且水平边框被剪切,因此我无法使用表格将 PDF 文件中的表格作为数据框读取,因此它不会被识别为表格。我该如何解决这个问题?我可以仅使用垂直线检测表格吗?

也尝试了新包 camelot,但再次无法读取该列。

我只能在示例 pdf 中检测到一个表,未检测到 2x2 表

示例 pdf 链接:https://onedrive.live.com/?id=690704CAD1449D85%21105&cid=690704CAD1449D85

【问题讨论】:

  • 您的链接重定向到空白文件夹。

标签: python pandas tabula python-camelot


【解决方案1】:

到目前为止,Camelot 还没有实现合并多页表。我的建议是将表提取为数据框并手动将它们与 pd.concat 合并。

您也可以改用 Tabula。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-09-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-06-23
    • 1970-01-01
    相关资源
    最近更新 更多