【发布时间】:2021-07-08 02:43:38
【问题描述】:
假设我有许多与here 类似的 pdf 文件:
我想提取下表并保存为 excel 文件:
我可以使用 excalibur 包手动提取表格并保存 excel 文件。
使用 pip3 安装 Excalibur 后,我使用以下方法初始化元数据数据库:
$ excalibur 初始化数据库
然后使用以下命令启动网络服务器:
$ excalibur 网络服务器
然后转到 http://localhost:5000 并开始从 PDF 中提取表格数据。
我想知道是否可以使用 python 脚本为多个 pdf 文件自动执行此操作,这些文件包含 excalibur-py、camelot、pdfminer 等包,因为表格的大小和位置对于同一个城市的报告是固定的.
您可以从this link下载其他报告文件。
非常感谢。
【问题讨论】:
标签: python-3.x text-extraction pdfminer python-camelot excalibur-py