【发布时间】:2020-06-23 22:54:33
【问题描述】:
使用 Camelot-py 从 .PDF 中抓取表格数据,它不会拾取堆叠的文本行(请参阅下面的第 9 行和第 10 行)
Rows 9 and 10 are void of text for account.
https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-areas
这是我拥有的 .ipynb 格式的代码。第一个块用于按预期拉取的第一个表,第二个用于第 9 页。
表格
tables= camelot.read_pdf(r'C:\PDFFilePath', pages='9', line_scale=40)
tables[0].to_csv(r'Loans&Leases')
camelot.plot(tables[0], kind ='contour')
plt.show()
使用 MatPlotLib,我可以看到 Camelot 正确检测了第 9 页的表格区域/网格。
这是 PDF 的 Google Drive 链接
任何见解将不胜感激。
【问题讨论】:
-
如果可以的话,请分享原始PDF和您尝试过的代码。
-
@anakin87 完成,非常感谢您的关注和关注
标签: python pdf pdf-scraping python-camelot