【发布时间】:2019-12-12 06:34:17
【问题描述】:
我正在尝试使用 python 从 pdf 文件中提取数据,我尝试对 camelot 和 tabula 做同样的事情,但结果不够准确。有什么方法可以获取pdf表格中的数据吗?
【问题讨论】:
-
你能把你的PDF带到这里吗?
标签: python-3.x pdf data-extraction
我正在尝试使用 python 从 pdf 文件中提取数据,我尝试对 camelot 和 tabula 做同样的事情,但结果不够准确。有什么方法可以获取pdf表格中的数据吗?
【问题讨论】:
标签: python-3.x pdf data-extraction
试试pdfreader。您可以提取包含“pdf markdown”的任一文本,然后使用正则表达式对其进行解析,例如:
from pdfreader import SimplePDFViewer, PageDoesNotExist
fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)
pdf_markdown = ""
try:
while True:
viewer.render()
pdf_markdown += viewer.canvas.text_content
viewer.next()
except PageDoesNotExist:
pass
data = my_table_parser(pdf_markdown)
【讨论】: