【发布时间】:2012-04-12 08:14:27
【问题描述】:
我想使用库从 PDF 中提取表单数据,最好是打包在 ubuntu 中的免费软件库。
例如,假设我有一个 HTML 表单,但我也希望用户可以提交一个填写好的 PDF 表单而不是 HTML 表单。
所以,我正在寻找一个库(或简单的 CLI 实用程序),它以 PDF 作为输入,并允许我按名称提取填写的字段,就像 HTML 一样。
我尝试过 pdftotext,但这并不能真正保留信息,它只是将 PDF 呈现为文本。我尝试了 PDFminer,但它似乎根本不起作用(至少在我的测试 PDF 中)(只是得到了空输出)。
如果它是一个库,我对语言不太挑剔,但 python 会是一个加分项。
【问题讨论】:
-
顺便说一句,我过去曾使用 PDFMiner 完成一项非常相似的任务,它一直运行得非常好。