【问题标题】:Extracting form data from PDF (library or utlity)从 PDF(库或实用程序)中提取表单数据
【发布时间】:2012-04-12 08:14:27
【问题描述】:

我想使用库从 PDF 中提取表单数据,最好是打包在 ubuntu 中的免费软件库。

例如,假设我有一个 HTML 表单,但我也希望用户可以提交一个填写好的 PDF 表单而不是 HTML 表单。

所以,我正在寻找一个库(或简单的 CLI 实用程序),它以 PDF 作为输入,并允许我按名称提取填写的字段,就像 HTML 一样。

我尝试过 pdftotext,但这并不能真正保留信息,它只是将 PDF 呈现为文本。我尝试了 PDFminer,但它似乎根本不起作用(至少在我的测试 PDF 中)(只是得到了空输出)。

如果它是一个库,我对语言不太挑剔,但 python 会是一个加分项。

【问题讨论】:

  • 顺便说一句,我过去曾使用 PDFMiner 完成一项非常相似的任务,它一直运行得非常好。

标签: python forms pdf extract


【解决方案1】:

我正在使用pdftk 来提取一些数据并处理 pdf,但我不确定是否可以按照您需要的方式处理填写的表格。

【讨论】:

  • 我认为这将在 pdftk 中使用 dump_data_fields 工作。它以某种需要解析的文本格式输出它,但我快到了。谢谢!
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-01-08
  • 1970-01-01
  • 2019-04-11
  • 1970-01-01
相关资源
最近更新 更多