从许多 PDF 表单中提取数据答案

【问题标题】：Extract data from many PDF forms从许多 PDF 表单中提取数据
【发布时间】：2014-08-29 14:23:47
【问题描述】：

我经常收到大量相同的 PDF 表单。我想将它们中的数据提取到文本文件中。我想通过某种脚本来做到这一点。我在 UNIX 环境中工作。

这可能吗？我已经用谷歌搜索了我的大脑，找不到任何东西。

【问题讨论】：

【解决方案1】：

PDF 中的文本由页面内容流中的文本元素表示。流通常被压缩。如果您有时间和资源，您可以使用 ISO 32000-1:2008 或 Adobe PDF 1.7 规范来构建您自己的 PDF 解析器。或者，使用 3rd 方应用程序作为中间翻译步骤可能更实用。

有一些实用程序可以对流进行解码并为您提供明文。一种选择是 PDFtk Server，它将在您的环境中工作。另一种选择是使用 Poppler PDF 渲染库，它有一个命令行实用程序“pdftotext”，可用于在 PDF 中搜索字符串。

【讨论】：

操作员谈到了 PDF 表单。 PDF 表单内容不是页面内容的一部分。因此，提取页面内容无济于事。这当然是假设 op 意味着根据规范的 PDF 表单...
很遗憾，我在服务器上没有安装很多开源工具，也无法安装它们。我发现使用 VBA 和一些 Acrobat 库在 Excel 中进行这种提取是非常有可能的。遗憾的是，这对我的问题没有帮助，但 Excel 解决方案非常简单。