【问题标题】:Extract data from many PDF forms从许多 PDF 表单中提取数据
【发布时间】:2014-08-29 14:23:47
【问题描述】:

我经常收到大量相同的 PDF 表单。我想将它们中的数据提取到文本文件中。我想通过某种脚本来做到这一点。我在 UNIX 环境中工作。

这可能吗?我已经用谷歌搜索了我的大脑,找不到任何东西。

【问题讨论】:

    标签: forms unix pdf adobe


    【解决方案1】:

    PDF 中的文本由页面内容流中的文本元素表示。流通常被压缩。如果您有时间和资源,您可以使用 ISO 32000-1:2008 或 Adob​​e PDF 1.7 规范来构建您自己的 PDF 解析器。或者,使用 3rd 方应用程序作为中间翻译步骤可能更实用。

    有一些实用程序可以对流进行解码并为您提供明文。一种选择是 PDFtk Server,它将在您的环境中工作。另一种选择是使用 Poppler PDF 渲染库,它有一个命令行实用程序“pdftotext”,可用于在 PDF 中搜索字符串。

    【讨论】:

    • 操作员谈到了 PDF 表单。 PDF 表单内容不是页面内容的一部分。因此,提取页面内容无济于事。这当然是假设 op 意味着根据规范的 PDF 表单...
    • 很遗憾,我在服务器上没有安装很多开源工具,也无法安装它们。我发现使用 VBA 和一些 Acrobat 库在 Excel 中进行这种提取是非常有可能的。遗憾的是,这对我的问题没有帮助,但 Excel 解决方案非常简单。
    猜你喜欢
    • 1970-01-01
    • 2011-01-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-23
    相关资源
    最近更新 更多