【发布时间】:2014-08-29 14:23:47
【问题描述】:
我经常收到大量相同的 PDF 表单。我想将它们中的数据提取到文本文件中。我想通过某种脚本来做到这一点。我在 UNIX 环境中工作。
这可能吗?我已经用谷歌搜索了我的大脑,找不到任何东西。
【问题讨论】:
我经常收到大量相同的 PDF 表单。我想将它们中的数据提取到文本文件中。我想通过某种脚本来做到这一点。我在 UNIX 环境中工作。
这可能吗?我已经用谷歌搜索了我的大脑,找不到任何东西。
【问题讨论】:
PDF 中的文本由页面内容流中的文本元素表示。流通常被压缩。如果您有时间和资源,您可以使用 ISO 32000-1:2008 或 Adobe PDF 1.7 规范来构建您自己的 PDF 解析器。或者,使用 3rd 方应用程序作为中间翻译步骤可能更实用。
有一些实用程序可以对流进行解码并为您提供明文。一种选择是 PDFtk Server,它将在您的环境中工作。另一种选择是使用 Poppler PDF 渲染库,它有一个命令行实用程序“pdftotext”,可用于在 PDF 中搜索字符串。
【讨论】: