在 PDF 中搜索没有文本的页面答案

【问题标题】：Search for pages with no text in a PDF在 PDF 中搜索没有文本的页面
【发布时间】：2017-01-23 16:31:41
【问题描述】：

您将如何继续在 pdf 文件中搜索“空白”页面？在下一步中，我想使用 ghostscript 将这些页面转换为 .tiff。如果可以在 unix 机器上使用一个命令完成所有操作，那将是完美的。

【问题讨论】：

【解决方案1】：

嗯，这在很大程度上取决于您所说的“文本”（来自您的主题行）或“空白”页面（来自您的正文）的含义。完全有可能拥有再现文本形状的矢量路径，或者实际上再现字符形状的图像。

你认为这些是“文本”吗？

或者您正在寻找完全没有内容的页面（即空的）？我无法想象您为什么要将这些渲染到 TIFF .....

对于没有文本的页面（即不使用任何 PDF 文本操作符），我会使用 Ghostscript 中的文本提取设备。任何从该设备输出为空的页面上都没有文本。

然后您可以在 PDF 文件上运行 Ghostscript 并使用 -sPageList 开关只处理您想要的页面，然后选择一个 TIFF 设备以获得 TIFF 输出。

您不能一次性完成此操作（使用未经修改的 Ghostscript），因为您需要文本提取设备来确定哪些页面有文本，然后使用 TIFF 设备来编写页面。

您可以编写一个输出到 TIFF 的新设备，如果曾经调用过该设备的 text_begin() 方法，它只会跳过写入页面。这将一次性完成，但这意味着编写一个新设备（其中 99% 是 tiff 设备的复制+粘贴）并重建 Ghostscript。当然，您还必须 AGPL 代码。

【讨论】：

抱歉，我说的是扫描文档。所以没有向量。 OCR 认为文本的所有内容都是文本。我想提取每个不显示文本的页面，但可能是图像或印章，或者只是白色的。感谢您的回答，现在我知道我应该关注哪些设备上的 ghostscript（这有点难以理解）。现在我手动找到页面并使用 imagemagick 提取它们，这不是太多的工作。