【发布时间】:2017-01-23 16:31:41
【问题描述】:
您将如何继续在 pdf 文件中搜索“空白”页面? 在下一步中,我想使用 ghostscript 将这些页面转换为 .tiff。如果可以在 unix 机器上使用一个命令完成所有操作,那将是完美的。
【问题讨论】:
标签: pdf text ocr ghostscript
您将如何继续在 pdf 文件中搜索“空白”页面? 在下一步中,我想使用 ghostscript 将这些页面转换为 .tiff。如果可以在 unix 机器上使用一个命令完成所有操作,那将是完美的。
【问题讨论】:
标签: pdf text ocr ghostscript
嗯,这在很大程度上取决于您所说的“文本”(来自您的主题行)或“空白”页面(来自您的正文)的含义。完全有可能拥有再现文本形状的矢量路径,或者实际上再现字符形状的图像。
你认为这些是“文本”吗?
或者您正在寻找完全没有内容的页面(即空的)?我无法想象您为什么要将这些渲染到 TIFF .....
对于没有文本的页面(即不使用任何 PDF 文本操作符),我会使用 Ghostscript 中的文本提取设备。任何从该设备输出为空的页面上都没有文本。
然后您可以在 PDF 文件上运行 Ghostscript 并使用 -sPageList 开关只处理您想要的页面,然后选择一个 TIFF 设备以获得 TIFF 输出。
您不能一次性完成此操作(使用未经修改的 Ghostscript),因为您需要文本提取设备来确定哪些页面有文本,然后使用 TIFF 设备来编写页面。
您可以编写一个输出到 TIFF 的新设备,如果曾经调用过该设备的 text_begin() 方法,它只会跳过写入页面。这将一次性完成,但这意味着编写一个新设备(其中 99% 是 tiff 设备的复制+粘贴)并重建 Ghostscript。当然,您还必须 AGPL 代码。
【讨论】: