【问题标题】:Search for pages with no text in a PDF在 PDF 中搜索没有文本的页面
【发布时间】:2017-01-23 16:31:41
【问题描述】:

您将如何继续在 pdf 文件中搜索“空白”页面? 在下一步中,我想使用 ghostscript 将这些页面转换为 .tiff。如果可以在 unix 机器上使用一个命令完成所有操作,那将是完美的。

【问题讨论】:

    标签: pdf text ocr ghostscript


    【解决方案1】:

    嗯,这在很大程度上取决于您所说的“文本”(来自您的主题行)或“空白”页面(来自您的正文)的含义。完全有可能拥有再现文本形状的矢量路径,或者实际上再现字符形状的图像。

    你认为这些是“文本”吗?

    或者您正在寻找完全没有内容的页面(即空的)?我无法想象您为什么要将这些渲染到 TIFF .....

    对于没有文本的页面(即不使用任何 PDF 文本操作符),我会使用 Ghostscript 中的文本提取设备。任何从该设备输出为空的页面上都没有文本。

    然后您可以在 PDF 文件上运行 Ghostscript 并使用 -sPageList 开关只处理您想要的页面,然后选择一个 TIFF 设备以获得 TIFF 输出。

    您不能一次性完成此操作(使用未经修改的 Ghostscript),因为您需要文本提取设备来确定哪些页面有文本,然后使用 TIFF 设备来编写页面。

    可以编写一个输出到 TIFF 的新设备,如果曾经调用过该设备的 text_begin() 方法,它只会跳过写入页面。这将一次性完成,但这意味着编写一个新设备(其中 99% 是 tiff 设备的复制+粘贴)并重建 Ghostscript。当然,您还必须 AGPL 代码。

    【讨论】:

    • 抱歉,我说的是扫描文档。所以没有向量。 OCR 认为文本的所有内容都是文本。我想提取每个不显示文本的页面,但可能是图像或印章,或者只是白色的。感谢您的回答,现在我知道我应该关注哪些设备上的 ghostscript(这有点难以理解)。现在我手动找到页面并使用 imagemagick 提取它们,这不是太多的工作。
    猜你喜欢
    • 1970-01-01
    • 2023-02-16
    • 2016-09-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-03-01
    • 1970-01-01
    相关资源
    最近更新 更多