【发布时间】:2020-04-06 14:02:35
【问题描述】:
我有一个相同的扫描 PDF 的两个版本。其中一个具有 OCR 层。如何将图层转移到另一图层?我已经安装了 Ghostscript,但我不知道下一步该做什么。
【问题讨论】:
标签: pdf ocr ghostscript
我有一个相同的扫描 PDF 的两个版本。其中一个具有 OCR 层。如何将图层转移到另一图层?我已经安装了 Ghostscript,但我不知道下一步该做什么。
【问题讨论】:
标签: pdf ocr ghostscript
PDF 中没有“OCR 层”之类的东西。
您所拥有的很可能是一个 PDF 文件,其中包含一个扫描图像和使用 OCR 从该图像中提取的文本,该文本已被绘制为“不可见”文本(文本呈现模式 3)。
一般来说,您不能在 PDF 文件之间复制和粘贴文本,因此很难按照您的要求进行操作。我不知道有什么工具可以帮助你,我可以肯定地说 Ghostscript 绝对不会帮助你。
您很可能还需要从 PDF 文件中复制字体(或 CIDFont),如果它有一个 ToUnicode CMap,您肯定也希望这样做,否则搜索将不起作用(而且没有什么意义否则这种 OCR)。
既然您有一个包含 OCR 文本的 PDF 文件,为什么不直接使用该 PDF 呢?我看不出您有任何理由要将其“转移”到另一个 PDF 文件。
【讨论】: