【问题标题】:How to transfer OCR text from one PDF to another PDF?如何将 OCR 文本从一个 PDF 传输到另一个 PDF?
【发布时间】:2020-04-06 14:02:35
【问题描述】:

我有一个相同的扫描 PDF 的两个版本。其中一个具有 OCR 层。如何将图层转移到另一图层?我已经安装了 Ghostscript,但我不知道下一步该做什么。

How to Use Ghostscript

【问题讨论】:

    标签: pdf ocr ghostscript


    【解决方案1】:

    PDF 中没有“OCR 层”之类的东西。

    您所拥有的很可能是一个 PDF 文件,其中包含一个扫描图像和使用 OCR 从该图像中提取的文本,该文本已被绘制为“不可见”文本(文本呈现模式 3)。

    一般来说,您不能在 PDF 文件之间复制和粘贴文本,因此很难按照您的要求进行操作。我不知道有什么工具可以帮助你,我可以肯定地说 Ghostscript 绝对不会帮助你。

    您很可能还需要从 PDF 文件中复制字体(或 CIDFont),如果它有一个 ToUnicode CMap,您肯定也希望这样做,否则搜索将不起作用(而且没有什么意义否则这种 OCR)。

    既然您有一个包含 OCR 文本的 PDF 文件,为什么不直接使用该 PDF 呢?我看不出您有任何理由要将其“转移”到另一个 PDF 文件。

    【讨论】:

    • 为什么无法提取该文本并将其导入另一个文件?毕竟有程序可以在没有的情况下生成这样的文本,那为什么不能再次使用呢?至于为什么不简单地使用该文件,OCR 生成器可能在原始图像中效果更好。另一个文件是使用ScanTailor Advanced 的白化文件。眼睛更容易阅读,但 OCR 结果不如
    • 如果您有特定程序的输出,那么实现一个程序来复制这些文本应该是可行的。您应该增强您的问题以包含这些详细信息,并告诉我们您正在使用的编程语言和 pdf 库。
    • 我没有说没有办法做这样的事情,我说'一般'你不能在PDF文件之间复制和粘贴。然后我继续补充说,您需要做的不仅仅是“复制文本”。这不是一项微不足道的任务,尽管显然这是可能的。您通常无法轻松地将文本添加到 PDF 文件。在特定情况下,您在这里这样做是合理的,但并非微不足道。
    • 我为此提出了一个新问题。希望在那里见到你What steps to copy text from one PDF to another PDF?
    猜你喜欢
    • 2012-07-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-06-23
    • 1970-01-01
    • 2011-12-28
    相关资源
    最近更新 更多