【问题标题】:How to cut-paste from PDF with non-ASCII encoding?如何使用非 ASCII 编码从 PDF 中剪切粘贴?
【发布时间】:2012-02-26 22:14:53
【问题描述】:

我有一些 PDF,我正在尝试将它们包含的文本从 Acrobat Reader 剪切并粘贴到 HTML 表单中。似乎其中一些文件使用(我怀疑)unicode 进行文本编码,所以当我尝试粘贴到 HTML 表单(在 firefox 上)时,我得到的是带有十六进制字符而不是可读文本的小框。问题不在于 PDF 没有被 OCRed ——当我尝试在 Acrobat Pro 中这样做时,它说它不能,因为文件已经包含可呈现的文本。有什么办法可以解决这个问题吗?例如,我可以在表单中添加某种 javascript 来进行转换吗?

【问题讨论】:

    标签: pdf unicode acrobat


    【解决方案1】:

    您能否将从文件中复制的文本粘贴到记事本或 Word 等其他程序中?

    某些 PDF 文件在生成时没有特殊信息,这些信息对于从中成功提取文本至关重要。甚至通过 Adob​​e 工具。基本上,此类文件不包含字形到​​字符的映射信息。

    此类文件可以正常显示和打印,但无法正确复制/提取其中的文本。

    例如,当使用“最小文件大小”预设时,Distiller 会生成此类文件。

    【讨论】:

    • 无论我将它粘贴到哪里——记事本、Word 等,结果都是一样的。我想也许你对 PDF 文件的看法是正确的。如果我在 Acrobat Pro 中打开此文件,复制其中的一些文本,然后打开便笺并尝试粘贴文本,我会得到框而不是字符。所以即使是 Acrobat 也无法处理这个文本。
    【解决方案2】:

    我也有同样的问题...确实在这里解释:http://forums.adobe.com/thread/915012

    我的解决方案是使用 Acrobat 的导出工具将 pdf 转换为 Word,然后从中提取我需要的信息。

    这很令人沮丧,但这很管用。

    我找到的另一个解决方案是将 pdf 转换为图像(jpeg、png 等),然后运行 ​​OCR 过程。

    【讨论】:

      【解决方案3】:

      很可能文本包含正确复制的字符,但由于缺少合适的字体,您的浏览器无法显示它们。 PDF 文档可能包含嵌入字体,因此 Adob​​e Reader 可以正常显示字符,但浏览器无法访问这些字体。

      您可以通过尝试在此处复制和粘贴字符来检查这是否是原因(无论如何这可能是有关问题的有用信息)。您还可以下载并安装Code200x fonts,其中包含几乎所有您通常会遇到的字符。 (不能保证,但很可能,Firefox 将能够在需要时自动使用这些字体。)

      【讨论】:

      • 试过字体,没有帮助。另外,当我将字符粘贴到 IDE (Komodo) 中时,它说默认编码 cp-1252 不合适,当我将编码更改为 unicode 时,它​​变得很开心。
      【解决方案4】:
      1. 在 Acrobat 中选择文本。
      2. 右键单击并从上下文菜单中选择“带格式复制”。
      3. 等待进度条处理文本。
      4. 粘贴到 Word 文档中。

      【讨论】:

        【解决方案5】:

        我们在尝试将西里尔字母从 PDF 文件复制/粘贴到 Excel 时遇到了类似问题。

        我们找到的最简单的解决方案是使用浏览器(Chrome、Mozilla 或 Opera)打开 .pdf,然后在 Word、Excel 中复制/粘贴文本。

        正如预期的那样,它不适用于 IE。

        【讨论】:

          【解决方案6】:

          如果上述方法都不适合你,因为它不适合我,你可以截取 pdf 的屏幕截图并使用 Google Lens(在 Android 手机中)打开它,然后进入文本部分和 AI自动检测文本,您可以根据需要复制它。

          【讨论】:

            【解决方案7】:

            我遇到了同样的问题,但我通过使用网络浏览器(在我的情况下为 chrome)打开 PDF 文件解决了这个问题。 复制和粘贴非 ASCII 编码在 chrome 中可以正常工作。

            【讨论】:

              【解决方案8】:

              您可以从 acrobat 导出为 jpeg,然后在 acrobat(不是阅读器)中打开 jpeg,然后运行 ​​OCR 工具。从那里你应该能够复制/粘贴。

              【讨论】:

                【解决方案9】:

                我正在使用 Nitro Pdf。第一次我从 pdf 创建了 600 dpi 的图像。比我在新的 pdf 文件中打开图像。然后从 Review 选项卡中,我使用了 OCR 选项。这将我带到另一个带有标准编码 pdf 文件的 pdf 文件,我可以在其中复制和粘贴文本。

                【讨论】:

                  猜你喜欢
                  • 1970-01-01
                  • 2018-03-17
                  • 1970-01-01
                  • 2021-06-24
                  • 1970-01-01
                  • 2017-12-23
                  • 2023-04-08
                  • 1970-01-01
                  • 2023-03-26
                  相关资源
                  最近更新 更多