【问题标题】:PDF text conversion results in gibberish [duplicate]PDF文本转换导致乱码[重复]
【发布时间】:2013-09-14 15:42:37
【问题描述】:

我使用几个不同的程序将 pdf 文件转换为 txt 文件。通常,这会产生好看的文本。有时,它不会。我有一组按以下方式转换的文件:

我可以阅读的文字:您的帐户摘要

复制,粘贴到记事本++中:

Ghostscript:似乎是一个垃圾文件。充满了xEFxBF 字符。

xPdf:给我一个文件,里面有这样的东西:Ç+6 3 É+C ÌÍÍÌ; ÆÁÅ ÅAÁ

似乎复制粘贴方法最接近英语,因为 似乎 这些字符中的每一个都代表一个字母字符。 SO == Y,SI == o,STX == u,等等

我想将这些 pdf 文件转换为英文文本。

【问题讨论】:

  • 这在 SO 中被问过无数次。简短的回答:您的文件不允许文本提取,请改用 OCR 库。
  • 如果复制粘贴方法实际上是某种字符表示,我会假设我可以提取该代码,然后将其转换为真实文本。我错了吗?
  • 不是真的......它们可能只是对象数组中的索引,告诉 PDF 阅读器如何绘制每个字符,而没有关于所代表文本的任何进一步信息。请在 SO 中查找有关 PDF 文本提取的问题,这里有很多很好的答案可以涵盖这些问题。

标签: pdf itextsharp ghostscript


【解决方案1】:

通常Unicode符号看起来像一个

xEF,xBF

。您需要将 Unicode 转换为用户友好的字母。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-01-02
    • 2014-04-09
    • 2019-02-26
    • 2018-09-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多