PDF文本转换导致乱码[重复]答案

【问题标题】：PDF text conversion results in gibberish [duplicate]PDF文本转换导致乱码[重复]
【发布时间】：2013-09-14 15:42:37
【问题描述】：

我使用几个不同的程序将 pdf 文件转换为 txt 文件。通常，这会产生好看的文本。有时，它不会。我有一组按以下方式转换的文件：

我可以阅读的文字：您的帐户摘要

复制，粘贴到记事本++中：

Ghostscript：似乎是一个垃圾文件。充满了xEF、xBF 字符。

xPdf：给我一个文件，里面有这样的东西：Ç+6 3 É+C ÌÍÍÌ; ÆÁÅ ÅAÁ

似乎复制粘贴方法最接近英语，因为似乎这些字符中的每一个都代表一个字母字符。 SO == Y，SI == o，STX == u，等等

我想将这些 pdf 文件转换为英文文本。

【问题讨论】：

这在 SO 中被问过无数次。简短的回答：您的文件不允许文本提取，请改用 OCR 库。
如果复制粘贴方法实际上是某种字符表示，我会假设我可以提取该代码，然后将其转换为真实文本。我错了吗？
不是真的......它们可能只是对象数组中的索引，告诉 PDF 阅读器如何绘制每个字符，而没有关于所代表文本的任何进一步信息。请在 SO 中查找有关 PDF 文本提取的问题，这里有很多很好的答案可以涵盖这些问题。
检查这个例如：stackoverflow.com/questions/17193839/…

【解决方案1】：

通常Unicode符号看起来像一个

xEF，xBF

。您需要将 Unicode 转换为用户友好的字母。

【讨论】：