【发布时间】:2013-09-14 15:42:37
【问题描述】:
我使用几个不同的程序将 pdf 文件转换为 txt 文件。通常,这会产生好看的文本。有时,它不会。我有一组按以下方式转换的文件:
我可以阅读的文字:您的帐户摘要
复制,粘贴到记事本++中:
Ghostscript:似乎是一个垃圾文件。充满了xEF、xBF 字符。
xPdf:给我一个文件,里面有这样的东西:Ç+6 3 É+C ÌÍÍÌ; ÆÁÅ ÅAÁ
似乎复制粘贴方法最接近英语,因为 似乎 这些字符中的每一个都代表一个字母字符。 SO == Y,SI == o,STX == u,等等
我想将这些 pdf 文件转换为英文文本。
【问题讨论】:
-
这在 SO 中被问过无数次。简短的回答:您的文件不允许文本提取,请改用 OCR 库。
-
如果复制粘贴方法实际上是某种字符表示,我会假设我可以提取该代码,然后将其转换为真实文本。我错了吗?
-
不是真的......它们可能只是对象数组中的索引,告诉 PDF 阅读器如何绘制每个字符,而没有关于所代表文本的任何进一步信息。请在 SO 中查找有关 PDF 文本提取的问题,这里有很多很好的答案可以涵盖这些问题。
标签: pdf itextsharp ghostscript