PDF到文本弄乱了拉丁口音[重复]答案

【问题标题】：PDF to text mess up latin accents [duplicate]PDF到文本弄乱了拉丁口音[重复]
【发布时间】：2013-12-06 00:11:59
【问题描述】：

我有一些用巴西葡萄牙语编写的 pdf，我想对其进行解析和处理。我尝试使用 PDFBox 文本提取命令行工具（完全没有参数），但得到以下结果：

Cão

以

结束

C~
ao

此外，使用 Adobe Reader 复制和粘贴文本或将其导出为文本会输出相同的结果。对其他文件执行相同操作（PDFBox、复制和粘贴、Adobe Reader 导出）我设法按预期提取了文本（“Cão”），因此，不是 PDF 专家，我认为这与文件的创建方式有关。我想知道是否有人在提取文本时看到过这种行为以及如何解决它。

【问题讨论】：

你用什么来提取文本？这个问题很不完整。
你是如何使用 PDFBox 的？
为什么这些特定文档的文本提取会搞砸。 - 正如@DourHighArch 暗示的那样，您可能错误地使用了 PDFBox。如果您希望我们对此进行检查，请提供一些代码。此外，您提到这只是某些文件的问题。也许这些文档只是提供了有关其内容的错误信息（例如，this answer）。如果您希望我们对此进行检查，请提供相关 PDF。
我正在使用 PDFBox 文本提取命令行工具 [pdfbox.apache.org/commandline/#extractText] 没有选项。
阅读joelonsoftware.com/articles/Unicode.html

标签： pdf latin1

【解决方案1】：

感谢 Stack Overflow，我设法找到了下面的帖子：

How to get text extraction from PDF to work?

这给了我我正在寻找的信息。显然，在生成 PDF 时没有理解拉丁字符所需的信息。

【讨论】：