【发布时间】:2013-12-06 00:11:59
【问题描述】:
我有一些用巴西葡萄牙语编写的 pdf,我想对其进行解析和处理。我尝试使用 PDFBox 文本提取命令行工具(完全没有参数),但得到以下结果:
Cão
以
结束C~
ao
此外,使用 Adobe Reader 复制和粘贴文本或将其导出为文本会输出相同的结果。 对其他文件执行相同操作(PDFBox、复制和粘贴、Adobe Reader 导出)我设法按预期提取了文本(“Cão”),因此,不是 PDF 专家,我认为这与文件的创建方式有关。我想知道是否有人在提取文本时看到过这种行为以及如何解决它。
【问题讨论】:
-
你用什么来提取文本?这个问题很不完整。
-
你是如何使用 PDFBox 的?
-
为什么这些特定文档的文本提取会搞砸。 - 正如@DourHighArch 暗示的那样,您可能错误地使用了 PDFBox。如果您希望我们对此进行检查,请提供一些代码。此外,您提到这只是某些文件的问题。也许这些文档只是提供了有关其内容的错误信息(例如,this answer)。如果您希望我们对此进行检查,请提供相关 PDF。
-
我正在使用 PDFBox 文本提取命令行工具 [pdfbox.apache.org/commandline/#extractText] 没有选项。