【问题标题】:PDF to text mess up latin accents [duplicate]PDF到文本弄乱了拉丁口音[重复]
【发布时间】:2013-12-06 00:11:59
【问题描述】:

我有一些用巴西葡萄牙语编写的 pdf,我想对其进行解析和处理。我尝试使用 PDFBox 文本提取命令行工具(完全没有参数),但得到以下结果:

Cão 

结束
C~
ao

此外,使用 Adob​​e Reader 复制和粘贴文本或将其导出为文本会输出相同的结果。 对其他文件执行相同操作(PDFBox、复制和粘贴、Adobe Reader 导出)我设法按预期提取了文本(“Cão”),因此,不是 PDF 专家,我认为这与文件的创建方式有关。我想知道是否有人在提取文本时看到过这种行为以及如何解决它。

【问题讨论】:

  • 你用什么来提取文本?这个问题很不完整。
  • 你是如何使用 PDFBox 的?
  • 为什么这些特定文档的文本提取会搞砸。 - 正如@DourHighArch 暗示的那样,您可能错误地使用了 PDFBox。如果您希望我们对此进行检查,请提供一些代码。此外,您提到这只是某些文件的问题。也许这些文档只是提供了有关其内容的错误信息(例如,this answer)。如果您希望我们对此进行检查,请提供相关 PDF。
  • 我正在使用 PDFBox 文本提取命令行工具 [pdfbox.apache.org/commandline/#extractText] 没有选项。

标签: pdf latin1


【解决方案1】:

感谢 Stack Overflow,我设法找到了下面的帖子:

How to get text extraction from PDF to work?

这给了我我正在寻找的信息。显然,在生成 PDF 时没有理解拉丁字符所需的信息。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-08-01
    • 2013-04-22
    • 2022-01-09
    • 1970-01-01
    • 2014-07-20
    • 1970-01-01
    • 2018-09-18
    • 2014-07-16
    相关资源
    最近更新 更多