【发布时间】:2015-05-25 15:18:33
【问题描述】:
我有一个 java 项目,它将从 pdf 文件中读取文本。 pdf 包含表格格式,如果列跨越文本内容,则该格式将包含断线。 例如:“这是 www.google.com”变成“这是 www.goog/nle.com”(跨越到下一行)。我需要提取此文本并使用域正则表达式模式对其进行处理。如果跨越,它将无法获得正确的“www.google.com”。 我无法替换“/n”,因为我可能有这样的场景:“This is an This is www.google.com/nwww.yahoo.com”。
*这个 pdf 文件是从一个 docx 转换而来的,如果 java 从 docx 读取,它会在没有断线问题的情况下获得 www.google.com 的罚款。它只发生在 pdf 中。
有什么想法吗?谢谢
【问题讨论】: