【问题标题】:Java regex from pdf file read从 pdf 文件读取的 Java 正则表达式
【发布时间】:2015-05-25 15:18:33
【问题描述】:

我有一个 java 项目,它将从 pdf 文件中读取文本。 pdf 包含表格格式,如果列跨越文本内容,则该格式将包含断线。 例如:“这是 www.google.com”变成“这是 www.goog/nle.com”(跨越到下一行)。我需要提取此文本并使用域正则表达式模式对其进行处理。如果跨越,它将无法获得正确的“www.google.com”。 我无法替换“/n”,因为我可能有这样的场景:“This is an This is www.google.com/nwww.yahoo.com”。

*这个 pdf 文件是从一个 docx 转换而来的,如果 java 从 docx 读取,它会在没有断线问题的情况下获得 www.google.com 的罚款。它只发生在 pdf 中。

有什么想法吗?谢谢

【问题讨论】:

    标签: java regex pdf


    【解决方案1】:

    您可以先删除所有换行符,然后应用如here 所述的正则表达式来查找所有 URL。

    【讨论】:

    • 你不应该对我投反对票。请正确阅读我的问题,因为我不会问我是否可以删除断线。 :)
    • 我对你的问题投了赞成票或反对票。但是:用正则表达式解决这个问题并不是一个好方法,因为表达式可能会变得非常复杂且不可维护。试试简单的表达方式,例如在这个网站上:derekslager.com/blog/posts/2007/09/…
    • 感谢亚历克斯提供的信息。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-07-25
    • 2020-09-06
    • 1970-01-01
    相关资源
    最近更新 更多