从 pdf 文件读取的 Java 正则表达式

【问题标题】：Java regex from pdf file read从 pdf 文件读取的 Java 正则表达式
【发布时间】：2015-05-25 15:18:33
【问题描述】：

我有一个 java 项目，它将从 pdf 文件中读取文本。 pdf 包含表格格式，如果列跨越文本内容，则该格式将包含断线。例如：“这是 www.google.com”变成“这是 www.goog/nle.com”（跨越到下一行）。我需要提取此文本并使用域正则表达式模式对其进行处理。如果跨越，它将无法获得正确的“www.google.com”。我无法替换“/n”，因为我可能有这样的场景：“This is an This is www.google.com/nwww.yahoo.com”。

*这个 pdf 文件是从一个 docx 转换而来的，如果 java 从 docx 读取，它会在没有断线问题的情况下获得 www.google.com 的罚款。它只发生在 pdf 中。

有什么想法吗？谢谢

【问题讨论】：

标签： java regex pdf

【解决方案1】：

您可以先删除所有换行符，然后应用如here 所述的正则表达式来查找所有 URL。

【讨论】：

你不应该对我投反对票。请正确阅读我的问题，因为我不会问我是否可以删除断线。 :)
我对你的问题投了赞成票或反对票。但是：用正则表达式解决这个问题并不是一个好方法，因为表达式可能会变得非常复杂且不可维护。试试简单的表达方式，例如在这个网站上：derekslager.com/blog/posts/2007/09/…
感谢亚历克斯提供的信息。

猜你喜欢

1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2016-07-25
2020-09-06
1970-01-01

相关资源

下载 2022-12-19
下载 2023-04-10
下载 2021-06-05

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode