如何使用pdfbox解析包含表格格式数据的pdf答案

【问题标题】：How to parse pdf which contain data in a tabular format using pdfbox如何使用pdfbox解析包含表格格式数据的pdf
【发布时间】：2012-12-29 06:20:35
【问题描述】：

谁能帮助我了解如何使用 itext 或 pdfbox 提取表格数据，我有一个 1000 页的 pdf，我的工作是解析 pdf 并将数据存储到数据库中。

【问题讨论】：

如果您想尝试使用 iText(Sharp) 进行此操作，您可能会对 iText 邮件列表中的此线程感兴趣：parse tabular data in PDF using iTextSharp。不过，正如@mark 在他的回答中所说，通用解决方案屡试不爽。如果您的 1000 页有非常统一的表格，那么特别定制的提取例程可能是最好的方法。
Parsing PDF files (especially with tables) with PDFBox的可能重复

【解决方案1】：

PDF 不包含任何表格结构元素，除非它包含用于定义表格的附加 XML。否则没有结构。有一个blog article我写了关于如何找出来。

像 PdfBox 这样的一些工具会努力猜测表格，但它可能会被击中和错过

【讨论】：

感谢您的回复...但是我们有一个问题，我们有一个包含检查结果记录的 pdf 文件，这意味着 pdf 中存在一些列和行。那么如何使用 Pdfbox 解析该 pdf 并将数据存储到数据库中。
@user1958037 您是否同时尝试使用 Mark 或 iText 建议的 PdfBox 沿着我提到的邮件列表线程的行？你遇到了什么问题？此外，将数据存储在数据库中完全是另一回事，您有什么问题？

【解决方案2】：

您可以使用此代码以字符串格式提取数据：

PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);

然后您可以使用 java 正则表达式逐行解析并将值加载到您的 java POJO bean 中。

【讨论】：