【问题标题】:How to parse pdf which contain data in a tabular format using pdfbox如何使用pdfbox解析包含表格格式数据的pdf
【发布时间】:2012-12-29 06:20:35
【问题描述】:

谁能帮助我了解如何使用 itext 或 pdfbox 提取表格数据,我有一个 1000 页的 pdf,我的工作是解析 pdf 并将数据存储到数据库中。

【问题讨论】:

标签: java parsing pdf web-applications itext


【解决方案1】:

PDF 不包含任何表格结构元素,除非它包含用于定义表格的附加 XML。否则没有结构。有一个blog article我写了关于如何找出来。

像 PdfBox 这样的一些工具会努力猜测表格,但它可能会被击中和错过

【讨论】:

  • 感谢您的回复...但是我们有一个问题,我们有一个包含检查结果记录的 pdf 文件,这意味着 pdf 中存在一些列和行。那么如何使用 Pdfbox 解析该 pdf 并将数据存储到数据库中。
  • @user1958037 您是否同时尝试使用 Mark 或 iText 建议的 PdfBox 沿着我提到的邮件列表线程的行?你遇到了什么问题?此外,将数据存储在数据库中完全是另一回事,您有什么问题?
【解决方案2】:

您可以使用此代码以字符串格式提取数据:

PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);

然后您可以使用 java 正则表达式逐行解析并将值加载到您的 java POJO bean 中。

【讨论】:

    猜你喜欢
    • 2011-03-13
    • 2018-08-31
    • 2021-01-04
    • 1970-01-01
    • 2021-06-05
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多