【问题标题】:How to extract data from a specific rectangular area in a PDF using Java?如何使用Java从PDF中的特定矩形区域提取数据?
【发布时间】:2017-12-26 00:21:20
【问题描述】:

我正在尝试从 PDF 中给出的两个坐标指定的特定矩形区域中提取数据。是否可以在 PDF 中执行此操作,或者我必须将其转换为图像并使用 OCR?如果是这样,PDFBox 或 iText 是否包含通过 OCR 分析图像的方法?谢谢!

【问题讨论】:

  • 嗨,我不明白为什么有人会否决这篇文章。如果您认为出现了一些错误,请告诉我,以便我在以后的帖子中进行改进。谢谢。

标签: java pdf


【解决方案1】:

如果区域是文本。使用pdfbox,

PDDocument document = PDDocument.load(new File("target.pdf"));
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition(true);
Rectangle rect = new Rectangle(35, 375, 340, 204);
stripper.addRegion("class1", rect);
stripper.extractRegions(document.getPage(1));
System.out.println(stripper.getTextForRegion("class1")

【讨论】:

  • 感谢您的帮助。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2018-01-29
  • 2015-08-18
  • 1970-01-01
  • 1970-01-01
  • 2011-08-16
  • 2014-02-03
  • 1970-01-01
相关资源
最近更新 更多