【问题标题】:Is there a way to test the image on PDF files?有没有办法在 PDF 文件上测试图像?
【发布时间】:2016-05-30 18:58:55
【问题描述】:

在我们的项目中,我们需要测试 PDF 文件数据。但是PDF文件中的数据很少是图像格式的,所以我们不能应用与我们在PDF上进行文本比较相同的逻辑。我们面临验证 PDF 文件上的图像文本的问题。是否有任何 API 可以让我们识别 OCR 并从图像中提取文本并进行比较。

【问题讨论】:

  • 我建议您将问题分开,首先仅提取位图图像(应该可以使用任何通用 PDF 库,除非使用高级色彩空间),然后将 OCR 应用于图像(有一些该任务的库也是如此)。

标签: java pdf selenium-webdriver ocr ui-automation


【解决方案1】:

您可以预处理 PDF 文件吗?如果是这样,请尝试 pdf2pdfocr (https://github.com/LeoFCardoso/pdf2pdfocr)。

免责声明:我是 pdf2pdfocr 开发人员。

【讨论】:

    【解决方案2】:

    要使用图像,您可以尝试 -

    1. Java 用于图像比较,但在项目进行中处理代码将变得非常困难。

    2. 我通常使用 sikuli 进行图像重组,效果很好,请下载 sikuli 表单 here,有关 sikuli 的工作示例,请查看here

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-06-18
      • 1970-01-01
      • 2018-05-07
      • 1970-01-01
      • 2023-02-25
      • 2020-04-01
      • 1970-01-01
      • 2012-08-20
      相关资源
      最近更新 更多