【发布时间】:2016-05-30 18:58:55
【问题描述】:
在我们的项目中,我们需要测试 PDF 文件数据。但是PDF文件中的数据很少是图像格式的,所以我们不能应用与我们在PDF上进行文本比较相同的逻辑。我们面临验证 PDF 文件上的图像文本的问题。是否有任何 API 可以让我们识别 OCR 并从图像中提取文本并进行比较。
【问题讨论】:
-
我建议您将问题分开,首先仅提取位图图像(应该可以使用任何通用 PDF 库,除非使用高级色彩空间),然后将 OCR 应用于图像(有一些该任务的库也是如此)。
标签: java pdf selenium-webdriver ocr ui-automation