【发布时间】:2019-02-19 23:19:04
【问题描述】:
目前是否有任何服务或软件工具使用 Google Cloud Vision 作为 OCRing 扫描的 PDF 文件的后端?
如果不是,如何使用 Google Cloud Vision 将 PDF 转换为 OCRed PDF?据我所知,Cloud Vision 目前支持 PDF 文件,但它只会将识别的文本输出为 JSON 文件。因此,似乎需要在单独的步骤中执行额外的步骤,将转换后的文本放置在 Google Cloud Vision 之外的 PDF 内的图像顶部。
背景:
我经常需要将扫描的 PDF 文件转换为包含 OCRed 文本层的 PDF 文件。到目前为止,我一直在使用 OCRKit 或 ABBYY FineReader 等软件。我根据 Google Cloud Vision 的文本识别能力测试了这些解决方案的准确性,后者遥遥领先。
【问题讨论】:
-
OCR.space freemium OCR API 支持 PDF 输入并从中创建 searchable PDF。 ocr 质量非常好,虽然不如谷歌云视觉。但它是免费的。
标签: pdf pdf-generation ocr google-cloud-vision