【发布时间】:2019-01-27 16:11:26
【问题描述】:
需要一种解决方案来将 PDF 文件转换为可搜索的 pdf,其中每个页面都是图像并且页面可以包含文本、表格或两者的组合。
我使用过 ABBY FineReader Online,它做得非常好,但我正在寻找可以通过 Windows Python
实现的解决方案我已经做了详细的分析,下面是接近我想要但不完全的链接:
Scanned Image/PDF to Searchable Image/PDF
告诉使用 Ghost 脚本首先将其转换为图像,然后直接转换为文本。我不相信 tesseract 将不可搜索的 PDF 转换为可搜索的 PDF。
Converting searchable PDF to a non-searchable PDF
上述解决方案有助于反向,即将可搜索转换为不可搜索。我也认为这些在 Ubuntu/Linux/MacOS 中是有效的。
有人可以帮忙告诉在 Windows Python 中实现不可搜索到可搜索的 Python 代码应该是什么?
更新 1
我已经通过 Asprise Web Ocr 获得了想要的结果。下面是链接和代码:
https://asprise.com/royalty-free-library/python-ocr-api-overview.html
我正在寻找只能通过 Windows Python 库完成的解决方案
- 以后无需支付订阅费用
- 我每天需要转换数千个文档,将一个上传到 API 然后下载等等会很麻烦。
更新 2
我知道将不可搜索的 pdf 直接转换为文本的解决方案。但我正在寻找他们将不可搜索的PDF转换为可搜索的PDF的任何方式。我有使用 PyPDF2 将 PDF 转换为文本的代码。
【问题讨论】:
标签: python python-3.x pdf ocr