【发布时间】:2019-06-22 03:48:31
【问题描述】:
我正在使用 ocr 技术从包含图像的 pdf 中提取文本,但我只想在 pdf 不可搜索时使用 ocr,否则我想使用 pdfminer 或类似库。
有没有办法区分已经可搜索的 pdf 和不可搜索的 pdf?
【问题讨论】:
-
不仅有黑白,还有中间的阶段。例如。如果历史文件加上解释,可能会有混合扫描和“原生”内容(如扫描)的 pdf。或者扫描仪可能在扫描页面上添加了“本机”页码。并且可能存在已经经过 ocr 处理的扫描 pdf,因此获得了质量可能可接受的文本层。你想在哪里画线?
-
在这个阶段,我只想区分完全没有其他肤色的原生 PDF 和任何其他非原生 100% PDF
-
所以你实际上只想检查页面是否包含任何位图图像?
标签: pdf