有没有办法区分原生和扫描的pdf？答案

【问题标题】：Is there a way to differentiate between native and scanned pdf?有没有办法区分原生和扫描的pdf？
【发布时间】：2019-06-22 03:48:31
【问题描述】：

我正在使用 ocr 技术从包含图像的 pdf 中提取文本，但我只想在 pdf 不可搜索时使用 ocr，否则我想使用 pdfminer 或类似库。

有没有办法区分已经可搜索的 pdf 和不可搜索的 pdf？

【问题讨论】：

不仅有黑白，还有中间的阶段。例如。如果历史文件加上解释，可能会有混合扫描和“原生”内容（如扫描）的 pdf。或者扫描仪可能在扫描页面上添加了“本机”页码。并且可能存在已经经过 ocr 处理的扫描 pdf，因此获得了质量可能可接受的文本层。你想在哪里画线？
在这个阶段，我只想区分完全没有其他肤色的原生 PDF 和任何其他非原生 100% PDF
所以你实际上只想检查页面是否包含任何位图图像？

标签： pdf

【解决方案1】：

为了清楚起见，“本机 PDF”并不是 PDF 标准中的一个术语，我看到有些人用它来表示直接在 PDF 创作软件中创建的 PDF，因此您可以在其中包含文本和矢量图形之类的内容以它为例。

这真的取决于您知道您收到的源 PDF 文档。例如，如果您知道所有原生 PDF 将始终包含文本，那么您可以简单地从文档中提取文本，如果您发现任何文本，则认为它是原生的，否则认为它是扫描的。

如果您知道所有扫描的 PDF 将始终包含特定大小和特定压缩的图像，那么您可以检查文档中的这些属性并相应地对其进行分类。

如果您对源输入一无所知，事情就会变得更加复杂。您也可以查看元数据之类的内容，并寻找可以识别一个与另一个的关键字。

最终，如果您对输入类型有一些限制，则期望分类非常简单。

一个很好的后续问题是为什么需要以这种方式区分文档？如果我们对此有所了解，也许我们可以对这种方法发表评论。

【讨论】：