【问题标题】:Is there a way to differentiate between native and scanned pdf?有没有办法区分原生和扫描的pdf?
【发布时间】:2019-06-22 03:48:31
【问题描述】:

我正在使用 ocr 技术从包含图像的 pdf 中提取文本,但我只想在 pdf 不可搜索时使用 ocr,否则我想使用 pdfminer 或类似库。

有没有办法区分已经可搜索的 pdf 和不可搜索的 pdf?

【问题讨论】:

  • 不仅有黑白,还有中间的阶段。例如。如果历史文件加上解释,可能会有混合扫描和“原生”内容(如扫描)的 pdf。或者扫描仪可能在扫描页面上添加了“本机”页码。并且可能存在已经经过 ocr 处理的扫描 pdf,因此获得了质量可能可接受的文本层。你想在哪里画线?
  • 在这个阶段,我只想区分完全没有其他肤色的原生 PDF 和任何其他非原生 100% PDF
  • 所以你实际上只想检查页面是否包含任何位图图像?

标签: pdf


【解决方案1】:

为了清楚起见,“本机 PDF”并不是 PDF 标准中的一个术语,我看到有些人用它来表示直接在 PDF 创作软件中创建的 PDF,因此您可以在其中包含文本和矢量图形之类的内容以它为例。

这真的取决于您知道您收到的源 PDF 文档。例如,如果您知道所有原生 PDF 将始终包含文本,那么您可以简单地从文档中提取文本,如果您发现任何文本,则认为它是原生的,否则认为它是扫描的。

如果您知道所有扫描的 PDF 将始终包含特定大小和特定压缩的图像,那么您可以检查文档中的这些属性并相应地对其进行分类。

如果您对源输入一无所知,事情就会变得更加复杂。您也可以查看元数据之类的内容,并寻找可以识别一个与另一个的关键字。

最终,如果您对输入类型有一些限制,则期望分类非常简单。

一个很好的后续问题是为什么需要以这种方式区分文档?如果我们对此有所了解,也许我们可以对这种方法发表评论。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-06-01
    • 2021-07-05
    • 2021-02-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多