【发布时间】:2018-02-22 17:04:03
【问题描述】:
我注意到,当我使用 OCR 将扫描的 PDF 文档(在本例中为 Adobe Acrobat Pro)转换为文本时,根据我提取数据的方式,我得到的输出非常不同。
在上面的照片中 - 您可以看到一段 PDF 已被 OCR 处理成质量相当好的文本。如果我在 Adobe 中选择它并复制它说,一个单词或 txt 文档,它会完美地粘贴过来。
但是,如果我使用 Adobe 将其导出为富文本格式,使用 Python 的 PDFminer 或 Python Apache Tika,那么我会得到上面的照片,正如你所看到的那样,它完全混乱了。两种方法之间的提取结果非常一致 - 基本上所有 3 种方法都以完全相同的方式将其混杂在一起。
你们中有人知道为什么 OCR 处理的 PDF 可以很好地复制到文本编辑器中,但却以如此奇怪的方式提取吗?
谢谢!
问候, 马诺
【问题讨论】:
-
一种是文本提取,一种是图像提取。
-
是的 - 但是为什么文本提取会一直搞乱原本看起来非常精细的图像提取呢?如果图像提取严重弄乱了 PDF,我可以看到它,但在这种情况下,它可以很容易地被复制粘贴到另一个文本文档并且出来就好了。也许我根本不懂PDF文本提取?
-
请分享您的 PDF。
标签: python-3.x adobe pdfbox apache-tika pdfminer