如何从 PDF 中提取嵌入的 OCR 数据？答案

【问题标题】：HowTo extract embedded OCR data from a PDF?如何从 PDF 中提取嵌入的 OCR 数据？
【发布时间】：2011-03-02 13:57:45
【问题描述】：

我有嵌入 OCR 数据的 PDF 文件。（所以我已经对它们进行了 orcd）所以它们是可搜索的。现在我想提取这个 OCR 数据，因为我想放入我的 tomcat6 搜索服务器。为此，我需要普通的 OCR 数据。所以我的问题是，是否可以从 pdf 文件中提取这个嵌入的 OCR 数据？获得带有坐标的文件会很好。但是获取纯文本文件也足够了。

【问题讨论】：

我不需要特定的语言。如果我可以在 Batch-Skript 中使用它，那就最好了。所以一个命令行工具会很好。顺便一提。我想在 Windows 上使用它...

标签： pdf extract ocr pdf-scraping

【解决方案1】：

您应该可以使用 iText 或 iTextsharp 执行此操作。然而，iTextsharp 有 0 个文档，并且很多功能并不等同于 iText 中的功能。

PDFSharp 不支持 iref 流。这些几乎是唯一全面的开源解决方案。如果您不介意付费，vista 解决方案可能适合您，它们主要处理工作流，但它们也有一些相当广泛的 pdf 库。

【讨论】：