使用 C# 搜索 OCR（可搜索）PDF答案

【问题标题】：Using C# to Search OCR (searchable) PDF使用 C# 搜索 OCR（可搜索）PDF
【发布时间】：2011-02-16 17:08:33
【问题描述】：

我需要从已经使用 OCR 程序转换的 PDF 中提取文本。我是使用普通的 PDFReader 来获取文本还是 OCR 转换的 PDF 需要特殊处理？

【问题讨论】：

标签： pdf ocr

【解决方案1】：

这取决于它是如何转化的。许多 OCR 应用程序以某种方式将文本放在图像下方。有些人通过先将文本放下然后将图像放在顶部来做到这一点。有些人将图像放在底部，然后使用“不标记”传输模式将文本放在顶部。

我之所以提到这一点，是因为我无法预测任何特定的文本提取工具将如何响应透明文本。理论上，它应该只给你文本（这就是 Acrobat 所做的）。这是否在所有文本提取工具中都发生在现实中是任何人的猜测。

【讨论】：

谢谢，这个答案最接近我的要求（我显然没有正确询问）。就 PDF 格式而言，OCR 转换的 PDF 与非 OCR PDF 没有什么不同。 OCR 过程只是扫描图像并将文本添加到 PDF。我使用 Aspose 提取文本，我想确保如果将非 OCR PDF 提供给我的程序不会发生任何不良情况。

【解决方案2】：

有许多用于处理 pdf 文件的商业 SDK。 http://www.foxitsoftware.com/pdf/sdk/activex/ 这是福昕的。

【讨论】：

我的问题是使用某些 OCR 软件转换的 PDF 的处理方式是否与普通 PDF 有任何不同。或者 OCR 转换的 PDF 只是一个带有更多文本而不是图像的 PDF。我对 PDF 结构不太了解。