【发布时间】:2011-02-16 17:08:33
【问题描述】:
我需要从已经使用 OCR 程序转换的 PDF 中提取文本。我是使用普通的 PDFReader 来获取文本还是 OCR 转换的 PDF 需要特殊处理?
【问题讨论】:
我需要从已经使用 OCR 程序转换的 PDF 中提取文本。我是使用普通的 PDFReader 来获取文本还是 OCR 转换的 PDF 需要特殊处理?
【问题讨论】:
这取决于它是如何转化的。许多 OCR 应用程序以某种方式将文本放在图像下方。有些人通过先将文本放下然后将图像放在顶部来做到这一点。有些人将图像放在底部,然后使用“不标记”传输模式将文本放在顶部。
我之所以提到这一点,是因为我无法预测任何特定的文本提取工具将如何响应透明文本。理论上,它应该只给你文本(这就是 Acrobat 所做的)。这是否在所有文本提取工具中都发生在现实中是任何人的猜测。
【讨论】:
有许多用于处理 pdf 文件的商业 SDK。 http://www.foxitsoftware.com/pdf/sdk/activex/ 这是福昕的。
【讨论】: