【问题标题】:Using C# to Search OCR (searchable) PDF使用 C# 搜索 OCR(可搜索)PDF
【发布时间】:2011-02-16 17:08:33
【问题描述】:

我需要从已经使用 OCR 程序转换的 PDF 中提取文本。我是使用普通的 PDFReader 来获取文本还是 OCR 转换的 PDF 需要特殊处理?

【问题讨论】:

    标签: pdf ocr


    【解决方案1】:

    这取决于它是如何转化的。许多 OCR 应用程序以某种方式将文本放在图像下方。有些人通过先将文本放下然后将图像放在顶部来做到这一点。有些人将图像放在底部,然后使用“不标记”传输模式将文本放在顶部。

    我之所以提到这一点,是因为我无法预测任何特定的文本提取工具将如何响应透明文本。理论上,它应该只给你文本(这就是 Acrobat 所做的)。这是否在所有文本提取工具中都发生在现实中是任何人的猜测。

    【讨论】:

    • 谢谢,这个答案最接近我的要求(我显然没有正确询问)。就 PDF 格式而言,OCR 转换的 PDF 与非 OCR PDF 没有什么不同。 OCR 过程只是扫描图像并将文本添加到 PDF。我使用 Aspose 提取文本,我想确保如果将非 OCR PDF 提供给我的程序不会发生任何不良情况。
    【解决方案2】:

    有许多用于处理 pdf 文件的商业 SDK。 http://www.foxitsoftware.com/pdf/sdk/activex/ 这是福昕的。

    【讨论】:

    • 我的问题是使用某些 OCR 软件转换的 PDF 的处理方式是否与普通 PDF 有任何不同。或者 OCR 转换的 PDF 只是一个带有更多文本而不是图像的 PDF。我对 PDF 结构不太了解。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-05-18
    • 2019-05-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多