【问题标题】:Howto: Improve the PDF- quality before OCR using C#如何:使用 C# 在 OCR 之前提高 PDF 质量
【发布时间】:2011-07-06 08:06:43
【问题描述】:

我正在创建一个服务来监控文件夹中的扫描文件。一旦文件存在,该服务就会将其拾取,并将其转换为可读的 PDF。在此过程中,该服务还会搜索条形码。在此之后,提取文本并将文件及其文本存储到我们软件的数据库中。位置基于条形码。

现在,对于 OCR,我们使用 Atalasoft 的 SDK (http://www.atalasoft.com/)。 此 SDK 中还包含条码识别器。

但是转换后的文本还是有一些错误。 (我用其他 OCR 程序进行了一些测试,但 Atalasoft 表现不错。) 我正在寻找一些软件(SDK-kit),它可以让我提高用于 OCR 目的的 PDF 质量。

我测试了 Kofax VRS Elite (http://www.kofax.com/vrs-virtualrescan/)。我正在寻找类似的东西,但可以使用某种 SDK 套件在服务中实现。

以前有没有人这样做过,或者遇到过类似的问题? 提前谢谢!

【问题讨论】:

    标签: c# pdf ocr readable


    【解决方案1】:

    您可以尝试完全不同的路径:
    看看您是否可以将扫描仪配置为直接扫描为 PDF 并即时执行 OCR。 Lexmark 扫描仪可以做到这一点。这将创建具有可选择和可搜索文本的 PDF。反过来,这可以通过 PDF 阅读库提取。

    或者,您可能想看看http://www.abbyy.com/,看看您是否能得到更好的结果。

    如果这些不是很好的选择,您可能需要系统地分解您的问题:
    1. 扫描图像的图像质量有问题吗?如果是这样,则必须首先解决此问题。您的 OCR 解决方案可能会受到分辨率、对比度和颜色的影响。
    2. 是OCR软件吗?拿一份清晰易读的文件,看看 OCR 软件是否出错。如果是这样,那么您知道您必须找到更好的 OCR 软件。
    3. 如果您的文档质量不错,并且您的 OCR 软件在破译清晰文档方面的成功率很高,那么您可能需要查看不起作用的例外情况,并根据具体情况进行处理。

    如果文档上的污迹和背景图像是问题的原因,您可能需要寻找避免这种情况的方法,或者使用公开 API 的图像处理软件进行清理。

    【讨论】:

    • 您好,谢谢您的回答。但不提供购买其他扫描仪的选项。我用 abbyy 进行了一些测试,质量与 atalasoft 的 OCR 相当。还有其他建议吗?
    猜你喜欢
    • 1970-01-01
    • 2018-02-11
    • 2011-10-15
    • 2016-11-14
    • 1970-01-01
    • 2018-08-09
    • 2013-05-30
    • 1970-01-01
    • 2019-06-21
    相关资源
    最近更新 更多