【问题标题】:How to OCR email address如何 OCR 电子邮件地址
【发布时间】:2014-12-26 02:20:26
【问题描述】:

我正在尝试 OCR 并从图像中提取电子邮件。图片应该有一行文本,即电子邮件地址。

我正在使用 EmguCV.OCR 从这些图像中提取文本(电子邮件地址)。目标是获得 100% 准确的结果。

我们可以固定文本的字体和大小。例如 Ariel, 12pt,这样所有的图像都会有用 Ariel 12pt 写的电子邮件,白底黑字。

问题是 EmguCV 中的 Tesseract OCR 无法正确识别文本。它只能准确识别 80% 的字符。

我正在使用 Leptonica 库进行预处理。

这里有一些我试图识别的示例图像。

有什么方法可以达到100%准确率的目标

【问题讨论】:

  • 尽可能增加对比度并去除噪点,有更好的行距、字体大小和类型(*注意:如果自己看不清楚文字,不要指望得到一个100% OCR 结果,这也取决于您使用的软件或库)

标签: c# image-processing ocr tesseract emgucv


【解决方案1】:

我尝试使用 ABBYY Cloud OCR SDK 识别您的图像,并获得了 100% 的准确率。 您可以使用Demo Tool 来确保识别的准确性。

我在 ABBYY 工作,如果您需要,可以为您提供有关我们技术的更多信息。

【讨论】:

    【解决方案2】:

    通过这些示例图片,我可以提出两种解决同一问题的方法。在这些图像中存在 JPEG 伪影 (the result of lossy compression)。正因为如此,字母变得相互连接(在程序中放大图像,您可以在其中看到实际像素,Windows 照片查看器对我来说效果很好)。 TesseractOCR 依靠字母之间的间距(它使用连接的组件)来进行字符识别。有任何连接的部分会引发识别过程,这意味着它会尝试将“co”的组合识别为一个字母。

    两种可能的解决方案:

    1. 我不确定已经完成了哪些预处理步骤,但您需要进行一些阈值处理以去除图像上较浅的阴影(断开字符连接)。但是,您必须小心这一点,因为它可能会删除超出您想要的内容。

    2. 如果在此过程中的任何时候您有更高分辨率的图像,或非 jpeg/有损格式(即 png),请在执行其他处理步骤时保持此格式。尽量避免可能发生的任何有损压缩。听起来这些图像不是如上所示。这是最好的解决方案,因为您不会冒丢失太多数据的风险。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-10-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-07-23
      相关资源
      最近更新 更多