如何 OCR 电子邮件地址答案

【问题标题】：How to OCR email address如何 OCR 电子邮件地址
【发布时间】：2014-12-26 02:20:26
【问题描述】：

我正在尝试 OCR 并从图像中提取电子邮件。图片应该有一行文本，即电子邮件地址。

我正在使用 EmguCV.OCR 从这些图像中提取文本（电子邮件地址）。目标是获得 100% 准确的结果。

我们可以固定文本的字体和大小。例如 Ariel, 12pt，这样所有的图像都会有用 Ariel 12pt 写的电子邮件，白底黑字。

问题是 EmguCV 中的 Tesseract OCR 无法正确识别文本。它只能准确识别 80% 的字符。

我正在使用 Leptonica 库进行预处理。

这里有一些我试图识别的示例图像。

有什么方法可以达到100%准确率的目标

【问题讨论】：

尽可能增加对比度并去除噪点，有更好的行距、字体大小和类型（*注意：如果自己看不清楚文字，不要指望得到一个100% OCR 结果，这也取决于您使用的软件或库）

标签： c# image-processing ocr tesseract emgucv

【解决方案1】：

我尝试使用 ABBYY Cloud OCR SDK 识别您的图像，并获得了 100% 的准确率。您可以使用Demo Tool 来确保识别的准确性。

我在 ABBYY 工作，如果您需要，可以为您提供有关我们技术的更多信息。

【讨论】：

【解决方案2】：

通过这些示例图片，我可以提出两种解决同一问题的方法。在这些图像中存在 JPEG 伪影 (the result of lossy compression)。正因为如此，字母变得相互连接（在程序中放大图像，您可以在其中看到实际像素，Windows 照片查看器对我来说效果很好）。 TesseractOCR 依靠字母之间的间距（它使用连接的组件）来进行字符识别。有任何连接的部分会引发识别过程，这意味着它会尝试将“co”的组合识别为一个字母。

两种可能的解决方案：

我不确定已经完成了哪些预处理步骤，但您需要进行一些阈值处理以去除图像上较浅的阴影（断开字符连接）。但是，您必须小心这一点，因为它可能会删除超出您想要的内容。
如果在此过程中的任何时候您有更高分辨率的图像，或非 jpeg/有损格式（即 png），请在执行其他处理步骤时保持此格式。尽量避免可能发生的任何有损压缩。听起来这些图像不是如上所示。这是最好的解决方案，因为您不会冒丢失太多数据的风险。

【讨论】：