【发布时间】:2014-12-26 02:20:26
【问题描述】:
我正在尝试 OCR 并从图像中提取电子邮件。图片应该有一行文本,即电子邮件地址。
我正在使用 EmguCV.OCR 从这些图像中提取文本(电子邮件地址)。目标是获得 100% 准确的结果。
我们可以固定文本的字体和大小。例如 Ariel, 12pt,这样所有的图像都会有用 Ariel 12pt 写的电子邮件,白底黑字。
问题是 EmguCV 中的 Tesseract OCR 无法正确识别文本。它只能准确识别 80% 的字符。
我正在使用 Leptonica 库进行预处理。
这里有一些我试图识别的示例图像。
有什么方法可以达到100%准确率的目标
【问题讨论】:
-
尽可能增加对比度并去除噪点,有更好的行距、字体大小和类型(*注意:如果自己看不清楚文字,不要指望得到一个100%
OCR结果,这也取决于您使用的软件或库)
标签: c# image-processing ocr tesseract emgucv