提高低质量扫描图像的 OCR 质量答案

【问题标题】：improve the OCR quality of low quality scanned image提高低质量扫描图像的 OCR 质量
【发布时间】：2018-08-09 10:22:36
【问题描述】：

自动纠偏和裁剪后，我得到以下图像：

我需要对这张图片进行 OCR。目前 ABBYY Engine SDK 11 For Linux 产生的结果不是很好：

IMerasers - www,raiyirnieti'^C9,co;i,ni                                                          
Clariiis: Jv ocl'ca :PO 9ox 30998, S&M Luke C6y, UT 84":30                                       
Guslomei: Service:                                 952-945-800G or 800-952-3^55                  
Jieaf5ftg: impaired;                               VA                                            
Pharmaaisto:                                       853-364-6331                                  
Medica Pfovic.&s:                                  80 ;j-2i5S-55"',2 o ■ www.rfledica.cori       
^ofricai'or Services:                              86i-7<5-9920                                  
t1 ^edHoaiihca'Q Provicors; 6 77-842420 or                                                       
                                               ; mffiffiF********                               
Sviet iea Be tsvio a rieofift:                                                                  
Mocica Ca-linK frwso ,'ne: 430-962-9*9?

可以对该图像应用哪些自动图像预处理技术以提高 OCR 质量？或者无法提高此图像的 OCR 质量？现在我使用 OpenCV 和 Leptonica 库来预处理图像。

更新

这是原图：

【问题讨论】：

请发布您的原始输入图像？是什么格式的？它是 PDF 或 JPG 还是二进制压缩的 TIFF？如果是 PDF，您可以以更高的分辨率处理它，这会有所帮助。
@fmw42 我已经添加了原始输入图像
这个扫描真的是 jpg 并且质量非常低吗？如果是这样，我怀疑你可以改善你的结果。如果扫描的分辨率更高或为 PDF，则可能会有所改进。你能以更高的密度重新扫描吗？
以更高的密度从原纸副本重新扫描。扫描为 PDF 时，您可以设置阅读 PDF 并转换为光栅时的密度。这意味着您可以稍后从 PDF 中获得更高质量的光栅结果。无论哪种方式，最好以更高的密度进行扫描。大多数扫描仪允许您在扫描时设置密度。
最好尝试 PDF 扫描。有时最好从 PDF 中提取嵌入的图像。试试convert -density 300 image.pdf result.png。如果可行，或者将密度设置得更高，看看是否更好。由于有损压缩，最好不要保存为 JPG。所以保存为 PNG 或 TIFF。

标签： opencv image-processing imagemagick ocr leptonica

【解决方案1】：

图像已以相对较低的分辨率和噪声进行二值化。

你可以稍微改进一下

将分辨率提高一倍或三倍（有或没有双线性插值，差别不大）；
平滑（小高斯滤波器，中值...）；
再次二值化。

但是您几乎无法恢复，损害已经造成。很可能，预处理会使结果变差。

【讨论】：

【解决方案2】：

正如 Yves 所说，图像质量非常低。尽管如此，您应该能够改进您的结果：

尝试调整图像大小。一些 OCR 需要特定尺寸的字母
尝试使用其他 OCR，例如 tesseract
如果您必须阅读许多具有相同字体的文档，您可以使用该字体训练 OCR

【讨论】：

IMO，调整大小只会增加伤害。一些角色发生了不可挽回的改变。使用在相同条件下获得的字符进行训练是个好主意。
谢谢，我必须弄清楚是否可以针对特定字体训练 ABBYY Engine SDK，如果可以，它将如何影响 OCR 流程的其余部分......对于其他文档......