【发布时间】:2018-08-09 10:22:36
【问题描述】:
自动纠偏和裁剪后,我得到以下图像:
我需要对这张图片进行 OCR。目前 ABBYY Engine SDK 11 For Linux 产生的结果不是很好:
IMerasers - www,raiyirnieti'^C9,co;i,ni
Clariiis: Jv ocl'ca :PO 9ox 30998, S&M Luke C6y, UT 84":30
Guslomei: Service: 952-945-800G or 800-952-3^55
Jieaf5ftg: impaired; VA
Pharmaaisto: 853-364-6331
Medica Pfovic.&s: 80 ;j-2i5S-55"',2 o ■ www.rfledica.cori
^ofricai'or Services: 86i-7<5-9920
t1 ^edHoaiihca'Q Provicors; 6 77-842420 or
; mffiffiF********
Sviet iea Be tsvio a rieofift:
Mocica Ca-linK frwso ,'ne: 430-962-9*9?
可以对该图像应用哪些自动图像预处理技术以提高 OCR 质量?或者无法提高此图像的 OCR 质量?现在我使用 OpenCV 和 Leptonica 库来预处理图像。
更新
这是原图:
【问题讨论】:
-
请发布您的原始输入图像?是什么格式的?它是 PDF 或 JPG 还是二进制压缩的 TIFF?如果是 PDF,您可以以更高的分辨率处理它,这会有所帮助。
-
@fmw42 我已经添加了原始输入图像
-
这个扫描真的是 jpg 并且质量非常低吗?如果是这样,我怀疑你可以改善你的结果。如果扫描的分辨率更高或为 PDF,则可能会有所改进。你能以更高的密度重新扫描吗?
-
以更高的密度从原纸副本重新扫描。扫描为 PDF 时,您可以设置阅读 PDF 并转换为光栅时的密度。这意味着您可以稍后从 PDF 中获得更高质量的光栅结果。无论哪种方式,最好以更高的密度进行扫描。大多数扫描仪允许您在扫描时设置密度。
-
最好尝试 PDF 扫描。有时最好从 PDF 中提取嵌入的图像。试试
convert -density 300 image.pdf result.png。如果可行,或者将密度设置得更高,看看是否更好。由于有损压缩,最好不要保存为 JPG。所以保存为 PNG 或 TIFF。
标签: opencv image-processing imagemagick ocr leptonica