【问题标题】:improve the OCR quality of low quality scanned image提高低质量扫描图像的 OCR 质量
【发布时间】:2018-08-09 10:22:36
【问题描述】:

自动纠偏和裁剪后,我得到以下图像:

我需要对这张图片进行 OCR。目前 ABBYY Engine SDK 11 For Linux 产生的结果不是很好:

IMerasers - www,raiyirnieti'^C9,co;i,ni                                                          
Clariiis: Jv ocl'ca :PO 9ox 30998, S&M Luke C6y, UT 84":30                                       
Guslomei: Service:                                 952-945-800G or 800-952-3^55                  
Jieaf5ftg: impaired;                               VA                                            
Pharmaaisto:                                       853-364-6331                                  
Medica Pfovic.&s:                                  80 ;j-2i5S-55"',2 o ■ www.rfledica.cori       
^ofricai'or Services:                              86i-7<5-9920                                  
t1 ^edHoaiihca'Q Provicors; 6 77-842420 or                                                       
                                               ; mffiffiF********                               
Sviet iea Be tsvio a rieofift:                                                                  
Mocica Ca-linK frwso ,'ne: 430-962-9*9?    

可以对该图像应用哪些自动图像预处理技术以提高 OCR 质量?或者无法提高此图像的 OCR 质量?现在我使用 OpenCV 和 Leptonica 库来预处理图像。

更新

这是原图:

【问题讨论】:

  • 请发布您的原始输入图像?是什么格式的?它是 PDF 或 JPG 还是二进制压缩的 TIFF?如果是 PDF,您可以以更高的分辨率处理它,这会有所帮助。
  • @fmw42 我已经添加了原始输入图像
  • 这个扫描真的是 jpg 并且质量非常低吗?如果是这样,我怀疑你可以改善你的结果。如果扫描的分辨率更高或为 PDF,则可能会有所改进。你能以更高的密度重新扫描吗?
  • 以更高的密度从原纸副本重新扫描。扫描为 PDF 时,您可以设置阅读 PDF 并转换为光栅时的密度。这意味着您可以稍后从 PDF 中获得更高质量的光栅结果。无论哪种方式,最好以更高的密度进行扫描。大多数扫描仪允许您在扫描时设置密度。
  • 最好尝试 PDF 扫描。有时最好从 PDF 中提取嵌入的图像。试试convert -density 300 image.pdf result.png。如果可行,或者将密度设置得更高,看看是否更好。由于有损压缩,最好不要保存为 JPG。所以保存为 PNG 或 TIFF。

标签: opencv image-processing imagemagick ocr leptonica


【解决方案1】:

图像已以相对较低的分辨率和噪声进行二值化。

你可以稍微改进一下

  • 将分辨率提高一倍或三倍(有或没有双线性插值,差别不大);

  • 平滑(小高斯滤波器,中值...);

  • 再次二值化。

但是您几乎无法恢复,损害已经造成。很可能,预处理会使结果变差。

【讨论】:

    【解决方案2】:

    正如 Yves 所说,图像质量非常低。尽管如此,您应该能够改进您的结果:

    • 尝试调整图像大小。一些 OCR 需要特定尺寸的字母
    • 尝试使用其他 OCR,例如 tesseract
    • 如果您必须阅读许多具有相同字体的文档,您可以使用该字体训练 OCR

    【讨论】:

    • IMO,调整大小只会增加伤害。一些角色发生了不可挽回的改变。使用在相同条件下获得的字符进行训练是个好主意。
    • 谢谢,我必须弄清楚是否可以针对特定字体训练 ABBYY Engine SDK,如果可以,它将如何影响 OCR 流程的其余部分......对于其他文档......
    猜你喜欢
    • 1970-01-01
    • 2018-02-11
    • 2016-11-14
    • 1970-01-01
    • 1970-01-01
    • 2011-10-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多