【发布时间】:2022-01-17 01:05:18
【问题描述】:
我正在为 tesseract-ocr测试各种 Python 图像预处理管道。
我的输入数据是各种质量的 pdf 发票和收据,从扫描文档(最好)到手机提供的在光线不足的情况下拍摄的照片(最差),以及介于两者之间的所有内容。在为 OCR 执行手动扫描时,我通常会在几个扫描预设(不锐化蒙版、边缘填充、颜色增强、伽玛)中进行选择。我正在考虑在 Python 管道中实现类似的解决方案。
我了解 OCR 质量 的标准衡量标准是 Levenshtein(编辑距离),它是衡量结果与实际情况相比的质量。
我追求的是图像处理效果对 OCR 结果质量的测量。例如,在这篇论文Prediction of OCR Accuracy 中,作者描述了至少两个测量White Speckle Factor (WSF) 和Broken Character Factor (BCF)。我读过的其他描述符包括椒盐噪声和异常像素。
我在这里解决了 200 个近 4k tesseract 标记的问题。很有意思。大多数问题都是这样的类型,我有这种图像,我该如何改进 OCR 结果。目前还没有关于测量图像处理对 OCR 结果的影响。
Dirty Image Quality Assesment Measure 是一个奇怪的问题,但问题并不集中在 OCR 上,而且解决方案似乎有点矫枉过正。
【问题讨论】:
标签: python tesseract image-preprocessing