【发布时间】:2019-12-06 01:04:38
【问题描述】:
我正在为 tesseract 的 ocr 处理图像。我需要在不损坏文本的情况下消除背景噪音的帮助。
输入图像示例
我尝试过中值模糊和删除小的连接组件 (How do I remove the dots / noise without damaging the text?)。连接组件的问题是噪声可能有更大的连接,如果不删除减号,我就无法摆脱它。有什么建议如何前进吗?
【问题讨论】:
-
您可以尝试应用开放形态变换:腐蚀后膨胀,使用中间行为 1,顶部和底部为 0 的内核(不会删除减号,因为变换是“水平应用”)。阅读:opencv-python-tutroals.readthedocs.io/en/latest/py_tutorials/…
-
尝试不同的内核大小。例如 5x5、7x7、9x9
-
感谢您的快速回复!我找到了一种使用腐蚀然后删除小的连接组件的方法
标签: python image opencv image-processing tesseract