【发布时间】:2011-12-30 18:52:16
【问题描述】:
我正在开展一个自动处理扫描发票的项目。为了获得更好的 OCR 引擎结果,我想首先从图像中去除噪声。除了划痕,我还想删除打印后添加到文档中的任何内容。许多发票,例如被勾选,有时它会使部分发票无法通过 OCR 读取。
例如查看this 图像。第二项的描述将无法阅读,我想像这样删除“噪音”。
那么,我怎样才能在删除这样的手写区域的同时仍然保持下面的打印文本的高质量呢?
【问题讨论】:
-
祝你好运,真的是一项艰巨的任务,可能是你可以检查字符和其他可能的输入模式并删除额外的数据,或者通过morphology在启动时删除一些噪音,但很难做到全部。
-
这很难。对于您的客户/客户/雇主来说,最好先使用数字化处理的发票,这样您就不会遇到这个问题,或者使用带有条形码的发票。
标签: algorithm language-agnostic image-processing noise