【问题标题】:How To Customize Tesseract Ignores Noise?如何自定义 Tesseract 忽略噪声?
【发布时间】:2013-03-29 13:37:34
【问题描述】:

我有这样的图像(白色背景和黑色文本)。如果没有噪音(如你所见:数字线的顶部和底部有很多噪音),Tesseract 可以很好地识别数字。

但是当有噪音时,Tesseract 会尝试将其识别为数字并在结果中添加更多数字。这真的很糟糕。如何使 Tesseract 忽略噪声?我无法制作预处理图像以使其更具对比度或清晰的文本。这没有任何帮助。

如果某些工具可以仅突出显示字符串行。这对 Tesseract 来说是非常好的输入。请帮我。谢谢大家。

【问题讨论】:

    标签: c# opencv character ocr tesseract


    【解决方案1】:

    你应该试试eroding and dilating:

    最基本的形态学操作有两种:腐蚀和膨胀。 它们有广泛的用途,即:

    去除噪音

    ...

    【讨论】:

      【解决方案2】:

      您可以尝试对您的二进制图像进行下采样并再次对其进行采样(pyrDownPyrUp),或者您可以尝试使用高斯模糊对您的图像进行smooth。而且,正如已经建议的那样,erodedilate 你的图片。

      【讨论】:

        【解决方案3】:

        我看到 3 个解决方案可以解决您的问题:

        1. 正如已经建议的那样 - 尝试使用 erodedilate 或某种模糊。这是最简单的解决方案。
        2. 查找所有轮廓(findContours 函数),然后删除面积小于某个值的所有轮廓(尝试不同的值,您应该很快找到正确的值)。请注意,该值可能不是恒定的 - 例如,您可以尝试使用 80% 的平均轮廓区域(只需将所有轮廓区域相加,除以轮廓数量并乘以 0.8)。
        3. 查找所有轮廓。创建一维整数数组,长度等于图像高度。用零填充数组。现在对于每个轮廓:
          I. 找到最高点和最低点(y坐标最大和最小值的点)。让我们将此点命名为 TB
          二、将索引在B.yT.y 之间的数组的所有元素加一。 (因此,如果 B = (1, 4) 且 T = (3, 11) 则将 1 添加到数组 [4]、数组 [5]、数组 [6] ...、数组 [11])。
          找到数组的最大元素。让我们将此值命名为vB.y <= v <= T.y 应为字母的所有轮廓,其他轮廓 - 噪声。

        【讨论】:

          【解决方案4】:

          进行连通分量标记....即斑点计数..所有剂量噪声永远无法匹配数字的大小..使用形态学技术,数字也会被修改...标记图像.. . 计算每个标记区域中的像素数并设置阈值(您可以轻松设置,因为您只会有数字和噪声)...cvblob 是用 C++ 编写的库,可在代码 googles...

          【讨论】:

            【解决方案5】:

            您可以使用图像处理技术(腐蚀和扩张等形态学操作)轻松去除这些噪声,您可以选择 opencv 进行此操作。

            【讨论】:

              【解决方案6】:

              我有类似的问题:小噪音是 tesseract 失败的原因。我不能使用 open-cv,因为我在 android 上开发了一些功能,而 open-cv 是不需要的,因为它很大。我不知道这个解决方案是否好,但这是我所做的。

              我在图像中找到了所有黑色区域(我添加到自己的区域集的每个区域的点)。然后,我检查该区域中的点数是否大于某个阈值,例如 10、25 和 50。如果为真,我将该区域的所有点设为白色。

              【讨论】:

                猜你喜欢
                • 2022-01-06
                • 2021-11-15
                • 2011-03-31
                • 1970-01-01
                • 2019-09-23
                • 2010-09-10
                • 1970-01-01
                • 2021-10-09
                • 1970-01-01
                相关资源
                最近更新 更多