【发布时间】:2011-09-28 10:38:33
【问题描述】:
我使用 emgu 和 c# 来读取图像中的车牌。在边缘检测之后,我想找到其中每个字符的边界框并使用神经网络来识别字符。我该怎么做? 谢谢
【问题讨论】:
我使用 emgu 和 c# 来读取图像中的车牌。在边缘检测之后,我想找到其中每个字符的边界框并使用神经网络来识别字符。我该怎么做? 谢谢
【问题讨论】:
既然可以检测车牌,最简单的方法就是寻找分割线。恐怕我只能从谷歌图片中推测伊朗车牌(如果这是你使用的)但是在每个字母之后都有一个中断和一个白色或黄色区域。
查找单个字母的边界框:
您可以查看列的总和以及黄色或白色峰值的位置,并将其作为分界点。或者您可以仅对黑色成分或文字进行求和,在理想情况下,您将从 0 开始找到黑色成分,然后返回计数为 0 并得到您的字母。这里可能需要一些适应性统计。
[编辑] 从图像中分割车牌。首先查看每列的总和,您会注意到 255 * 车牌图像高度的峰值。使用它作为你的阈值,找到这些峰值的中间,你就有了表示字母边缘的点。您可以使用这些数据分割您的图像。
现在峰值可能很难在统计上可靠地分割,它们不应该,但以防万一。反转您的图像,使您的白色为黑色,黑色为白色。在这种情况下再次取列的总和,峰值是字母的位置,现在您寻找从 0 到 >1 的变化,然后等到再次找到 0。记录发生这种情况的 x 位置将为您提供字母位置。如果需要,我会给你列总和的代码,但谷歌也会有你的答案,所需的统计数据都是你的,只需翻译步骤。
另一种方法
将图像划分为单独的正方形或区域以及学生最喜欢的另一种方法是简单地在车牌上扫描蒙版。因此,您将第一个 ROI 输入神经网络 (NN),例如 (0,0,100,100),然后沿 y 轴 (0,1,100,100) 移动一个。您继续此操作,直到您读入所有数据。很明显,神经网络可能会过度检测,因为它可以对同一个字母进行多次分类,所以当你对一个字母进行分类时,你总是可以跳跃 20 个像素左右来消除错误的分类。
显然,您需要减小车牌图像的大小以使此方法更快。我已经看到使用 9 x 9 数组的准确 OCR,但是您将需要更大的使用量,您最好判断 20x20 应该就足够了,但请看一看。
[编辑] 效率
哪个更好?这得看情况。它们都可以工作(取决于 NN 训练),但是找到单个字母的边界框所涉及的方法可能很难可靠地设置。将所有数据输入 NN 的掩码扫描通常非常可靠,但效率可能非常低。如果您使用 20*20 的图像,将 400 个数据点输入 NN,并且您必须乘以车牌宽度 -20。这将为您提供循环中的最大迭代次数。
NN 可能需要很长时间来训练,但也需要处理大量数据(取决于 NN)。分割每个字母的方法更有效,因为您在 NN 上的工作量确实更少,并且可以将更准确的数据输入到您的 NN 中。
您面临的问题是,如果您使用 EMGU OCR 识别中已经内置的 OCR 引擎非常快。正如您将在 EMGU 示例中看到的那样,确定最佳方法的唯一方法是编写并比较所有 3 种方法。如果您只需要一个可以工作的,那么使用 NN 并在其中获得一个匹配说明,作为您的字母 ROI,因为您仍然会知道沿车牌的 X 位置。
很抱歉,我无法更直接地回答哪个最好,但有两个因素可能会影响事情。
我希望其中一些方法有所帮助,
非常感谢 克里斯
【讨论】: