【问题标题】:Image regression with unknown number of targets/labels目标/标签数量未知的图像回归
【发布时间】:2016-12-15 08:06:02
【问题描述】:

我的灰度图像上有未知频率的手写数字 (0-9)。

我正在尝试构建机器学习模型来确定:

  1. 每个数字的 x,y 坐标。
  2. 数字标签(即 0-9)。

示例

(我无法上传灰度图像,所以假设.表示“黑色背景”,数字代表自己):

Image1:     Image2:     Image3:
7.......    .2......    ........
........    .....3..    ........
....1...    ........    ........
........    ....2...    ........

因此,让f 表示我们应该拥有的机器学习模型/功能:

f(Image1) = [ label0:[], f(Image2) = [ label0:[], f(Image3) = [ label0:[],
              label1:[(x=4,y=2)],      label1:[],               label1:[],
              label2:[],               label2:[(x=1,y=0),       label2:[],
                                               (x=1,y=3)],      
              label3:[],               label3:[(x=5,y=1)],      label3:[],
              label4:[],               label4:[],               label4:[],
              label5:[],               label5:[],               label5:[],
              label6:[],               label6:[],               label6:[],
              label7:[(x=0,y=0)],      label7:[],               label7:[],
              label8:[],               label8:[],               label8:[],
              label9:[],               label9:[],               label9:[],
             ]

我正在尝试使用 Keras 应用深度学习方法来同时解决这两个问题,但我很难设置我的标签,因为每个图像的标签数量未知。

任何人对如何为深度学习设置这样的问题有任何想法?我是否应该将问题分为 2 个阶段(定位然后分类 - 但定位问题仍然有未知数量的标签)?谢谢!

【问题讨论】:

    标签: image regression deep-learning conv-neural-network keras


    【解决方案1】:

    你可以把这个问题分成两部分。

    在第一部分中,您应该创建一种方法来检测图像中是否为数字。为此,您可以使用称为“滑动窗口”(watch this video by Andrew Ng explaining this method) 的方法。假设您有大小为 200x200 的图像,并且每个数字的大小约为 20x20。您可以创建一个大小为 20x20 的窗口,并且在每个迭代窗口中向右移动 20 像素(或更少/更多),如果窗口到达图像的右侧部分,它会移回左侧,并向下移动 20 像素(或更少/更多的)。每次移动窗口后,您都在裁剪图像,使用神经网络检查裁剪图像上是否有数字。如果有数字,则将窗口的 x、y 坐标和裁剪后的图像保存到图像的数组中。

    第二部分应该很简单,将数字传递给确定数字标签的神经网络。

    因此,您应该训练两个神经网络 - 一个用于检测图像上是否有数字,第二个用于确定数字的标签。

    还有第二种在图像上查找数字的方法,您可以训练确定图像上的位数的神经网络(这可能很困难),然后使用k-means(您应该将簇数设置为位数你是从NN那里得到的)你可以找到数字的位置,如果它们不是太靠近的话。我在一个项目中做到了这一点,并且成功了,但是您应该拥有具有纯色背景的图像,并且您必须创建一个具有亮度超过某个阈值的像素位置的数组。

    【讨论】:

      猜你喜欢
      • 2019-10-10
      • 2018-12-05
      • 2020-11-22
      • 2018-03-16
      • 1970-01-01
      • 1970-01-01
      • 2017-02-27
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多