目标/标签数量未知的图像回归答案

【问题标题】：Image regression with unknown number of targets/labels目标/标签数量未知的图像回归
【发布时间】：2016-12-15 08:06:02
【问题描述】：

我的灰度图像上有未知频率的手写数字 (0-9)。

我正在尝试构建机器学习模型来确定：

每个数字的 x,y 坐标。
数字标签（即 0-9）。

示例

（我无法上传灰度图像，所以假设.表示“黑色背景”，数字代表自己）：

Image1:     Image2:     Image3:
7.......    .2......    ........
........    .....3..    ........
....1...    ........    ........
........    ....2...    ........

因此，让f 表示我们应该拥有的机器学习模型/功能：

f(Image1) = [ label0:[], f(Image2) = [ label0:[], f(Image3) = [ label0:[],
              label1:[(x=4,y=2)],      label1:[],               label1:[],
              label2:[],               label2:[(x=1,y=0),       label2:[],
                                               (x=1,y=3)],      
              label3:[],               label3:[(x=5,y=1)],      label3:[],
              label4:[],               label4:[],               label4:[],
              label5:[],               label5:[],               label5:[],
              label6:[],               label6:[],               label6:[],
              label7:[(x=0,y=0)],      label7:[],               label7:[],
              label8:[],               label8:[],               label8:[],
              label9:[],               label9:[],               label9:[],
             ]

我正在尝试使用 Keras 应用深度学习方法来同时解决这两个问题，但我很难设置我的标签，因为每个图像的标签数量未知。

任何人对如何为深度学习设置这样的问题有任何想法？我是否应该将问题分为 2 个阶段（定位然后分类 - 但定位问题仍然有未知数量的标签）？谢谢！

【问题讨论】：

标签： image regression deep-learning conv-neural-network keras

【解决方案1】：

你可以把这个问题分成两部分。

在第一部分中，您应该创建一种方法来检测图像中是否为数字。为此，您可以使用称为“滑动窗口”(watch this video by Andrew Ng explaining this method) 的方法。假设您有大小为 200x200 的图像，并且每个数字的大小约为 20x20。您可以创建一个大小为 20x20 的窗口，并且在每个迭代窗口中向右移动 20 像素（或更少/更多），如果窗口到达图像的右侧部分，它会移回左侧，并向下移动 20 像素（或更少/更多的）。每次移动窗口后，您都在裁剪图像，使用神经网络检查裁剪图像上是否有数字。如果有数字，则将窗口的 x、y 坐标和裁剪后的图像保存到图像的数组中。

第二部分应该很简单，将数字传递给确定数字标签的神经网络。

因此，您应该训练两个神经网络 - 一个用于检测图像上是否有数字，第二个用于确定数字的标签。

还有第二种在图像上查找数字的方法，您可以训练确定图像上的位数的神经网络（这可能很困难），然后使用k-means（您应该将簇数设置为位数你是从NN那里得到的）你可以找到数字的位置，如果它们不是太靠近的话。我在一个项目中做到了这一点，并且成功了，但是您应该拥有具有纯色背景的图像，并且您必须创建一个具有亮度超过某个阈值的像素位置的数组。

【讨论】：