图像分类+定位答案

【问题标题】：Image Classification+localization图像分类+定位
【发布时间】：2020-12-22 23:06:11
【问题描述】：

我正在研究一个图像分类问题，我的目标是创建一个模型，我可以在其中输入图像、它的类和边界框的值（x_min、y_min、x_max、y_max）。到目前为止，我只使用 ImageDataGenerator 加载图像的图像检测，所以这对我来说是新事物。

在 Aurélien Géron 的 Hands-on Machine Learning with Scikit-Learn,Keras & TensorFlow 一书中，他简要提到了图像分类和本地化，并提供了一个示例模型。

 base_model =keras.applications.xception.Xception(weights="imagenet",include_top=False)
 avg = keras.layers.GlobalAveragePooling2D()(base_model.output)
 class_output = keras.layers.Dense(n_classes, activation="softmax")(avg)
 loc_output = keras.layers.Dense(4)(avg)
 model = keras.Model(inputs=base_model.input, outputs=[class_output, loc_output])
 model.compile(loss=["sparse_categorical_crossentropy", "mse"], loss_weights=[0.8, 0.2],  optimizer='adam', metrics=["accuracy"])

他还提到数据应该是元组的形式

(images, (class_labels, bounding_boxes))

但据我所知，keras 只接受数组形式的数据。因此，如果有人可以帮助我理解应该如何设计模型以及应该如何向模型提供输入以获取图像的类别和边界框的值作为输出。

【问题讨论】：

我推荐使用 tfrecord。这是一个带有教程链接的 SO 问题和答案：stackoverflow.com/questions/62475410/…

标签： python tensorflow keras image-classification

【解决方案1】：

令输入数据为图像，目标值为4个坐标即边界框坐标

【讨论】：