非平方图像作为 YOLOv3 的输入答案

【问题标题】：Non-squared image as input of YOLOv3非平方图像作为 YOLOv3 的输入
【发布时间】：2019-08-02 20:54:34
【问题描述】：

我正在尝试使用 yolov3 检测道路物体（非常小）。为此，我的数据集由大小为 3840x400 像素的图像组成。我目前使用的网络实现（ultralytics 1 的 pytorch 实现）将输入平方图像作为输入。例如，如果我通过它传递一个 3840x400 像素的图像并将 img_size 设置为 1000 像素，它会将图像的大小调整为 1000x400 像素，然后将其平方到 1000x1000 像素（将这 600 个剩余像素与黑色值进行信箱化，以便不改变高度方面）。大多数 CNN 的实现似乎都使用平方图像作为网络架构的输入。我的问题是：如果我手动将网络架构更改为非平方大小（例如 1000x400 像素），yolo 是否仍然有效。为什么艺术中的大多数 CNN 都使用平方图像？

【问题讨论】：

还有另一种技术，例如图像分割，但会比通常的平方目标检测器消耗更多功率

标签： deep-learning computer-vision conv-neural-network pytorch yolo

【解决方案1】：

如果您的所有数据集都由矩形组成，而不是正方形。例如3840x400.

与使用平方输入构建架构作为矩形输入相比，这是更好的方法。

在大多数 CNN 中使用平方图像的原因是“square is GENERAL”

有时，在人体姿态估计领域，他们不使用平方图像作为输入。他们使用矩形图像，例如192x256，因为几乎人都站在图像中。

【讨论】：