YOLO网格是用来检测多个物体的，那为什么不把整幅图像当成一个大网格呢？

【问题标题】：YOLO grids are used to detect multiple objects, then why not treat the whole image as a big grid?YOLO网格是用来检测多个物体的，那为什么不把整幅图像当成一个大网格呢？
【发布时间】：2020-04-30 02:54:16
【问题描述】：

所以我知道 YOLO 对整个图像进行卷积，但我不确定为什么我们必须使用网格来检测多个对象（至少我读过的很多文章都这么说？）。如果网络可以设计为从 13*13 网格图像中的网格中检测多个对象，那应该意味着它可以从 1*1 大网格中检测多个对象？

【问题讨论】：

标签： object-detection yolo conv-neural-network darknet

【解决方案1】：

所以我认为这就是答案。如果我错了，请随时纠正我。

网格使我们能够检测 SAME 类的多个对象。假设它只有一个大网格，我们有 2 个类，输出将是一个包含 14 个数字的数组（第一类 7 个，第二类 7 个）。我们真的不能再有一组 7 个数字。而如果我们将图像划分为 SxS 网格，现在我们能够对 2 个类中的每一个进行最大 SxS 数量的对象预测。

我认为这就是为什么说 YOLO 难以将对象紧密地放在一组中的原因：因为如果网格大小不够小，那么一个网格中将有 2 个或多个相同对象类的中心点，但是你只会得到 1 个中心点预测。

【讨论】：