【发布时间】:2020-04-30 02:54:16
【问题描述】:
所以我知道 YOLO 对整个图像进行卷积,但我不确定为什么我们必须使用网格来检测多个对象(至少我读过的很多文章都这么说?)。如果网络可以设计为从 13*13 网格图像中的网格中检测多个对象,那应该意味着它可以从 1*1 大网格中检测多个对象?
【问题讨论】:
标签: object-detection yolo conv-neural-network darknet
所以我知道 YOLO 对整个图像进行卷积,但我不确定为什么我们必须使用网格来检测多个对象(至少我读过的很多文章都这么说?)。如果网络可以设计为从 13*13 网格图像中的网格中检测多个对象,那应该意味着它可以从 1*1 大网格中检测多个对象?
【问题讨论】:
标签: object-detection yolo conv-neural-network darknet
所以我认为这就是答案。如果我错了,请随时纠正我。
网格使我们能够检测 SAME 类的多个对象。假设它只有一个大网格,我们有 2 个类,输出将是一个包含 14 个数字的数组(第一类 7 个,第二类 7 个)。我们真的不能再有一组 7 个数字。而如果我们将图像划分为 SxS 网格,现在我们能够对 2 个类中的每一个进行最大 SxS 数量的对象预测。
我认为这就是为什么说 YOLO 难以将对象紧密地放在一组中的原因:因为如果网格大小不够小,那么一个网格中将有 2 个或多个相同对象类的中心点,但是你只会得到 1 个中心点预测。
【讨论】: