【问题标题】:YOLO grids are used to detect multiple objects, then why not treat the whole image as a big grid?YOLO网格是用来检测多个物体的,那为什么不把整幅图像当成一个大网格呢?
【发布时间】:2020-04-30 02:54:16
【问题描述】:

所以我知道 YOLO 对整个图像进行卷积,但我不确定为什么我们必须使用网格来检测多个对象(至少我读过的很多文章都这么说?)。如果网络可以设计为从 13*13 网格图像中的网格中检测多个对象,那应该意味着它可以从 1*1 大网格中检测多个对象?

【问题讨论】:

    标签: object-detection yolo conv-neural-network darknet


    【解决方案1】:

    所以我认为这就是答案。如果我错了,请随时纠正我。

    网格使我们能够检测 SAME 类的多个对象。假设它只有一个大网格,我们有 2 个类,输出将是一个包含 14 个数字的数组(第一类 7 个,第二类 7 个)。我们真的不能再有一组 7 个数字。而如果我们将图像划分为 SxS 网格,现在我们能够对 2 个类中的每一个进行最大 SxS 数量的对象预测。

    我认为这就是为什么说 YOLO 难以将对象紧密地放在一组中的原因:因为如果网格大小不够小,那么一个网格中将有 2 个或多个相同对象类的中心点,但是你只会得到 1 个中心点预测。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-06-10
      • 2020-06-20
      • 1970-01-01
      • 1970-01-01
      • 2021-11-29
      • 2018-08-30
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多