【问题标题】:Why does YOLO divide an image into grid cells?为什么 YOLO 将图像划分为网格单元?
【发布时间】:2020-06-20 23:49:40
【问题描述】:

我正在尝试了解 YOLO 如何为我正在做的项目工作。我浏览了论文、许多文章和博客文章,但我仍然不确定为什么 YOLO 将整个图像划分为一个网格单元并考虑每个单元进行计算。如果我们将整个图像视为一个细胞(不分裂)会发生什么?这个网格单元的目的是什么?特定细胞可以检测到的物体数量是否有上限?

【问题讨论】:

    标签: deep-learning object-detection yolo conv-neural-network


    【解决方案1】:

    网格单元将网络预测以更结构化的形式呈现。每个网格单元对应于图像的一个特定区域,这些单元预测其中心位于该区域中的对象。因此,利用图像的空间规则性优势具有结构化的输出表示。

    每个网格单元都可以对具有 [objectness_value, bbox_h, bbox_w, bbox_cx, bbox_cy, p1, p2, .. pn] 形式的向量进行预测。

    • objectness_value:预测的可信度
    • bbox_h、bbox_w、bbox_cx、bbox_cy:分别为边界框高度、宽度、x轴中心坐标和y轴中心坐标的偏移量。
    • p1, p2, ..pn:每个对象类别的预测类别概率。 (共 n 个对象)

    更多的网格单元意味着更多的预测。如果您有一个网格单元(图像本身),您将有一个边界框预测。这是不切实际的,因为图像中可能有很多对象。

    请注意,一个网格单元可以进行多个边界框预测,向输出向量添加更多的 bbox 偏移量。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-11-21
      • 2021-09-18
      • 1970-01-01
      • 1970-01-01
      • 2016-06-30
      • 1970-01-01
      • 1970-01-01
      • 2013-12-19
      相关资源
      最近更新 更多