经典的one-stage方法,把检测问题转化为回归问题,一个CNN就可以搞定,非常适合对视频进行实时检测。

核心思想

YOLO-V1

想要预测图像中的物体(狗、自行车、小汽车),先将输入图像转换为S*S的矩形方格,每个格子(图中红色框)都负责预测自己领域内的物体。

但是每个小格子可能并不知道预测的结果的形态,我们需要提供一些经验值(图中黄色框),但经验值可能并不是真实值,所以我们要对经验值通过CNN进行微调,让它预测的更加准确。

简单梳理一下:我们现在有了一个输入数据,然后把输入数据分成很多个小格子,之后每个小格子产生两种候选框,再后计算每个预选框跟真实值之间的IOU,谁的IOU比较大,则对谁进行微调。

预测的过程中对于每一个格子会计算出一个置信度(confidence),所以最后得到的结果中会有四个值(x, y, w, h, confidence),对于置信度比较小的可以直接过滤掉。

网络架构

相关文章: