YOLO-V1 - 爱码网

经典的one-stage方法，把检测问题转化为回归问题，一个CNN就可以搞定，非常适合对视频进行实时检测。

YOLO-V1

想要预测图像中的物体（狗、自行车、小汽车），先将输入图像转换为S*S的矩形方格，每个格子（图中红色框）都负责预测自己领域内的物体。

但是每个小格子可能并不知道预测的结果的形态，我们需要提供一些经验值（图中黄色框），但经验值可能并不是真实值，所以我们要对经验值通过CNN进行微调，让它预测的更加准确。

简单梳理一下：我们现在有了一个输入数据，然后把输入数据分成很多个小格子，之后每个小格子产生两种候选框，再后计算每个预选框跟真实值之间的IOU，谁的IOU比较大，则对谁进行微调。

预测的过程中对于每一个格子会计算出一个置信度（confidence），所以最后得到的结果中会有四个值（x, y, w, h, confidence），对于置信度比较小的可以直接过滤掉。