YOLOv1(You Only Look Once: Unified, Real-Time Object Detection)阅读笔记

YOLO的流程非常简单:
1. 将图片resize到448x448
2. 用一个神经网络训练
3. 通过Non-max suppression
YOLO的三个优点：
1. 速度快，在Titan X上跑达到45fps，小版本的更快
2. YOLO能够看到整张图片，不像R-CNN只是提取部分区域。在背景检测方面YOLO比区域提取算法更好。
3. YOLO在泛化方面做得更好，面对不是训练数据的分布时，更强。

把输入的图片分成SxS个格子(grid)。如果一个物体的中心落在这个格子，那么这个格子就负责检测这个物体。
每个格子预测B个边框，同时给每个边框带上置信分数(confidence scores)。置信分数反映了边框含有预测物体的可能性大小，以及这个预测的边框的准确度。通常，这个置信度(confident)定义为：
$Pr(Object) * IOU^{truth}_{pred}$ 。
也就是这个格子的分类概率乘于IOU。
每个预测出来的边框包含5个值： $x, y, w, h, confidence$ .其中 $(x,y)$ 代表边框的中心点， $x,y$ 的坐标是相对一个格子而言的； $(w,h)$ 代表边框的宽和高，注意这里是相对整张图片而言的；最后confidence代表预测边框和真实边框的的IOU。个人觉得这里论文讲得有点矛盾，前面说confidence是 $Pr(Object) * IOU^{truth}_{pred}$ ，现在又这样说。
每个格子单元同时预测C个类别的概率，也就是后验概率 $Pr(Class_i|Object)$ ,要注意的是，有多少类我们就预测多少个类别，不管有多少个边框B。这里的意思是，如果我们做10个类别的目标检测，那么就预测出10个类别的后验概率。

测试时，将每个预测类别的条件概率乘于每个边框的置信度：
$Pr(Class_i|Object) * Pr(Object) * IOU^{truth}_{pred} = Pr(Class_i) * IOU^{truth}_{pred}$ ,
这样就可以得出每个类别对应的边框的分数了。到这里作者就统一了，也就是置信度(confidence)是等于
$Pr(Object) * IOU^{truth}_{pred}$ 。
这是论文给的图片：

预训练：用前20层去预训练
检测任务通常需要细粒度(fine-grained)的图像信息，因此增加图片的分辨率到448x448，原来是224x224
为了归一化，所以将边框的w和h设置为相对整张图片的宽和高，这样w和h的值就能落到(0,1)了；同理将边框的x和y设置为相对格子单元也是为了归一化。
最后一层没用**函数，其他的都用了Leaky rectified lineage activation:
$\phi(x) = \begin{cases} x, & \text {if $x$ > 0}, \\0.1x, & \text {otherwise} \end{cases}$
loss function 如下：

具体训练参数还是到论文细看。

实时性很厉害，YOLO的实现还用了自己的框架，名字叫darknet,真的是厉害啊。有机会看看用pytorch或tensorflow实现的源码。