目标检测（Object detection）基础

文章目录

1. 目标定位
2. 特征点检测
3. 目标检测
4. 滑动窗口的卷积实现
5. Bounding Box预测
6. 交并比
7. 非极大值抑制
8.Anchor Boxes
9.YOLO算法
10.候选区域

1. 目标定位

目标检测（Object detection）基础
图片分类任务之前我们很熟悉了，本节学习定位分类问题。不仅仅要判断图片是不是一辆汽车，还要在图中标记其位置，后面还会讲多目标定位。

图片分类任务流程很熟悉，比如，输入一张图片到多层卷积神经网络，输出一个特征向量，然后反馈给softmax单元来预测图片类型。
如果构建一个自动驾驶系统（如上图），对象可能包括：行人、汽车、摩托车和背景。这四种分类就是softmax函数可能的输出结果。这是分类任务，如果我们让神经网络增加4个输出，标记为 $b_{x}, b_{y}, b_{h}, b_{w}$
这四个数字是被检测对象边界框的参数化表示。
notations:
左上角坐标(0,0)，右下角坐标(1,1)。
红色边框中心点(b_x,b_y)，边框高度b_n，宽度b_w。

训练集不经包括类别标签，还应该有这四个参数，通过监督学习方法，输出一个分类标签和四个参数值。
目标检测（Object detection）基础
$x=汽车图片$
$y=\left[\begin{array}{l}{p_{c}} \\ {b_{x}} \\ {b_{y}} \\ {b_{h}} \\ {c_{1}} \\ {c_{z}} \\ {c_{3}}\end{array}\right]$
上图对应的y见图中y向量。如果没有检测对象，训练样本pc=0，其余为问号（表示毫无意义）。

最后说一下神经网络的损失函数：（参数为类别y和输出y_bar）
采用平方误差策略：
$L(\hat{y}, y)=\left(\hat{y}_{1}-y_{1}\right)^{2}+\left(\hat{y}_{2}-y_{2}\right)^{2}+\cdots\left(\hat{y}_{8}-y_{8}\right)^{2}$
p_c不等于0，等于所有元素差值平方和；等于0的时候，只需关注p_c的准确度。
在实际应用中，对分类和边框使用不同的误差函数。分类p_c应用逻辑回归函数，对边界框坐标用平法差。