Faster R-CNN:使用区域建议网络进行实时目标检测

1、Introduction

一个RPN是一个全卷积网络同时预测每个位置的对象分数和对象边界。On top of these conv features(除了这些卷积特征)，我们建立一个RPNs通过增加两个额外的卷积层，一个是编码每个卷积图的位置转换成一个短的特征向量（例如256维），另一个在每一个卷积图的位置，输出一个目标分数和回归k个（k=9）区域建议框参数化坐标（坐标偏移量）和不同的尺度和比率相关。

这个方案迅速收敛通过产生统一RPNs和Fast R-CNN网络, 两个任务输入为一个共享卷积层Feature Map，如下图来自于https://zhuanlan.zhihu.com/p/31426458

Faster R-CNN:使用区域建议网络进行实时目标检测

3、Region Proposal Networks

一个RPN利用一张任意尺寸的图片作为输入，输出一系列的目标建议框，每个框有一个目标分数。通过在Feautere Map滑动窗口生成区域建议框

Faster R-CNN:使用区域建议网络进行实时目标检测

Translation-Invariant Anchors（转移传输不变性，多尺度输入）

每个滑动窗口位置预测k个建议框，cls有2k个分数，2对应前景和背景，reg有4k个输出，对应k个框的坐标。

为了解决多尺度问题，学习k个边界框回归，不分享权重，保持预测框的多种尺寸。

A Loss Function for learning region proposals

正样本 Faster R-CNN:使用区域建议网络进行实时目标检测 ,负样本,其他anchors不参与训练。

多任务损失函数： Faster R-CNN:使用区域建议网络进行实时目标检测（1）

Faster R-CNN:使用区域建议网络进行实时目标检测（2）

Faster R-CNN:使用区域建议网络进行实时目标检测（3）

（1）分类加损失，分类256一个min-batch，一张图产生2400个anchors, Faster R-CNN:使用区域建议网络进行实时目标检测 =2400，归一化后=10，（2）中R为smoothL1损失函数（3），分类损失函数为逻辑回归，pi为预测值，pi*为真实标签，正样本为1，负样本为0，回归损失函数中当为负样本pi*为0，ti是一个向量代表输出框的参数化坐标，ti*是GT框和正样本anchor对应的坐标值。

在回归任务中，将4个坐标参数化：

Faster R-CNN:使用区域建议网络进行实时目标检测（4）

x,xa,x*,分别代表预测框，anchor框坐标值，GT框坐标，y,w,h也一样。所以回归网络 Faster R-CNN:使用区域建议网络进行实时目标检测输出的object框的偏移量，并非框的坐标值,通过回归校正框的坐标。