1、Introduction

一个RPN是一个全卷积网络同时预测每个位置的对象分数和对象边界。On top of these conv features(除了这些卷积特征),我们建立一个RPNs通过增加两个额外的卷积层,一个是编码每个卷积图的位置转换成一个短的特征向量(例如256维),另一个在每一个卷积图的位置,输出一个目标分数和回归k个(k=9)区域建议框参数化坐标(坐标偏移量)和不同的尺度和比率相关。

                                Faster R-CNN:使用区域建议网络进行实时目标检测

这个方案迅速收敛通过产生统一RPNs和Fast R-CNN网络, 两个任务输入为一个共享卷积层Feature Map,如下图来自于https://zhuanlan.zhihu.com/p/31426458

Faster R-CNN:使用区域建议网络进行实时目标检测

 

3、Region Proposal Networks

一个RPN利用一张任意尺寸的图片作为输入,输出一系列的目标建议框,每个框有一个目标分数。通过在Feautere Map滑动窗口生成区域建议框

Faster R-CNN:使用区域建议网络进行实时目标检测

Translation-Invariant Anchors(转移传输不变性,多尺度输入)

每个滑动窗口位置预测k个建议框,cls有2k个分数,2对应前景和背景,reg有4k个输出,对应k个框的坐标。

为了解决多尺度问题,学习k个边界框回归,不分享权重,保持预测框的多种尺寸。

A Loss Function for learning region proposals

正样本Faster R-CNN:使用区域建议网络进行实时目标检测,负样本Faster R-CNN:使用区域建议网络进行实时目标检测,其他anchors不参与训练。

多任务损失函数:Faster R-CNN:使用区域建议网络进行实时目标检测(1)

Faster R-CNN:使用区域建议网络进行实时目标检测                                                                                                              (2)

Faster R-CNN:使用区域建议网络进行实时目标检测                                                       (3)

(1)分类加损失,分类256一个min-batch,一张图产生2400个anchors,Faster R-CNN:使用区域建议网络进行实时目标检测=2400,归一化后Faster R-CNN:使用区域建议网络进行实时目标检测=10,(2)中R为smoothL1损失函数(3),分类损失函数为逻辑回归,pi为预测值,pi*为真实标签,正样本为1,负样本为0,回归损失函数中当为负样本pi*为0,ti是一个向量代表输出框的参数化坐标,ti*是GT框和正样本anchor对应的坐标值。

在回归任务中,将4个坐标参数化:

Faster R-CNN:使用区域建议网络进行实时目标检测(4)

x,xa,x*,分别代表预测框,anchor框坐标值,GT框坐标,y,w,h也一样。所以回归网络Faster R-CNN:使用区域建议网络进行实时目标检测输出的object框的偏移量,并非框的坐标值,通过回归校正框的坐标。

 

相关文章: