DCN和DCNv2（可变性卷积）学习笔记（原理代码实现方式）

DCN和DCNv2（可变性卷积）

网上关于两篇文章的详细描述已经很多了，我这里具体的细节就不多讲了，只说一下其中实现起来比较困惑的点。（黑体字会讲解）

DCNv1解决的问题就是我们常规的图像增强，仿射变换（线性变换加平移）不能解决的多种形式目标变换的几何变换的问题。如下图所示。
DCN和DCNv2（可变性卷积）学习笔记（原理代码实现方式）
可变性卷积的思想很简单，就是讲原来固定形状的卷积核变成可变的。如下图所示：

首先来看普通卷积，以3x3卷积为例对于每个输出y(p0)，都要从x上采样9个位置，这9个位置都在中心位置x(p0)向四周扩散得到的gird形状上，(-1,-1)代表x(p0)的左上角，(1,1)代表x(p0)的右下角，其他类似。
DCN和DCNv2（可变性卷积）学习笔记（原理代码实现方式）
用公式表示如下：

可变性卷积Deformable Conv操作并没有改变卷积的计算操作，而是在卷积操作的作用区域上，加入了一个可学习的参数∆pn。同样对于每个输出y(p0)，都要从x上采样9个位置，这9个位置是中心位置x(p0)向四周扩散得到的，但是多了 ∆pn，允许采样点扩散成非gird形状。
DCN和DCNv2（可变性卷积）学习笔记（原理代码实现方式）

偏移量是通过对原始特征层进行卷积得到的。比如输入特征层是w×h×c，先对输入的特征层进行卷积操作，得到w×h×2c的offset field。这里的w和h和原始特征层的w和h是一致的，offset field里面的值是输入特征层对应位置的偏移量，偏移量有x和y两个方向，所以offset field的channel数是2c。offset field里的偏移量是卷积得到的，可能是浮点数，所以接下来需要通过双向性插值计算偏移位置的特征值。在偏移量的学习中，梯度是通过双线性插值来进行反向传播的。
看到这里是不是还是有点迷茫呢？那到底程序上面怎么实现呢？
事实上由上面的公式我们可以看得出来∆pn这个偏移量是加在原像素点上的，但是我们怎么样从代码上对原像素点加这个量呢？其实很简单，就是用一个普通的卷积核去跟输入图片（一般是输入的feature_map）卷积就可以了卷积核的数量是2N也就是23*3==18（前9个通道是x方向的偏移量，后9个是y方向的偏移量），然后把这个卷积的结果与正常卷积的结果进行相加就可以了。
然后又有了第二个问题，怎么样反向传播呢？为什么会有这个问题呢？因为求出来的偏移量+正常卷积输出的结果往往是一个浮点数，浮点数是无法对应到原图的像素点的，所以自然就想到了双线性差值的方法求出浮点数对应的浮点像素点。（这个跟roi-align的技巧相似，可以去看看这两篇文章
）
了解了这个以后下面就简单了。
可变形RoI池化。
DCN和DCNv2（可变性卷积）学习笔记（原理代码实现方式）

DCN v2
对于positive的样本来说，采样的特征应该focus在RoI内，如果特征中包含了过多超出RoI的内容，那么结果会受到影响和干扰。而negative样本则恰恰相反，引入一些超出RoI的特征有助于帮助网络判别这个区域是背景区域。

DCNv1引入了可变形卷积，能更好的适应目标的几何变换。但是v1可视化结果显示其感受野对应位置超出了目标范围，导致特征不受图像内容影响（理想情况是所有的对应位置分布在目标范围以内）。

为了解决该问题：提出v2, 主要有

1、扩展可变形卷积，增强建模能力
2、提出了特征模拟方案指导网络培训：feature mimicking scheme

上面这段话是什么意思呢，通俗来讲就是，我们的可变性卷积的区域大于目标所在区域，所以这时候就会对非目标区域进行错误识别。

所以自然能想到的解决方案就是加入权重项进行惩罚。（至于这个实现起来就比较简单了，直接初始化一个权重然后乘(input+offsets)就可以了）
DCN和DCNv2（可变性卷积）学习笔记（原理代码实现方式）
可调节的RoIpooling也是类似的，公式如下：

R-CNN Feature Mimicking
作者发现对于RoI分类时，普通CNN或者DCN V1的错误边界显著性区域都会延伸到RoI之外，于是与RoI不相关的图像内容就会影响RoI特征的提取，从而可能影响目标检测的结果。不过R-CNN在进行分类时，结果完全是依赖于RoI的，因为R-CNN的分类branch的输入就RoI的cropped image。
R-CNN是通过select-search得到的roi然后输入到网络中得出每一个roi的feature-map，faster-rcnn是整张图片输进去得到feature-map通过rpn得出rois。
DCN和DCNv2（可变性卷积）学习笔记（原理代码实现方式）
采用了类似知识蒸馏的方法，用一个R-CNN分类网络作为teacher network 帮助Faster R-CNN更好收敛到目标区域内。

得到RoI之后，在原图中抠出这个RoI，resize到224x224，再送到一个R-CNN中进行分类，这个R-CNN只分类，不回归。然后，主网络fc2的特征去模仿R-CNN fc2的特征，实际上就是两者算一个余弦相似度，1减去相似度作为loss即可。

Feature mimic loss定义如下：
DCN和DCNv2（可变性卷积）学习笔记（原理代码实现方式）
其中Ω代表RoI的集合。

总结：

dcnv2比v1改进的地方。
1、扩展可变形卷积，增强建模能力
2、提出了特征模拟方案指导网络培训：feature mimicking scheme
3、dcnv1是在最后三层使用了dcnv1，但是dcnv2是在最后的conv3-conv5（12层）都使用了dcnv2.效果更好