TridentNet 论文学习

论文地址：https://arxiv.org/pdf/1901.01892.pdf
代码地址：https://github.com/TuSimple/simpledet/tree/master/models/tridentnet

论文提出了TridentNet，基于ResNet-101的骨干网络在COCO数据集上达到了单模型48.4的准确率，刷新了COCO新记录。

Contributions

首次提出了感受野对目标检测任务中不同scale大小物体的影响，并进行了相关验证；
提出了适应于多尺度的目标检测框架TridentNet；
使用参数共享的方法，提出了训练时3个分支，测试时只用其中1个分支，保证推理时不会有额外的参数和计算量的增加；
使用ResNet-101的骨干网络，在COCO数据集上达到了48.2的mAP。

处理多尺度问题的方法

使用图像金字塔方法，传统的检测算法，在每个scale上独立地进行特征提取和目标检测。
特征金字塔方法，利用CNN中不同层的特征来解决多尺度问题，比较节约算力。
本文的Trident Net，分为3个分支，所有的参数都一样，唯一的区别就是膨胀卷积和膨胀率不同。

Dilated Convolution（Atrous Convolution）

图 1. (a)对应 $3\times 3$ 的1-dilated Conv，和普通卷积操作一样。(b)对应 $3\times 3$ 的2-dilated Conv，实际的卷积核大小还是 $3\times 3$ ，但是dilation 为1，也就是对于一个 $7\times 7$ 的图像patch，只有9个红色的点和 $3\times 3$ 的卷积核发生卷积操作，其余的点略过。也可以理解为卷积核的大小是 $7\times 7$ ，但是只有图中9个点的权重不是0，其余都是0。可以看到虽然卷积核大小只有 $3\times 3$ ，但是这个卷积的感受野已经增加到了 $7\times 7$ （如果考虑到这个2-dilated Conv 的前一层是一个1-dilated Conv的话，那么每个红色点就是1-dilated 的卷积输出，所以感受野是 $3\times 3$ ，所以1-dilated Conv 和 2-dilated Conv 合起来就能达到 $7\times 7$ 的Conv）。©图是4-dilated Conv，同理更在1-dilated 和 2-dilated Conv后面，能达到 $15\times 15$ 的感受野。对比传统的卷积操作，3层 $3\times 3$ 的卷积加起来，stride 为1的话，只能达到 $r_{out}=r_{in} + (k-1)\times j_{in}=(k-1)\times layer + 1 = 7$ 的感受野，也就是和层数成线性关系，而dilated conv的感受野是指数级地增长。