[CREST(ICCV2019)]：论文阅读笔记

CREST: Convolutional Residual Learning for Visual Tracking 论文地址 代码

写在前面

这篇论文是在DCF上面的一些改进，也是第一篇将残差学习应用到目标跟踪这个领域中来，他们将DCF从频域弄回到了时域，就可以用滤波的方式直接得到response map了，个人感觉其实就是SiamFC那种相关的过程，不过加了时间和空间的残差，但是精度比SiamFC高很多，也可以归功于其模型更新。

Motivation

目前基于DCF的tracker独立于特征提取，并没有充分利用端到端学习；
DCF的方法通过线性插值方式来更新模型，使得模型很容易被噪声污染。

Contribution

将相关滤波作为一个卷积层，它集成了特征提取，相应计算和模型更新；
利用残差学习方式去获取在表观变化后的特征，保证了网络表观变化大的时候的精确性。

Algorithm

[CREST(ICCV2019)]：论文阅读笔记
以上就是这篇文章的网络结构，当一个帧进来时，先是过VGG-16的网络提取特征，然后对于第一帧计算Temporal 残差值。剩下的帧先是过一个DCF的层，其实这层就是将原始的DCF操作换成卷积层，然后过一个空间残差层，最后三个加起来得到最后的response map。接下来简单介绍一下这三个结构。

1、DCF 层（Base layer）

作者将原始的DCF的岭回归问题换成以下形式：
[CREST(ICCV2019)]：论文阅读笔记

其实带进去后，就发现其实也就是岭回归问题，把W看成是权重就可以了，不过这个W是卷积层的参数，也就是一个相关的操作，然后计算与标签的损失，W的尺寸和ground truth一样，这样是为了使得卷出来的值刚好cover整个ground truth。（这里和SiamFC不一样的是，W就只是网络参数，而SiamFC就简单粗暴的把ground truth当成W了，文章也没解释为什么。难道是因为损失函数？还是提取的特征比较好？有待考证）

2、Residual Learning

[CREST(ICCV2019)]：论文阅读笔记
文章中提到，只用这样做并不能使得模型对表观变化鲁邦，所以需要添加一些额外的信息，这里他们使用了残差块来添加特征。假设 $H(x)$ 是最好的对X的表示， $F_B(X)$ 表示Base layer的输出， $F_R(x)$ 表示残差模块的输出，所以
$H(x) = F_B(X) + F_R(X)$
文中提到，当目标的变化不大时，残差分支的输出很小，但是当目标表观变化很大时，Base layer的相应就会很小，这时残差模块就会负责准确将目标找出来（文章没解释为什么管用，我的理解是这里使用了小的卷积核，应用了局部信息，可能全局语义用不了的时候局部的特征可以帮助定位？）。

这里文章还使用了时间上的残差，说是当空间残差不管用时可以派上用场，其实就是将第一帧也过了上面的那个residual mapping。最后得到的response map如下：

$F(X_t) = F_{R}(X_t) + F_{SR}(X_t)+F_{TR}(X_1)$

Tracking

模型初始化：直接使用VGG来提取特征，然后用均值为0的高斯初始化base和残差块；
在线检测：利用前一帧检测出来的位置，将search region割出来，然后输入到网络中计算response map就行了；
尺度估计：直接根据response map提取了多尺度的box，然后利用上一帧检测出来的box做一个平滑操作；
模型更新：每隔T帧就更新，把检测出来的结果当成训练样本。

Experiment

在OTB2013上表现还可以，但是还是比不过ECO和CCOT，在VOT2016上表现就更差了。
[CREST(ICCV2019)]：论文阅读笔记

总结

感觉跟踪领域真的发展很快了，在DCF那边，他们使用的是L2的损失，比SiamFC的logistical损失精度高，有没有可能是因为这个？这篇文章其实还是有蛮多可以继续做的地方，也有可能因为SiamFC更方便，所以大家都在SIamFC上面做改进把。

优点：

将DCF搞成了网络中的一层，变成可以端到端训练了；
引入了残差学习方法，使得提出的tracker对目标形变更加鲁棒。

缺点：

尺度估计做的不好，提取多尺度box和平滑操作都是建立在两帧之间变化不是很大的情况下才管用，而且这样比较费时间；
其次没有很好的理论支撑他们的残差学习方法为什么管用（也有可能只是我不懂）；
模型更新方面还是有可能被错误检测污染，而且把特征提取和分类放到一个层里面去做，好像不太好。