论文阅读《Re3: Real-Time Recurrent Regression Networks for Object Tracking》

该论文是华盛顿大学人工智能研究院的文章。本博文是博主学习论文过程中的一些理解和看法，仅供学习和交流。如有疑问，欢迎留言。

论文链接：https://arxiv.org/abs/1705.06368
论文源码暂时没有放出。

这是CVPR2017放出来之前，跟踪领域的又一篇新颖之作。文章思路并不复杂，网络结构是CNN+两个LSTM，其中CNN负责学习物体的appearance feature，第一个LSTM学习物体的motion feature，第二个LSTM负责做regeression，即输出目标框的对角坐标。算法具体的crop技巧请参看原文。

首先，在跟踪领域，RNN并不是第一次应用。这里推荐两篇使用RNN来做跟踪的论文，鉴于博主不熟悉RNN，也就班门弄斧了。

RTT(CVPR16)
Recurrently Target-Attending Tracking
http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Cui_Recurrently_Target-Attending_Tracking_CVPR_2016_paper.pdf

Deep-Tracking(AAAI16)
DeepTracking: Seeing Beyond Seeing Using Recurrent Neural Networks
https://arxiv.org/abs/1602.00991v1

上面推荐的两篇论文，都使用了RNN结构，但是都比较复杂，而且RNN层数多，tracking速度应该不快。

亮点：

论文阅读《Re3: Real-Time Recurrent Regression Networks for Object Tracking》
本文的亮点主要在于，结合了CNN以及LSTM，最为重要的是，它属于offline trained tracker，也就是说，在跟踪过程中，不会进行反向传播来更新网络，从而只进行前向传播，实现了150fps的速度。论文中也指出，不进行反向传播是为了均衡准确率与速度的平衡，这点与GOTURN一样。不过，文中也提到，虽然不进行反向传播，网络依然是不断update的，因为RNN自身的结构，状态c是在前向传播的过程更新的，即不断接受当前的信息。这里说明一下，反向传播更新的是网络中的权值W，所以Re3网络里，权值不会在线更新。

个人总结：

跟踪领域考虑appearance特征和motion特征都是很直观的，motion特征也并不是在最近才被注意的，而是在过去，人们发现，足够强大的appearance特征就足以应对跟踪中出现的问题。博主个人觉得motion特征也很重要，目前也正在这一方向上努力。

刚看到这篇论文摘要时，感觉很惊喜，因为它的思路和我最近考虑的方法是一样的，当然，我设计的网络结构并不是CNN+RNN这种方式。重点是，这篇论文给出了一种可能，即在前向传播时即更新学习motion特征，而不进行反向传播。

另外提一点，Action recogniton/Video recogniton方向已经考虑过特征的融合，即时空信息。所以，跟踪领域其实有很多地方可以参考它们。主要是如何将时空信息融合进跟踪网络，既能保证准确率，又能达到一定的速度。