该论文是华盛顿大学人工智能研究院的文章。本博文是博主学习论文过程中的一些理解和看法,仅供学习和交流。如有疑问,欢迎留言。
论文链接:https://arxiv.org/abs/1705.06368
论文源码暂时没有放出。
这是CVPR2017放出来之前,跟踪领域的又一篇新颖之作。文章思路并不复杂,网络结构是CNN+两个LSTM,其中CNN负责学习物体的appearance feature,第一个LSTM学习物体的motion feature,第二个LSTM负责做regeression,即输出目标框的对角坐标。算法具体的crop技巧请参看原文。
首先,在跟踪领域,RNN并不是第一次应用。这里推荐两篇使用RNN来做跟踪的论文,鉴于博主不熟悉RNN,也就班门弄斧了。
RTT(CVPR16)
Recurrently Target-Attending Tracking
http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Cui_Recurrently_Target-Attending_Tracking_CVPR_2016_paper.pdf
Deep-Tracking(AAAI16)
DeepTracking: Seeing Beyond Seeing Using Recurrent Neural Networks
https://arxiv.org/abs/1602.00991v1
上面推荐的两篇论文,都使用了RNN结构,但是都比较复杂,而且RNN层数多,tracking速度应该不快。
亮点:
本文的亮点主要在于,结合了CNN以及LSTM,最为重要的是,它属于offline trained tracker,也就是说,在跟踪过程中,不会进行反向传播来更新网络,从而只进行前向传播,实现了150fps的速度。论文中也指出,不进行反向传播是为了均衡准确率与速度的平衡,这点与GOTURN一样。不过,文中也提到,虽然不进行反向传播,网络依然是不断update的,因为RNN自身的结构,状态c是在前向传播的过程更新的,即不断接受当前的信息。这里说明一下,反向传播更新的是网络中的权值W,所以Re3网络里,权值不会在线更新。
个人总结:
跟踪领域考虑appearance特征和motion特征都是很直观的,motion特征也并不是在最近才被注意的,而是在过去,人们发现,足够强大的appearance特征就足以应对跟踪中出现的问题。博主个人觉得motion特征也很重要,目前也正在这一方向上努力。
刚看到这篇论文摘要时,感觉很惊喜,因为它的思路和我最近考虑的方法是一样的,当然,我设计的网络结构并不是CNN+RNN这种方式。重点是,这篇论文给出了一种可能,即在前向传播时即更新学习motion特征,而不进行反向传播。
另外提一点,Action recogniton/Video recogniton方向已经考虑过特征的融合,即时空信息。所以,跟踪领域其实有很多地方可以参考它们。主要是如何将时空信息融合进跟踪网络,既能保证准确率,又能达到一定的速度。