只记录一下总体框架,不记录实现细节。
1. Fully-Convolutional Siamese Networks for Object Tracking (ECCV16) pdf
2.CREST: Convolutional Residual Learning for Visual Tracking (ICCV17) pdf
用CNN先提取将要search的patch的特征,得到的feature map经过一个base layer+spatial residual layers+temporal residual layers得到最终的response map.
作者认为物体的tracking用单独的网络很难做,因为会有形变、遮挡等各种变化,而且在一个视频中要跟踪的目标,在另一个视频中可能就是北京了,因此一个网络不是很容易学得这些很specific的特征。因此提出了MDNet,一个视频看作一个domain,前面有shared layers,最后一层fc层(binary classification)每个视频都不同,因此网络会学习共同的特征,最后一层又会根据domain的不同又有改变。(作者说在nlp中这种multi-domain learning 比较popular)
下图中黄色是positive sample,蓝色是negative。
MDNet网络小的原因:1.visual tracking只需要区分背景和目标,只有两类,因此网络不需要很复杂。 2.网络变深,位置信息会被diluted。 3. 目标一般比较小,所以input尺寸会小,自然需要network尺寸小。 4.efficient
4. Learning to Track at 100 FPS with Deep Regression Networks (ECCV16) pdf
作者提出goturn( Generic Object Tracking Using Regression Networks),在测试时可以达到100fps,速度很快。Goturn完全是offline的,在测试时并不进行online update。
网络结构如下,将前一帧目标的bounding box的中心点作为crop中心,2倍bbox的长宽进行crop得到一个输入,同时也同样尺寸位置crop当前帧得到search region得到另一个输入,同时输进网络。当然对于快速运动物体或遮挡等情况,作者说留着当future work。
5. End-to-end representation learning for Correlation Filter based tracking (CVPR17) pdf
7. Learning Policies for Adaptive Tracking with Deep Feature Cascades (ICCV17) pdf
目前的方法,用deep learning提出deep的feature效果会好,但速度变慢;而直接用相关滤波的方法,效果没那么好,但速度快。因此作者结合了两种方法,提出了一个可以自适应的方法 EArly-Stopping Tracker (EAST),容易track的frame就采用相关滤波即可,而难追踪的frame就继续进行convolution,得到表现好的deep feature。
如图,用reinforcement的方法训练一个agent,判断每一层的target的位置,判断这个位置是否可信,可信就可以输出,不可信就继续进入下一层,提取更high-level的特征。发现绝大多数frame是很容易追踪的。
8. Robust Object Tracking based on Temporal and Spatial Deep Networks(ICCV17) pdf
提出了一个新的网络,结合了时域和空域的信息,提高tracking的效果。
结构如图,包括三个网络,先经过feature net提出low-level特征,然后