Structured Siamese Network for Real-Time Visual Tracking 论文地址

这篇文章里面挺多地方不怎么懂,就记录一下,望指正。

Motivation

  • 目前已有的很多tracker都只关注目标的整体模型表示而忽略了一些细节的信息,这样会使得tracker对一些blur,occlusion不够鲁棒;
  • 然而一些基于局部模型的tracker都是将目标刚性地分为几块,这种分法使得每个部分只保留一部分语义信息。

Contribution

  • 提出了一个局部模式检测方法,使得算法可以自动找到目标最具有判别力的部分;
  • 利用差分从操作实现了message passing, 通过这个操作,使得算法可以同时学习到局部模式和模式之间的关系;
  • 针对Siamese网络提出了一个新的匹配网络,可以实时高精度地跟踪。

Algorithm

【StruckSiam(ECCV2018)】论文阅读
与SiamFC相比,添加了三个模块:

  • Local Pattern Detection(局部模式检测):这个模块使用了两个卷积层,一个1111,一个55,为的是最后得到的feature map的感受野小,也就是关注的是局部区域,最后输出256个通道,每个通道代表一个模式;
  • Context Modeling:其实也就是那个message passing,主要是使用了CRF,然后将刚刚上面得到的东西去噪,平滑,得到每个局部模式之间的关系。给feature map中每个像素赋一个模式;
  • Integration Module:由于不同的模式代表search region中不同的区域,如果是像SiamFC那样直接对比,会使得search region对变形很敏感,所以文章就把模板输出整合成114096的样子,每个通道都代表一个模式(和全局池化类似)。

Experiment

【StruckSiam(ECCV2018)】论文阅读
【StruckSiam(ECCV2018)】论文阅读
【StruckSiam(ECCV2018)】论文阅读
【StruckSiam(ECCV2018)】论文阅读

总结

优点

优点其实就是Contribution了,提出了一种新的思路,新的方法来做,效果也有提升。

缺点

我一直在疑问,若是都是基于局部区域 ,那就抛弃了语义信息的鲁棒性,对一些旋转,cluster会不会比较敏感,可能是因为文章还结合了每个模式之间的相关性,所以效果才会提升吧,总之看不懂。(代码不开源)

相关文章: