ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

理解出错之处望不吝指正。

本文模型叫做DSiam。作者提出一个Dynamic Siamese Network，可以使用一个transformation learning model来在线学习目标的外观变化并且压制背景信息。本文的另一个创新点在于作者提出了一个自适应聚合各个层的特征的方法（elementwise multi-layer fusion）。并且，本模型不用像以往的基于Siamese的模型使用pairs训练，而是使用整个video sequence一起训练。

模型的整体结构如下（虚线代表的是Siamese Network的步骤）：

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

传统的Siamese Network最终的结果通过下式计算（ ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记代表时间，代表第层）：

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

在本文提出的模型中，公式如下：

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

这里 ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记代表target appearance variation transformation，目的是使当前帧得到的特征图相对于前些帧的特征图的变化变得平滑。代表background suppression transformation，目的是在特征图中“高亮”目标，减轻不相干的背景信息。“ ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记 ”代表循环卷积操作。

对于 ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记和，作者都是用的是如下的正则线性回归进行训练。

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

由于循环卷积操作，该式可以在频域快速计算（那个“五角星”代表共轭）：

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记和的损失函数如下所示（具体每个符号代表什么可以在图中看出）：

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

作者提到的elementwise multi-layer fusion其实就是训练一个矩阵 ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记，矩阵中的数值代表不同特征图的不同位置的权重，最终得到的respone map计算如下：

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

使用single layer的网络结构如下图所示：

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

作者详细推导了RLR和CirConv的梯度，使得模型可以端到端的训练：

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

训练的过程就是，首先经过前向传播，对于给定的N帧视频序列 ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记，我们进行tracking后得到N个响应图，用表示。同时，N个gound truth用表示。则损失函数即为：

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

使用BPTT（backpropagation through time）和SGD进行梯度传播和参数更新。

相关文章：

2021-10-22
2021-10-11
2021-07-12
2021-08-29
2021-05-21
2022-12-23
2021-10-19

猜你喜欢

2021-09-19
2021-06-08
2021-05-18
2021-11-21
2021-12-24
2021-12-16
2021-10-23

相关资源

下载 2023-01-14
下载 2022-12-11
下载 2023-04-03

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode