车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”

使用深度时空神经网络，在低质量视频中计算车数目。为了使用视频时间信息，结合FCN和时间递归神经网络（LSTM），即FCN-rLSTM估计车辆密度和车辆计数。FCN进行像素级预测，LSTM学习复杂的时间动态。使用残差连接，将车辆数目回归问题作为残差学习函数，加速网络训练过程。为保持特征分辨率，提出Hyper-Atrous集合FCN中artous卷积，综合不同层卷积信息。

车辆计数是统计给定区域内车辆数目，如下图所示：
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”
上图中列举了车辆计数所面临的挑战，即视频的低帧率，低分辨率，高拥堵，大视角。普通的车辆计数法有帧差法，检测法，运动法，密度估计法及深度学习法。目前的方法很少考虑帧间相关性，即时间关系。

FCN-rLSTM
FCN可以做像素级预测，允许输入任意尺寸图像，目前的目标计数方法是估计目标密度图，累加整幅图密度得到目标数量。但这种方法受大视角视频和大尺寸车辆干扰。因此提出FCN-rLSTM
网络通过残差的方式估计车辆密度和车辆数目。

FCN-RLSTM网络包含卷积网络，反卷积网络，hyper-atrous特征综合及LSTM层。结构如下图所示：
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”
卷积层和反卷积层使用3×3小卷积核。递归神经网络RNN通过保持内部隐含层状态，对动态时间行为建模。LSTM对RNN进行了扩展，增加了3个gates：遗忘门ft，输入门it，输出门ot。这样LSTM可以学习序列的长相关，解决了RNN中常出现的梯度消失问题。LSTM还包含单元**向量ct和隐含输出向量ht。将FCN的密度图reshape到1D的向量，并输入到LSTM中。为了加速训练，使用残差连接形式，如下图所示：
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”

多任务学习
FCN-rLSTM包含两个任务，即像素级密度图和每帧全局车辆计数。如果目标使用点d来标记，车辆数目真值是点的数目，每个像素p的真值密度：由以点标记为中心且覆盖像素p的2D高斯核之和定义，即：
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”

如果目标使用bbox标记，车辆数目是bbox数目，真实密度是：
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”

FCN估计密度图，LSTM估计车辆数目，联合训练，车辆密度由FCN最后一个1×1的卷积层估计，欧式距离测量估计密度和真值的差距，密度图的损失函数为：
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”

LSTM车辆数目有两部分：基础部分由密度图集合得到，残差部分由LSTM学习到，综合两者得到最终的车辆数目：
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”

损失函数为：
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”

最终网络的损失函数为：
L=LD+λLC

FCN-rLSTM的训练过程为：
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”

实验结果
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”