使用深度时空神经网络,在低质量视频中计算车数目。为了使用视频时间信息,结合FCN和时间递归神经网络(LSTM),即FCN-rLSTM估计车辆密度和车辆计数。FCN进行像素级预测,LSTM学习复杂的时间动态。使用残差连接,将车辆数目回归问题作为残差学习函数,加速网络训练过程。为保持特征分辨率,提出Hyper-Atrous集合FCN中artous卷积,综合不同层卷积信息。
车辆计数是统计给定区域内车辆数目,如下图所示:
上图中列举了车辆计数所面临的挑战,即视频的低帧率,低分辨率,高拥堵,大视角。普通的车辆计数法有帧差法,检测法,运动法,密度估计法及深度学习法。目前的方法很少考虑帧间相关性,即时间关系。
FCN-rLSTM
FCN可以做像素级预测,允许输入任意尺寸图像,目前的目标计数方法是估计目标密度图,累加整幅图密度得到目标数量。但这种方法受大视角视频和大尺寸车辆干扰。因此提出FCN-rLSTM
网络通过残差的方式估计车辆密度和车辆数目。
FCN-RLSTM网络包含卷积网络,反卷积网络,hyper-atrous特征综合及LSTM层。结构如下图所示:
卷积层和反卷积层使用
多任务学习
FCN-rLSTM包含两个任务,即像素级密度图和每帧全局车辆计数。如果目标使用点d来标记,车辆数目真值是点的数目,每个像素p的真值密度:由以点标记为中心且覆盖像素p的2D高斯核之和定义,即:
如果目标使用bbox标记,车辆数目是bbox数目,真实密度是:
FCN估计密度图,LSTM估计车辆数目,联合训练,车辆密度由FCN最后一个
LSTM车辆数目有两部分:基础部分由密度图集合得到,残差部分由LSTM学习到,综合两者得到最终的车辆数目:
损失函数为:
最终网络的损失函数为:
FCN-rLSTM的训练过程为:
实验结果