背景
文中提出了一种用于识别高密度场景的网络模型 CSRNet,用于精确完成场景计数并生成高质量密度图像。CSRNet 由两部分构成:前半部分为卷积神经网络CNN,作为2D特征提取器,后半部分使用空洞卷积(Dilated Convolution)来增大感受野,并代替池化层。由于全卷积的结构,CSRNet很容易训练。文章在4个数据集上对CSRNet进行了测试,并取得了当前最优的效果。
此前效果最好的人群计数方法主要是基于多列卷积网络(MCNN)和密度等级分类器的 SwitchCNN 和 CP-CNN,存在以下不足:
- 多列卷积网络在训练困难,耗时长。
- 多列卷积网络的各列效果大同小异,结构冗余大。
- 密度等级分类器的精度难以把控,高精度的分类器又会导致模型结构过于复杂。
- 大量参数被用于密度等级分类器,使得密度生成部分反而精度不足。
CSRNet 结构
CSRNet 的模型结构由 front-end 和 back-end 组成。其中 front-end 是 vgg-16 的前 10 层,back-end 则有 A、B、C、D 四种基于不同 dilation rate 的配置,如下图所示。
Ablation Experiments
在 ShanghaiTech Part A 数据集上,对 CSRNet 的四种不同空洞率的模型进行了测试,结果如下,得到 B 结构最好,作者用 B 结构进行了后续的所有实验。
Performance
ShanghaiTech 数据集的 MAE 和 MSE 结果对比:
ShanghaiTech Part A 数据集的 PSNR 和 SSIM 结果对比:
ShanghaiTech Part A 的一些结果:
UCF_CC_50 数据集的 MAE 和 MSE 结果对比:
WorldExpo’10 数据集的 MAE 和 MSE 结果对比:
UCSD 数据集的 MAE 和 MSE 结果对比:
除了在上面四个 crowd counting 数据集上进行实验外,作者还在车辆计数数据集 TRANCOS 上来测试模型的泛化性能,其中的评价指标为 Grid Average Mean Absolute Error (GAME):
其中的一些结果:
总结
作者摒弃了之前的多列卷积网络的方法,使用加深的单列网络,参数更少,且容易训练。在 back-end 中加入了空洞卷积操作来增大感受野,同时不会使图像的分辨率减少。