论文Depth Information Guided Crowd Counting for Complex Crowd Scenes

Depth Information Guided Crowd Counting for Complex Crowd Scenes

摘要

出于城市安全的考虑，监控和分析人群拥挤事件是非常重要的。在一张拥塞场景的景深图像（EDOF: extended depth of field）上，人群的分布是很不平衡的。离镜头远的人看起来很小，并且互相之间重合严重，同时离镜头近的人看起来比较大。在这种情况下，使用一种技术很难准确估计人数。这篇文章提出了一种方法，深度信息导向性人群计数（DigCrowd）来处理这种图像。这个方法首先利用深度信息将一张图片的场景分割为远景区域和近景区域；然后DigCrowd将远景区域映射到拥塞密度图，并且使用一种检测方法计算近景区域的人数。除此之外，引入了一个新的拥塞数据集，该数据集包含1000张图片。实验结果可以证明DigCrowd方法的有效性。

介绍

随着人口增长，智能人群分析系统越来越重要，同时这块领域面临着很多挑战，比如人群不一致分布、光照不统一，外观规模等场景不一致以及透视扭曲等问题。提出几种方法，比如论文Single-image crowd counting via multi-column convolutional neural network提出的MCNN方法，作者指出这种方法在复杂的拥塞场景中不具有鲁棒性。文中提出的算法概览如下图：

论文Depth Information Guided Crowd Counting for Complex Crowd Scenes

首先，depth map算法得到图像的深度信息，从而将复杂的拥塞场景分为远景和近景区域；图像分割基于yolo框架方法（参看论文You Only Look Once: Unified, Real-Time Object Detection），每个场景不是被定量地划分。这里指出yolo方法的失败之处：一是人群不均匀的分布以及人不均匀的像素分布（这里翻译可能有点问题）；另一则是人群聚集现象的存在和严重漏检测的筛查结果。这些原因导致比较差的结果，从而针对远景区域使用密度图方法。基于混合方法，结果很接近真实场景。

文章贡献主要分为下列几个方面：

提出一种针对视频流的基于深度神经网络的拥塞密度检测混合方法
提出基于图像深度信息的图像分割方法，同时使用空间上下文方法消除重复检测
提供了一个复杂拥塞场景的航站数据集

近期工作（略）

人群计数方法分为以下几类：基于检测的方法、基于回归的方法、基于密度估计以及基于CNN的方法。

提出的方法

提出新的混合方法解决这种拥塞场景，详细如下：

使用一个新的分割方法，首先获得输入图像的深度信息，然后利用深度信息的局部相似性将图像分为远景区域和近景区域。
针对近景区域，使用CNN检测人群，同时使用空间限制解决图像分割边缘的重复性检测。
YOLO检测方法无法处理远景区域，我们使用密度图方法，该方法可以计算小的远的目标。

图像分割
近景区域检测
空间限制
远景区域密度图估计
系统实现结果

图像分割

首先使用一个多尺度深度网络预测一张图片的密度图（参看论文Depth map prediction from a single image using a multi-scale deep network）；其次基于颜色相似性和接近度产生近景区域和远景区域，这一步在五维空间[labxy]种完成，[lab]是颜色空间的像素颜色向量，x、y指像素位置。当在颜色空间种两种颜色之间的最大可能距离受限，x、y平面上的空间距离取决于图像尺寸。下图是基于深度信息的分割：

论文Depth Information Guided Crowd Counting for Complex Crowd Scenes

上图中：（a）输入图像；（b）深度信息；（c）分割线；（d）远景区域；（e）近景区域；

近景区域检测

首先产生图像的特诊图：使用传统的CNN预训练权重；采用YOLO架构作为检测模块。在卷积层顶层，YOLO采用全连接层回归特征表示，标识图像分为S*S个划分，每个划分有B边界预测框，代表了5个位置参数，包括x、y、w、h和置信度c。在本文框架中设置S=7，测试时将条件性类概率和单个预测框置信度预测相乘，式子如下：

论文Depth Information Guided Crowd Counting for Complex Crowd Scenes

上式得到每个预测框特定类置信度得分（这里不太对感觉），这些得分将编码在预测框中出现的类的概率，以及体现预测框与物体的合适程度。下图是近景检测的结果：

论文Depth Information Guided Crowd Counting for Complex Crowd Scenes

（a）是通过深度信息分割的输入前景图像；（b）是目标检测结果；

空间限制

在划分线周围有重复检测问题，如下图（a）：

论文Depth Information Guided Crowd Counting for Complex Crowd Scenes

（b）图是在（a）图上增加了空间限制后的检测结果；

EDOF场景理解和分割存在的难点：

当对EDOF场景理解和分割不正确时，会造成严重的检测错误；
根据拥塞状况，正确的区域不容易计算；
拥塞区域可能会被判断为无效区域，也会增加无法检测的可能性；

为了解决上述问题，采用手工分割EDOF场景的方法；加上空间限制的具体步骤如下：

输入视频第一帧，含有需要检测的人群；
手工绘制连续的多段线，定义一个可能是错误检测的区域，考虑之前的人群空间分布信息。多折线的公式如下：

论文Depth Information Guided Crowd Counting for Complex Crowd Scenes

3.引入一种多线索检测模式来处理检测结果。假定检测结果框的左上角和右下角坐标分别是论文Depth Information Guided Crowd Counting for Complex Crowd Scenes ，则中心的坐标即。提出若满足下图的条件，则框属于无效区域，结果会直接被删除。

论文Depth Information Guided Crowd Counting for Complex Crowd Scenes

4.直接删除无效框；

远景区域密度估计

前文提到使用密度图方法来检测远景区域；转换图片至连续的密度函数，首先标注K近邻距离如下：论文Depth Information Guided Crowd Counting for Complex Crowd Scenes 平均距离是：；使用高斯核函数与上式卷积，因此密度是：。当在像素Xi处有人时，使用delta函数表示；N时图像中的总人数；换种说法就是，将标签H和密度核进行卷积适应每个数据点的局部几何性，即几何自适应核。

论文Depth Information Guided Crowd Counting for Complex Crowd Scenes

实验结果

实验评估标准：MAE&MSE

使用Ciisr数据集产生的结果：

论文Depth Information Guided Crowd Counting for Complex Crowd Scenes

结论

针对EDOF场景融合提出一种人群计数方法DigCrowd，为了更好说明我们提出的方法性能，产生一个新的数据集CIISR；该方法具有很好的效果，并且可以迁移到其他数据集上。