论文理解Leveraging Unlabeled Data for Crowd Counting by Learning to Rank

论文：Leveraging Unlabeled Data for Crowd Counting by Learning to Rank

作者：Xialei Liu、Joost van de Weijer、Andrew D. Bagdanov

novel approach:文中提出一种新方法，在learning-to-rank框架中利用大量可得的无标签人群图像。

main idea:通过观察一张人群场景图片中任意的子图包含的人数比其父图所包含的人数少点或者一致。

address problem:人群计数现存的有限数据集。

datasets:在Google上通过关键词搜索（keyword searches）和例证查询（query-by-example）得到文中使用的两个数据集；

具体操作：将learning-to-rank并入一个多任务网络中，同时排列图像和估计人群密度图。

面临的困难：对于人群计数，带标签数据少并难获取。

自监督学习：提供收集大量手工标注数据的方式。

下图是main idea的体现：

论文理解Leveraging Unlabeled Data for Crowd Counting by Learning to Rank

main contribution:提出一个方法，可以在训练时间利用无标签人群图像；提出两种从网络上获得数据集的方法；分析了三种使用排列图像集与标记人群场景的数据集相结合的训练方法；最后证明文中方法在两种数据集上的性能很好。

两类：传统的方法以及基于CNN的方法。

传统的方法：基于检测（检测人头或者身体）的方法，但是这种方法在极度密集的场景中不适用；将从人群场景中学到的特征映射到人数；

基于CNN的方法：基于CNN的性质进行分类；

基于CNN的方法面临的挑战：训练DCNN 时会产生过拟合的现象（论文Cross-scene crowd counting via deep convolutional neural networks.提出使用交替学习密度图和人数估计来获得更好的局部最优解）

这一部分描述了如何系统地从未标记的人群图像中生成排列图像；

训练的网络：比较图像并根据图像中人数进行排列；

根据下图算法1，我们在给定图像中提取排序块：

论文理解Leveraging Unlabeled Data for Crowd Counting by Learning to Rank

收集数据集的两种方法：

Keyword query:在Google images上使用不同关键词搜索可能时人群场景的图片，然后删除与问题不相关的图片；最后，收集了一个数据集包含1180张高分辨率图片，这份数据集是UCF_CC_50数据集的24倍大小，是Shanghaitech PART_A的2.5倍大小，及PART_B的两倍大小。
Query-by-example image retrieval:对于特定的存在的人群数据集，我们使用训练图像查询视觉图像搜索引擎Google Images收集一个数据集，我们选择十个相似的图片然后去除不相关的。

下图是上述两种方式采集的数据集中的图片例子：