《Leveraging Heterogeneous Auxiliary Tasks to Assist Crowd Counting》密集人群论文笔记

一、动机

之前的工作如MCNN表明整合从不同的来源获取的信息是十分有效的。基于此，作者提出了三个附加的网络

网络整体结构

## 语义信息密度图分布与人群的空间分布应该一致，和斑驳的背景无关。标注信息由真实标注的点获得，有标注为1否则0

网络损失函数：二分类损失函数 ## 深度信息物体大小与摄像头距离成反比。利用深度信息，fronted-end网络就能更好的感受尺度信息？？？做法：利用已经训练好的DCNF推理出图片的深度信息，如下图上半部分，然后点乘下面的语义信息，使得网络同时关注感兴趣区域，整体作为第二个网络的输入标注

网络损失函数：L2损失函数。（感觉这就是一个粗糙的密度图的预测） ## 人群总数信息 l2损失 # 训练方法先训练密度图预测网络，然后附加的三个网络，最后四个一起训练 # 实验网络表现

Ablady study

# 总结一水论文