一、动机
之前的工作如MCNN表明整合从不同的来源获取的信息是十分有效的。基于此,作者提出了三个附加的网络
二、改进
网络整体结构
## 语义信息
密度图分布与人群的空间分布应该一致,和斑驳的背景无关。
标注信息由真实标注的点获得,有标注为1否则0
网络损失函数:二分类损失函数
## 深度信息
物体大小与摄像头距离成反比。利用深度信息,fronted-end网络就能更好的感受尺度信息???
做法:利用已经训练好的DCNF推理出图片的深度信息,如下图上半部分,然后点乘下面的语义信息,使得网络同时关注感兴趣区域,整体作为第二个网络的输入标注
网络损失函数:L2损失函数。(感觉这就是一个粗糙的密度图的预测)
## 人群总数信息
l2损失
# 训练方法
先训练密度图预测网络,然后附加的三个网络,最后四个一起训练
# 实验
网络表现
Ablady study
# 总结
一水论文