论文理解《Stacked Pooling: Improving Crowd Counting by Boosting Scale Invariance》

代码主页：https://github.com/siyuhuang/crowdcount-stackpool

解决问题：在池化层上下功夫，解决了图像处理中的多尺度问题；

发现：

1.在人群计数的图片数据集上，如果将不同区域的图片resize到一定的尺寸，这两个区域会表现出极大的视觉相似性（包括人物大小、人群密度、层叠关系）；见下图。

论文理解《Stacked Pooling: Improving Crowd Counting by Boosting Scale Invariance》

a larger pooling range enables an invariance when the input goes through a scale variation.

提出方法：池化模块变化得到multi-kernel pooling和stacked pooling，从而提高卷积网络的尺度不变性；多核池化是由多个感受野的池化层组成，从而捕捉到多尺度的信息；堆积池化其实和多核池化是等价的，但是会大大减少计算量；

优点：Non-parametric，不引入额外参数和超参数，确保模型高效同时防止学习过程中的过拟合；

Simple and flexible：They can take place of the vanilla pooling layer at any time when need be.（ps: vanilla pooling在这里时表示pure pooling的意思吗？这个单词让我感觉pooling都甜甜的）

Multi-kernel pooling

论文理解《Stacked Pooling: Improving Crowd Counting by Boosting Scale Invariance》

Stacked pooling

论文理解《Stacked Pooling: Improving Crowd Counting by Boosting Scale Invariance》

上面两张图片效果其实是等价的；

SIFT理解： https://zhuanlan.zhihu.com/p/22476595