代码主页:https://github.com/siyuhuang/crowdcount-stackpool
解决问题:在池化层上下功夫,解决了图像处理中的多尺度问题;
发现:
1.在人群计数的图片数据集上,如果将不同区域的图片resize到一定的尺寸,这两个区域会表现出极大的视觉相似性(包括人物大小、人群密度、层叠关系);见下图。
2.
a larger pooling range enables an invariance when the input goes through a scale variation.
提出方法:池化模块变化得到multi-kernel pooling和stacked pooling,从而提高卷积网络的尺度不变性;多核池化是由多个感受野的池化层组成,从而捕捉到多尺度的信息;堆积池化其实和多核池化是等价的,但是会大大减少计算量;
优点:Non-parametric,不引入额外参数和超参数,确保模型高效同时防止学习过程中的过拟合;
Simple and flexible:They can take place of the vanilla pooling layer at any time when need be.(ps: vanilla pooling在这里时表示pure pooling的意思 吗?这个单词让我感觉pooling都甜甜的)
Multi-kernel pooling
Stacked pooling
上面两张图片效果其实是等价的;
SIFT理解: https://zhuanlan.zhihu.com/p/22476595