Abstract
CNN在图像识别应用上性能很好,但是全局CNN特征缺少几何不变性,这也限制了CNN对于在变化比较大的场景中国的分类以及匹配应用的鲁棒性。
- 解决问题:在保证CNN特征的区分能力的同时,提高CNN特征的对各种不变性的鲁棒性。
- 解决方案:MOP-CNN multi-Scale scale orderless pooling
- 解决思路:在不同尺度上的局部 patch 上提取CNN特征,在不同尺度上分别对其进行无序的VLAD池化操作,将不同尺度上的池化之后的特征连接起来形成最终的特征
- 结果:提取得到的特征可以应用在有监督或者无监督的识别任务中,比如图像分类、类级检索。
- 比全局的CNN特征要好
Introduction
本文基于重用CNN特征,将其看作已有的特征来解决 whole-image tasks(比如分类或者检索),但是本文关注的是通过融合从不同的 local image windows 提取的特征能够对网络的性能有所提高,而不仅仅是计算整张图像的CNN特征。
BoW 是 orderless 方法,对于图像缩放、旋转、遮挡等有鲁棒性,但是没有考虑到全局的空间信息。
SPM(spatial pyramid matching)空间金字塔模型
CNN网络中,原始图像经过整个网络,在每层之后生成特征图谱,然后利用特征图谱中相近的特征进行pooling操作,这样能够保留一些全局的空间特征。
经过了 filtering and max-pooling layers 以及 几个 fully connected layers,最终得到 4096 维的特征。很难推出全连接层的不变性,本文从实验上来证明最终得到的CNN特征对全局平移、旋转、缩放仍然很敏感。
如果没有考虑到这些不变性,实验证明会有一些准度度的损失。
BoW 在整张图像中计算特征点的分布特征,BoW 丢失图像的局部/细节信息,缺少的是空间位置信息,SPM 是在不同分辨率上统计图像特征点分布,从而获取图像的局部信息
CNN中有太多的空间信息,能够通过构建更无序的空间特征提高性能呢,平衡 orderless and globally ordered
-
整体框架
整体框架
extracting deep activation features from local patches at multiple scales
aggregate local patch responses at the finer scales via VLAD encoding
连接所有的encoding得到最终的图像表示
分类: three image
datasets (SUN397, MIT Indoor Scenes, and ILSVRC2012/2013)
检索:on the Holidays dataset
The Proposed Method
想法类似于SPM,空间金字塔匹配,SPM是用于采样的batches的尺度不断增大。
MOP-CNN
Inspired by SPM , which extracts local patches at a single scale but then
pools them over regions of increasing scale, ending with the whole image
we propose a kind of \reverse SPM” idea, where we extract patches at multiple
scales, starting with the whole image, and then pool each scale without regard
to spatial information.
特征表示有三个层次【256*256】【128*128】【64*64】
使用的是预训练的ImageNet网络
给定一幅图像或者一个patch,首先将其重采样为【256*256】像素,然后减去像素的平均值,然后将patch输入到网络中。第七层全连接层经过ReLU操作之后,得到输出的4096维的向量。
第一个level,简单地将【256*256】的图像输入到网络中,并得到4096维的CNN表示。
剩下的两个level,使用【128*128】【64*64】的patch,步长是 32 像素。然后对这些特征进行pool操作得到一个合适大小的向量。本文中的这个pool操作使用了VLAD pooling 方法。
在每个level中,对每个patch都提取得到4096维的特征。为了计算更有效使用PCA将其降维到500维。
在每个level,使用k-means方法得到k=100的聚类中心。所以可以得到VLAD描述子。
给定一个 500维度(第一次PCA)的patch特征以及100个k-means中心,最终可以得到50000维度的特征表示,维度仍然很高,所以再次使用PCA(第二次PCA)降维到4096维度。
最后将三个level得到的特征单位化,然后将他们连接起来组成最终的图像表示。
Analysis of Invariance
Large-Scale Evaluation
Datasets
- SUN397
- MIT Indoor
- ILSVRC2012/2013
- INRIA Holidays
Image Classication Results
Image Retrieval Results
refer