RGB-D物体检测无监督特征学习

@Unsupervised Feature Learning for RGB-D Based Object Recognition

RGB-D物体检测无监督特征学习

这篇论文主要提出层次匹配追踪（HMP）, HMP 以无监督方式对原RGB-D数据使用稀疏编码学习层次特征表示。

模型

HMP使用彩色图像和深度图像。彩色图像对于外观细节很重要的对象实例识别非常有用，而RGB-D中的深度信息可以极大地提高对象类别识别及其鲁棒性。使用完整的RGB-D数据（灰度，RGB，深度以及表面法向通道），提取特征不仅从顶层特征层次，也从底层。

1.通过K-SVD字典学习
稀疏编码的重要思想是学习一个字典。在RGB-D帧中数据是像素块，例如，一个5×5RGB-D块字典将含有5×5×8尺寸的向量，8是由灰度强度，RGB，深度和表面法向值。灰度强度值由关联的RGB值计算，法线值由关联的深度值及其坐标计算。
K-SVD是一个生成K-Means流行字典学习方法。一个矩阵 $Y$ 的可观测数据，通过最小化重构误差（1）学习字典 $D = [d_{1},...,d_{m},...,d_{M}]$ 和相关的稀疏编码 $X=[x_{1},...,x_{n},...,x_{N}]$ 。

$\underset{D,X}{min}\left | \left | Y-DX \right | \right |_{F}^{2} s.t.\forall m,\left | \left | d_{m} \right | \right |_{2}=1 and \forall n ,\left | \left | x_{n} \right | \right |_{0}\leqslant K$ (1)

通过正交匹配追踪计算稀疏编码矩阵OMP算法
通过SVD分解更新字典
在层次匹配算法中，在两层中使用K-SVD来学习字典，第一层数据矩阵 $Y$ 包含从RGB-D图像中采样块，第二层从第一层中稀疏编码池化。
RGB-D物体检测无监督特征学习
层次匹配追踪
学习字典 $D$ ，层次匹配算法通过应用正交匹配追踪编码器建立一个特征层次。这个编码器包含上三个模块：批正交追踪匹配，金字塔最大池化以及对比度标准化。
第一层：目标生成图像块的特征。每块的像素由稀疏编码计算像素和小领域表示。空间金字塔最大池化然后应用这些编码去生成块级特征。空间金字塔最大池化将一张图片块 $P$ 分成多级空间单元。每个空间单元 $C$ 的特征都是最大池化稀疏编码。
$F(C) = [\underset{j\epsilon C}{max}\left | x_{j1} \right |,...,\underset{j\epsilon C}{max}\left | x_{jm} \right |,...,\underset{j\epsilon C}{max}\left | x_{jM} \right |]$
$F_{P}=[F(C_{1}^{P}),...,F(C_{s}^{P}),...,F(C_{S}^{P})]$
第二层：目标生成整个图像或者物体的特征。HMP将稀疏比编码和最大池化应用到第一层生成的图像块特征 $F_{p}$ 。为了提取整张图片的特征，HMP首先通过第一层计算块特征，然后，仅在第一层，每个图像块的稀疏编码使用批正交追踪匹配计算，接着用空间最大池化。然而，在这一层中，我们对稀疏代码和在第一层中计算出的块级特征执行最大池化。
$G(C) = [\underset{j\epsilon C}{max}\left | z_{j1} \right |,...,\underset{j\epsilon C}{max}\left | z_{jU} \right |,...,\underset{j\epsilon C}{max}\left | F_{j1} \right |,...,\underset{j\epsilon C}{max}\left | F_{jV} \right |]$