论文阅读 (五)：Scalable Multi-Instance Learning (miFV2014)

文章目录

引入
1 miFV

1.1 Fisher Vector (FV)
1.2 使用FV重新表示包

引入

论文地址：https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm14.pdf
论文应用：处理大规模MIL问题。
论文出发点：将包映射为Fisher vector表示。

1 miFV

算法名miFV：multi-instance learning based on the Fisher Vector representation

1.1 Fisher Vector (FV)

FV (Fisher Vector) ¹是计算机视觉中，将一组从图像中提取到的patch编码为高维向量，并合并为一个图像级别的signature。

令 $S = \{ \boldsymbol{s}_t, t = 1, \dots, T \}$ 为具有 $T$ 个观测值 $\boldsymbol{s}_t \in \mathcal{S}$ 的样本；
令 $p$ 是一个用 $\lambda$ 建模，并生成 $\mathcal{S}$ 中元素的概率密度函数，则
样本 $S$ 可以用一个梯度向量描述：
$G^S_{\lambda} = \bigtriangledown_{\lambda} \log p (S | \lambda). \tag{1}$ 需要注意的是 $G^S_{\lambda}$ 的维度仅仅取决于 $p$ 的数量，而与样本大小 $T$ 无关，即，将不定长度的集合 $S$ 转换为固定长度的 $G^S_{\lambda}$ 。这一性质将很好地适应于miFV的映射函数 $\mathcal{M}_f$ 。

Fisher Kernel (FK) ²最初用于度量两个样本 $S_1$ 和 $S_2$ 的相似性：
$\mathcal{K}_{FK} (S_1, S_2) = {G^{S_1}_{\lambda}}' F_{\lambda}^{-1} G^{S_2}_{\lambda}, \tag{2}$ 其中 $F_{\lambda}$ 是Fisher信息矩阵 $p$ (下面公式里用到的是 $\mathcal{s}$ ，而非 $S$ ，不知道是否是表述有错)：
$F_{\lambda} = E_{\mathcal{s} \sim p} [\bigtriangledown_{\lambda} \log p (\mathcal{s} | \lambda) [\bigtriangledown_{\lambda} \log p (\mathcal{s} | \lambda)']. \tag{3}$
由于 $F_{\lambda}$ 是对称且正定的，则其可近似为 $F_{\lambda}^{-1} = L_{\lambda}'L_{\lambda}$ ，且式 (2)将被重写为：
$\mathcal{K}_{FK} (S_1, S_2) = \boldsymbol{f}_{\lambda}^{{S_1}'} \boldsymbol{f}_{\lambda}^{{S_2}}, \tag{4}$ 其中
$\boldsymbol{f}_{\lambda}^{{S}} = L_{\lambda} G_{\lambda}^S = L_{\lambda} \bigtriangledown_{\lambda} \log p (S | \lambda) \tag{5}$
式 (5)所示的标准化后的梯度向量便是Fisher Vector (FV)。就结果而言，非线性核与 $\mathcal{K}_{FK}$ 一起使用将等同于线性核与FV一起使用。

1.2 使用FV重新表示包

将一个包看作是一个样本 $S$ 。在传统的机器学习假设中，包中实例为独立同分布，因此 $\mathcal{S}$ 中的 $\boldsymbol{s}_t$ 可以独立的由 $p$ 生成。这里的 $p$ 选择为高斯混合模型 (GMM)，并使用最大似然估计 (MLE)进行评估。具体过程如算法1。

算法1：miFV算法

输入：
训练集 $\{ (X_1, y_1), \dots, (X_i, y_i), \dots, (X_{N_B}, y_{N_{N_B}}) \}$
训练：

伪代码原图如下：
论文阅读 (五)：Scalable Multi-Instance Learning (miFV2014)

J. S ´ anchez, F. Perronnin, T. Mensink, and J. Verbeek, “Image Classification with the Fisher Vector: Theory and Practice,”
Int’l J. Computer Vision, vol. 105, no. 3, pp. 222–245, 2013. ↩︎
T. Jaakkola and D. Haussler, “Exploiting Generative Models in Discriminative Classifiers,” in Advances in Neural Information Processing Systems 11. Cambridge, MA: MIT Press, 1999, pp. 487–493. ↩︎