引入
论文地址:https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm14.pdf
论文应用:处理大规模MIL问题。
论文出发点:将包映射为Fisher vector表示。
1 miFV
算法名miFV:multi-instance learning based on the Fisher Vector representation
1.1 Fisher Vector (FV)
FV (Fisher Vector) 1是计算机视觉中,将一组从图像中提取到的patch编码为高维向量,并合并为一个图像级别的signature。
令S={st,t=1,…,T}为具有T个观测值st∈S的样本;
令p是一个用λ建模,并生成S中元素的概率密度函数,则
样本S可以用一个梯度向量描述:
GλS=▽λlogp(S∣λ).(1) 需要注意的是GλS的维度仅仅取决于p的数量,而与样本大小T无关,即,将不定长度的集合S转换为固定长度的GλS。这一性质将很好地适应于miFV的映射函数Mf。
Fisher Kernel (FK) 2最初用于度量两个样本S1和S2的相似性:
KFK(S1,S2)=GλS1′Fλ−1GλS2,(2)其中Fλ是Fisher信息矩阵p (下面公式里用到的是s,而非S,不知道是否是表述有错):
Fλ=Es∼p[▽λlogp(s∣λ)[▽λlogp(s∣λ)′].(3)
由于Fλ是对称且正定的,则其可近似为Fλ−1=Lλ′Lλ,且 式 (2)将被重写为:
KFK(S1,S2)=fλS1′fλS2,(4)其中
fλS=LλGλS=Lλ▽λlogp(S∣λ)(5)
式 (5)所示的标准化后的梯度向量便是Fisher Vector (FV)。就结果而言,非线性核与KFK一起使用将等同于线性核与FV一起使用。
1.2 使用FV重新表示包
将一个包看作是一个样本S。在传统的机器学习假设中,包中实例为独立同分布,因此S中的st可以独立的由p生成。这里的p选择为高斯混合模型 (GMM),并使用最大似然估计 (MLE)进行评估。具体过程如算法1。
12
算法1:miFV算法
- 输入:
- 训练集{(X1,y1),…,(Xi,yi),…,(XNB,yNNB)}
- 训练:
-
伪代码原图如下:

-
J. S ´ anchez, F. Perronnin, T. Mensink, and J. Verbeek, “Image Classification with the Fisher Vector: Theory and Practice,”
Int’l J. Computer Vision, vol. 105, no. 3, pp. 222–245, 2013. ↩︎
-
T. Jaakkola and D. Haussler, “Exploiting Generative Models in Discriminative Classifiers,” in Advances in Neural Information Processing Systems 11. Cambridge, MA: MIT Press, 1999, pp. 487–493. ↩︎