Gaussian Mixture Loss

前言

该论文思考了深度神经网络提取的特征与类别之间的关系，假设学习到的特征服从高斯混合分布，提出了高斯混合损失函数，同时提高了特征的类内紧凑性和类间可分离性（intra-class compactness and inter-class separability）。

Gaussian Mixture Loss ¹

假设：特征服从高斯混合分布。
有K个类别，每个类别出现的概率为 $p(k)$ ，类别k出现特征x的概率是 $p(x|k)$ ，则特征x的概率为
$p(x) = \sum_{k=1}^{K} p(x|k) p(k)$
假设概率 $p(x|k)$ 服从正态分布， $\mu_k$ 为均值， $\Sigma_k$ 为协方差矩阵，则
$p(x) = \sum_{k=1}^{K} \mathcal{N} (x; \mu_k, \Sigma_k) p(k)$
特征x对应的类别为 $z \in [1, K]$ ，特征x属于类别z的后验概率为
$p(z|x) = \frac{p(x|z)p(z)}{\sum_{k=1}^{K}p(x|k)p(k)} = \frac{\mathcal{N} (x; \mu_z, \Sigma_z) p(z)}{\sum_{k=1}^{K} \mathcal{N} (x; \mu_k, \Sigma_k) p(k)}$
从这个公式，我们可以得到结论：x越靠近类别中心 $\mu_{z}$ ， $p(z|x)$ 的值就越大。

因此，分类损失函数为
$\mathcal{L}_{cls} = - \frac{1}{N} \sum_{i=1}^{N} \log \frac{\mathcal{N}(x_i; \mu_{z_i}, \Sigma_{z_i})p(z_i)}{\sum_{k-1}^{K} \mathcal{N}(x_i; \mu_{k}, \Sigma_{k})p(z_i)}$

单单优化上面的分类损失不能使提取出来的训练特征趋向于高斯混合分布。例如，一个特征 $x_i$ 可以原理对应类别的中心 $\mu_{z_i}$ ，同时可以被正确分类，只要特征 $x_i$ 相对于其他类别中心更靠近 $\mu_{z_i}$ 。为了解决这个问题，作者添加了一个似然正则化项（likelihood regularization term）
$p(X,Z|\mu, \Sigma) = \prod_{i=1}^{N} \mathcal{N}(x_i; \mu_{z_i}, \Sigma_{z_i})p(z_i)$
转成负log似然函数
$-\log p(X,Z|\mu, \Sigma) = -\sum_{i=1}^{N} \left ( \log \mathcal{N}(x_i; \mu_{z_i}, \Sigma_{z_i}) + \log p(z_i) \right )$
其中 $p(z_i)$ 可以看作是常数，因此似然正则化损失为
$\mathcal{L}_{lkd} = - \sum_{i=1}^{N} \log \mathcal{N}(x_i; \mu_{z_i}, \Sigma_{z_i})$
个人理解，我觉得这个似然正则化项的作用是增加类内特征的紧凑性，使得学习到的特征更加靠近对应类别的中心位置 $\mu_{z_i}$ 。

高斯混合损失函数为
$\mathcal{L}_{GM} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{lkd}$
其中 $\lambda$ 是非负权重系数。

Large-Margin GM Loss

接下来拉大类间特征的距离，提高类间特征的可分离性，提高分类器的泛化性能。

定义 $x_i$ 的分类损失为 $\mathcal{L}_{cls, i}$ ，
$\begin{aligned} \mathcal{L}_{cls, i} & = - \log \frac{\mathcal{N}(x_i; \mu_{z_i}, \Sigma_{z_i})p(z_i)}{\sum_{k-1}^{K} \mathcal{N}(x_i; \mu_{k}, \Sigma_{k})p(z_i)} \\ & = - \log \frac{p(z_i) (\frac{1}{\sqrt{(2 \pi)^D \lvert \Sigma_{z_i} \rvert}} e^{-\frac{1}{2} (x_i - \mu_{z_i})^T \Sigma_{z_i}^{-1} (x_i - \mu_{z_i})})}{\sum_{k} p(z_k) (\frac{1}{\sqrt{(2 \pi)^D \lvert \Sigma_k \rvert}} e^{-\frac{1}{2} (x_i - \mu_{k})^T \Sigma_{k}^{-1} (x_i - \mu_{k})})} \\ & = -\log \frac{p(z_i) \lvert \Sigma_{z_i} \rvert ^{-\frac{1}{2}}e^{-d_{z_i}}}{\sum_{k} p(k) \lvert \Sigma_{k} \rvert ^{-\frac{1}{2}}e^{-d_{k}}} \end{aligned}$ Lcls,i=−log∑k−1KN(xi;μk,Σk)p(zi)N(xi;μzi,Σzi)p(zi)=−log∑kp(zk)((2π)D∣Σk∣1e−21(xi−μk)TΣk−1(xi−μk))p(zi)((2π)D∣Σzi∣1e−21(xi−μzi)TΣzi−1(xi−μzi))=−log∑kp(k)∣Σk∣−21e−dkp(zi)∣Σzi∣−21e−dzi
其中
$d_k = (x_i - \mu_k)^T \Sigma_k^{-1} (x_i - \mu_k) / 2$
D是x的维度。

$d_k$ 称为squared Mahalanobis distance，其值非负。

我们添加一个分类间距 $m \ge 0$ ，
$\mathcal{L}_{cls,i}^{m} = - \log \frac{p(z_i) \lvert \Sigma_{z_i} \rvert^{-\frac{1}{2}}e^{-d_{z_i} - m}}{\sum_{k} p(k) \lvert \Sigma_{k} \rvert^{-\frac{1}{2}}e^{-d_{k} -I(k=z_i)m}}$
其中 $I(\cdot)$ 是指示函数。若 $p(k)$ 相等， $\Sigma_k$ 是单位矩阵， $x_i$ 被分类成 $z_i$ ，则
$e^{-d_{z_i}-m} > e^{-d_k} \iff d_k - d_{z_i} > m, \forall k \neq z_{i}$
表明 $x_i$ 要比其他类更接近类别 $z_i$ ，至少近m个距离。论文中设 $m=\alpha d_{z_i}, m \in [0,1]$

几何解释
Gaussian Mixture Loss
图(a)表示加了间距 $m=\alpha d_{z_i}$ 的类别特征分布，可以看到不同类别特征之间的有了明显的间距，这里 $\alpha=1$ 。

$\mathcal{L}_{lkd}$ 与center loss

Center loss为
$\mathcal{L}_{C} = \frac{1}{2} \sum_{i=1}^{N} \lVert x_i - \mu_{z_i} \rVert _2^2$
令 $\Sigma_k = I$ 单位矩阵， $p(k) = 1/K$ ，
$\begin{aligned} \mathcal{L}_{lkd} & = -\sum_{i=1}^N \log \mathcal{N} (x_i; \mu_{z_i}, \Sigma_{z_i}) \\ & = - \sum_{i=1}^N \log \frac{1}{\sqrt{(2\pi)^D \lvert \Sigma \rvert}} e^{-\frac{1}{2}(x_i - \mu_{z_i})^T \lvert \Sigma \rvert^{-1}(x_i - \mu_{z_i})} \\ & = - \sum_{i=1}^N \log \left ( \frac{1}{\sqrt{(2\pi)^D}} + \lvert \Sigma \rvert^{-\frac{1}{2}} e^{-\frac{1}{2}(x_i - \mu_{z_i})^T \lvert \Sigma \rvert^{-1}(x_i - \mu_{z_i})} \right ) \\ & = \frac{N}{2} \log (2\pi) - \sum_{i=1}^{N} \log e^{-\frac{1}{2} (x_i - \mu_{z_i})^T(x_i - \mu_{z_i})} \\ & = \frac{N}{2} \log (2\pi) + \frac{1}{2}\sum_{i=1}^{N} \lVert x_i - \mu_{z_i} \rVert_2^2 \\ & = \frac{N}{2} \log (2\pi) + \mathcal{L}_{C} \end{aligned}$ Llkd=−i=1∑NlogN(xi;μzi,Σzi)=−i=1∑Nlog(2π)D∣Σ∣1e−21(xi−μzi)T∣Σ∣−1(xi−μzi)=−i=1∑Nlog((2π)D1+∣Σ∣−21e−21(xi−μzi)T∣Σ∣−1(xi−μzi))=2Nlog(2π)−i=1∑Nloge−21(xi−μzi)T(xi−μzi)=2Nlog(2π)+21i=1∑N∥xi−μzi∥22=2Nlog(2π)+LC
可以看到center loss是 $\mathcal{L}_{lkd}$ 的一种特殊形式。

效果

在实现过程中，若 $\Sigma_k$ 是奇异矩阵，就不能计算损失的梯度，因此作者假设 $\Sigma_k$ 是对角矩阵，把这个假设带到损失函数中，从而能够计算损失的梯度。同时令先验概率 $p(k) = 1/K$ 。

与softmax loss， center loss，large-margin softmax loss的对比，在minist中提取出来的特征的分布图如下
Gaussian Mixture Loss

Wan, W., Zhong, Y., Li, T., & Chen, J. (2018). Rethinking Feature Distribution for Loss Functions in Image Classification. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). ↩︎