半监督学习下的条件熵与交叉熵

问题描述.

对于有监督学习，我们有数据集 $D_l = \{(x_i,y_i)|i = 1,2,3,…,n\}$ ，其中 $x_i ∈ R^d$ , $y_i$ 是监督信号， $y_i∈\{y_1,y_2,…,y_k\}$ 。未标注的数据集为 $D_u=\{x_i|i = n+1,…,n+m\}$ 。
我们引进新的参数 $z_i$ 来表示即存在标注数据又存在未标注数据的数据集，称之为learning dataset，有 $L_n = \{(x_i,z_i)|i=1,…,n\}$ 。其中 $z∈\{0，1\}^K$ ，被称作名义变量，用于表征实际上可获得的 lables ，而y用于表征精确地完全的信息。此处设定：如果 $x_i$ 被标注为 $y_k$ ，则 $\{^{z_{il}=1,if l = k}_{z_{il}=0,if l !=k}$ ; 如果 $x_i$ 未被标注，则有 $z_{il}=1|_{l = 1,…,K}$ 。
$P(y_k|x) = f_k(x;θ)$ ,其中θ是模型 $f_k(x;θ)$ 的参数，则可以得出 $P(y_k|x,z)=g_k(x,z;θ)$ ,有 $g_k(x,z;θ)=\frac{z_kf_k(x;θ)}{∑^K_{l=1}z_lf_l(x;θ)} ……(1)$
该公式保证对于标注的数据， $g_k(x,z;θ)=z_k$ ；对于未标注的数据， $g_k(x,z;θ)=f_k(x;θ)$ 。

监督学习与无监督学习中的最大似然函数

对于有监督学习， $f(x;\Theta)=∑^K_{i=1}f_k(x;\theta)$ ，在一般的求最大似然估计时，有 $\log L(\theta;x,z) = ∑^n_{i=1}\log∑^K_{l=1}z_{il}f(x;θ)……(2)$ 其中 $L(\theta;x,z)=\prod_{i=1}^n\sum_{l=1}^{n}z_{il}f_k(x;\theta)$
对于无监督学习，例如聚类分析，有
$\log L(\theta;x,z,t) = ∑^n_i∑^K_lt_{il}\log z_{il}f_k(x_i,\theta)……（3）$
在监督学习中并不存在 $t_{il}$ ，因为聚类问题是无监督问题，此时我们无法得知最终聚类结果是来自哪一个子模型，使用 $t_{il}$ 用来对子模型 $z_{il}f_k(x_i,\theta)$ 进行筛选。有 $L(\theta;x,z,t）= \prod_{i=1}^n \prod_{l=1}^K(z_{il}f_k(x;\theta))^{t_{il}}$ 此时， $z_{il}$ 并不能像之前那样定义，这是一个完全的无监督问题，有 $z_{il}>0, \sum_{l=1}^Kz_{il} =1$ .

最大似然函数与信息熵

观察式(2) 与式(3), 其 $\log$ 与 $f(x;\Theta)$ 相组合得到的是 $-\log f(x;\Theta)$ ，就是训练数据模型的信息熵，这两个式子一个在寻找有监督模型的熵最小值，另一个在寻找无监督模型的熵的最小值，熵越小，模型的混乱度就越小，信息准确性就越大。

半监督学习的优化函数

优化函数： $C(\theta,\lambda;L_n） = ∑^n_{i=1}\log∑^K_{l=1}z_{il}f(x;θ)+ \lambda\sum_{i=1}^n\sum_{k=1}^K g_k(x_i,z_i)\log g_k(x_i,z_i)……(4)$ 一个更好的表达形式：
$H(\theta;x,z,y) = -∑y_{i}\log P(y_{i}|x_i) - \lambda∑P(y_i|x_i,z_i)\log P(y_i|x_i,z_i)……（5）$ 即有标签数据的交叉熵与无标签数据在有标签数据上的条件熵。
其中第一项交叉熵用于衡量带标签数据训练的模型的准确性，第二项通过最小化无标签数据与有标签数据的条件熵来使两种数据的类重叠最大化，从而提取数据中的不变信息。
参考论文：Semi-supervised Learning by Entropy Minimization

深度学习中的应用模型介绍

半监督学习下的条件熵与交叉熵
该模型用到的损失函数为：

其中的domain loss使用对抗的方式使模型区别有标签与无标签数据的特征，具体表达式如下：

entropy loss就是我们讲的半监督优化中的条件熵部分，从图中看出两条管道的参数是共享的，这就无形中使得一类数据的预测是参考了另一类的数据模型。条件熵的意义是：如果已知与预测量毫无关联，此时条件熵就是信息熵本身，而得知已知信息就是在消灭模型的混乱度。若两个模型的预测类别存在交叉，则会减小条件熵的值，从而使模型学习到两种数据种共同的信息。这也就实现了利用未标注数据的目的，并且这个模型也学习到了无标签数据的特征，一定范围内也可以对未标注数据进行处理。
半监督学习下的条件熵与交叉熵
focal loss则是专注于对标注数据的利用。

参考文献：From Whole Slide Imaging to Microscopy: Deep Microscopy Adaptation Network for Histopathology Cancer Image Classification