关于相对熵的推导证明和推论

相对熵可以衡量两个分布之间的不相似性，即 P 和 Q 两个分布越相似，相对熵越小，否则越大。

相对熵的公式是

$D_{KL}(\mathrm{P} || \mathrm{Q}) = \sum_{i} p_i \log{\frac{p_i}{q_i}}$

显然，当 P 和 Q 的分布完全相同时，log 里就是 1，所以每项都是 0，相对熵也为 0，印证了开头的那句话。

关于相对熵有个不等式：

$D_{KL}(\mathrm{P} || \mathrm{Q}) \geq 0$

下面给出两种证明方法：

由于在 $x \in (0, 1]$ 时，有 $\ln(x) \leq x-1$ 当且仅当 $x=1$ 时等号成立，因此有
$-D_{KL}(\mathrm{P}||\mathrm{Q}) = \sum_i p_i \log{\frac{q_i}{p_i}} \leq \sum_i p_i (\frac{q_i}{p_i} - 1) = \sum_i (q_i - p_i) = \sum_i q_i - \sum_i p_i = 0$
所以有 $D_{KL}(P || Q) \geq 0$
根据 Jensen 不等式，由于 $\log(x)$ 是一个严格的 concave 函数，所以有
$-D_{KL}(\mathrm{P}||\mathrm{Q}) = \sum_i p_i \log{\frac{q_i}{p_i}} \leq \log \sum_i p_i \frac{q_i}{p_i} = \log \sum_i q_i = 0$
所以有 $D_{KL}(P || Q) \geq 0$

如果我们把相对熵公式展开，会得到

$D_{KL}(\mathrm{P} || \mathrm{Q}) = \sum_i p_i \log{p_i} - \sum_i p_i \log{q_i} = \mathbf{H} (\mathrm{P}, \mathrm{Q}) - \mathbf{H} (\mathrm{P}) \geq 0$

我们就得到了 Gibbis 不等式：

$-\sum_i p_i \log{q_i} \geq -\sum_i p_i \log{p_i}$

关于相对熵的推导证明和推论

即因为相对熵 = 交叉熵 - 熵且其大于等于 0，故有交叉熵 ≥ 熵

相对熵又叫 KL 散度，或信息增益，也称信息散度。