相对熵可以衡量两个分布之间的不相似性,即 P 和 Q 两个分布越相似,相对熵越小,否则越大。

相对熵的公式是

DKL(PQ)=ipilogpiqiD_{KL}(\mathrm{P} || \mathrm{Q}) = \sum_{i} p_i \log{\frac{p_i}{q_i}}

显然,当 P 和 Q 的分布完全相同时,log 里就是 1,所以每项都是 0,相对熵也为 0,印证了开头的那句话。

关于相对熵有个不等式:

DKL(PQ)0D_{KL}(\mathrm{P} || \mathrm{Q}) \geq 0

下面给出两种证明方法:

  1. 由于在 x(0,1]x \in (0, 1] 时,有 ln(x)x1\ln(x) \leq x-1 当且仅当 x=1x=1 时等号成立,因此有
    DKL(PQ)=ipilogqipiipi(qipi1)=i(qipi)=iqiipi=0-D_{KL}(\mathrm{P}||\mathrm{Q}) = \sum_i p_i \log{\frac{q_i}{p_i}} \leq \sum_i p_i (\frac{q_i}{p_i} - 1) = \sum_i (q_i - p_i) = \sum_i q_i - \sum_i p_i = 0
    所以有 DKL(PQ)0D_{KL}(P || Q) \geq 0

  2. 根据 Jensen 不等式,由于 log(x)\log(x) 是一个严格的 concave 函数,所以有
    DKL(PQ)=ipilogqipilogipiqipi=logiqi=0-D_{KL}(\mathrm{P}||\mathrm{Q}) = \sum_i p_i \log{\frac{q_i}{p_i}} \leq \log \sum_i p_i \frac{q_i}{p_i} = \log \sum_i q_i = 0
    所以有 DKL(PQ)0D_{KL}(P || Q) \geq 0

如果我们把相对熵公式展开,会得到

DKL(PQ)=ipilogpiipilogqi=H(P,Q)H(P)0D_{KL}(\mathrm{P} || \mathrm{Q}) = \sum_i p_i \log{p_i} - \sum_i p_i \log{q_i} = \mathbf{H} (\mathrm{P}, \mathrm{Q}) - \mathbf{H} (\mathrm{P}) \geq 0

我们就得到了 Gibbis 不等式:

ipilogqiipilogpi-\sum_i p_i \log{q_i} \geq -\sum_i p_i \log{p_i}

关于相对熵的推导证明和推论

即因为相对熵 = 交叉熵 - 熵且其大于等于 0,故有交叉熵 ≥ 熵

相对熵又叫 KL 散度,或信息增益,也称信息散度。

相关文章: