相对熵可以衡量两个分布之间的不相似性,即 P 和 Q 两个分布越相似,相对熵越小,否则越大。
相对熵的公式是
DKL(P∣∣Q)=i∑pilogqipi
显然,当 P 和 Q 的分布完全相同时,log 里就是 1,所以每项都是 0,相对熵也为 0,印证了开头的那句话。
关于相对熵有个不等式:
DKL(P∣∣Q)≥0
下面给出两种证明方法:
-
由于在 x∈(0,1] 时,有 ln(x)≤x−1 当且仅当 x=1 时等号成立,因此有
−DKL(P∣∣Q)=i∑pilogpiqi≤i∑pi(piqi−1)=i∑(qi−pi)=i∑qi−i∑pi=0
所以有 DKL(P∣∣Q)≥0
-
根据 Jensen 不等式,由于 log(x) 是一个严格的 concave 函数,所以有
−DKL(P∣∣Q)=i∑pilogpiqi≤logi∑pipiqi=logi∑qi=0
所以有 DKL(P∣∣Q)≥0
如果我们把相对熵公式展开,会得到
DKL(P∣∣Q)=i∑pilogpi−i∑pilogqi=H(P,Q)−H(P)≥0
我们就得到了 Gibbis 不等式:
−i∑pilogqi≥−i∑pilogpi

即因为相对熵 = 交叉熵 - 熵且其大于等于 0,故有交叉熵 ≥ 熵
相对熵又叫 KL 散度,或信息增益,也称信息散度。