自信息、香农熵、互信息、交叉熵、KL散度备忘录

机器学习中相关信息度量的备忘录

自信息

自信息(self-information)用来衡量单一随机事件发生时所包含的信息量的多寡。

I (p_{i}) = - l o g (p_{i})

香农熵

香农熵是随机事件X的所有可能结果的自信息期望值。

H (x) = E_{x \sim P} [I (x)] = - \sum_{i = 1}^{n} p (x_{i}) I (x_{i}) = - \sum_{i = 1}^{n} p (x_{i}) l o g_{b} (p (x_{i}))

互信息

互信息用来表示随机事件X和随机事件Y之间的相关性。

I (X, Y) = H (X) + H (Y) - H (X, Y)

直观的解释为，两个事件XY分开到两个事件同事出现的过程中，熵减小的量。将上式展开为：

I (X, Y) = \sum_{x} \sum_{y} p (x, y) \frac{l o g p (x, y)}{l o g p (x) l o g p (y)}

条件熵

条件熵 H(Y|X) 表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。

H (Y | X) = \sum_{x} p (x) H (Y | X = x) = - \sum_{x} p (x) \sum_{y} p (y | x) l o g p (y | x) = - \sum_{x} \sum_{y} p (x, y) l o g p (y | x)

条件熵

H (Y | X)

相当于联合熵减去X的熵，即：

H (Y | X) = H (X, Y) - H (X)

交叉熵

交叉熵是一个用来比较两个概率分布p和q的数学工具。

H (p, q) = E_{p} [- l o g (q)] = - \int_{x} p (x) \cdot l o g (q (x)) d x

其中p为真实概率分布。

如果 $p (x)$ 和 $q (x)$ 同进退，即 $p (x)$ 大的时候 $q (x)$ 大， $p (x)$ 小的时候 $q (x)$ 小，那么交叉熵就小。

KL散度

相对熵(relative entropy)又称为KL散度(Kullback-Leibler divergence)，信息增益(information gain)。KL散度是两个概率分布P和Q差别的非对称度量。在贝叶斯推理中，就是用后验分布 q 来近似先验分布 p 的时候造成的信息损失。

D_{K L} (p | | q) = H (p, q) - H (p)

直观的解释：如果分布q能承载更多分布p的信息，则KL散度就小。

KL散度不对称

作为一个度量，KL散度能够很好的表征两个分布之间的相似程度。但它有一个很大的缺点是不对称性，即 $D_{K L} (p | | q) \neq D_{K L} (q | | p)$ 。

借助《Deep Learning》书中的例子：
自信息、香农熵、互信息、交叉熵、KL散度备忘录
现在要做一个参数估计，假设分布q是高斯分布，用分布q拟合分布p，可将目标函数设计为 $q * = a r g m i n_{q} D_{K L} (p | | q) = (- \int_{x} p (x) \cdot l o g (q (x)) d x) - C$ ，其中常量 $C$ 表示为 $H (p)$ ，不影响目标函数。

图中的高斯分布 $q (x)$ (绿色虚线），根据前面介绍的交叉熵，应该跟 $p (x)$ (蓝色线)同进退，也就是完全拟合。奈何 $q (x)$ 是一个高斯分布(爹妈生的不好)，只能取一个中间值。

另一个列子：
自信息、香农熵、互信息、交叉熵、KL散度备忘录
还是高斯分布q拟合分布p，这次目标函数编程相反的KL散度 $q * = a r g m i n_{q} D_{K L} (q | | p) = (- \int_{x} q (x) \cdot l o g (p (x)) d x) - C$ 。同样的分析方式，可得最佳拟合如上图所示的绿线。

根据上面两个例子，可知KL散度的不对称性