信息科学原理第一章(香农熵，条件熵，相对熵)

@(信息科学原理)

导论

导论

香农熵

信息： $h (x) = - \log p (x)$

\begin{aligned} H (X, Y) = - \sum_{x \in X} P (x) \log (P (x)) \\ = E_{x \sim P} l o g (P (x)) \end{aligned}

其中 $0 \log 0 = 0$ ，并且定义 $\log \frac{1}{e} = 1 n a t s$ 和 $\log \frac{1}{2} = 1 b i t s$

联合熵

\begin{array}{lr} H (X, Y) = - \sum_{x \in X, y \in Y} P (x, y) \log P (x, y) \\ = E_{x \sim P} \log P (x, y) \end{array}

互信息

\begin{array}{lr} I (X, Y) = \sum_{x \in X, y \in Y} P (x, y) \log \frac{P (x, y)}{P (X) P (Y)} \\ = E_{x, y \sim P} \log \frac{P (x, y)}{P (X) P (Y)} \\ = D_{K L} (P (x, y) ∣∣ P (X) P (Y)) \end{array}

衡量两个信息的相关性大小的量

条件熵

\begin{array}{lr} H (Y | X) = - \sum_{x \in X, y \in Y} P (x, y) \log P (y | x) \\ = - \sum_{x \in X, y \in Y} P (x, y) \log \frac{P (x, y)}{P (x)} \\ = \sum_{x \in X, y \in Y} P (x, y) \log \frac{P (x)}{P (x, y)} \\ = E_{x, y \sim P} l o g \frac{P (x)}{P (x, y)} \end{array}

知道的信息越多，随机事件的不确定性就越小

proof: $H (X, Y) = H (X) + H (Y | X)$ :
$\begin{array}{lr} H (X, Y) = - \sum_{x \in X, y \in Y} P (x, y) \log P (x, y) \\ = - \sum_{x \in X, y \in Y} P (x, y) \log [P (y | x) P (x)] \\ = - \sum_{x \in X, y \in Y} P (x, y) [\log P (y | x) + \log P (x)] \\ = - \sum_{x \in X, y \in Y} P (x, y) \log P (y | x) + [- \sum_{x \in X} P (x) \log P (x)] \\ = H (Y | X) + H (x) \end{array}$
proof: $H (X, Y | Z) = H (X | Z) + H (Y | X, Z)$
$\begin{array}{lr} H (X, Y | Z) = - \sum_{x, y, z} P (x, y, z) \log P (x, y | z) \\ = - \sum_{x, y, z} P (x, y, z) \log [\frac{P (x, y, z)}{P (z)}] \\ = - \sum_{x, y, z} P (x, y, z) \log [\frac{P (x, y, z)}{P (x, z)} \frac{P (x, z)}{p (z)}] \\ = [- \sum_{x, y, z} P (x, y, z) \log \frac{P (x, y, z)}{P (x, z)}] + [- \sum_{x, y, z} P (x, y, z) \log \frac{P (x, z)}{P (z)}] \\ = [- \sum_{x, y, z} P (x, y, z) \log \frac{P (x, y, z)}{P (x, z)}] + [- \sum_{x, z} P (x, z) \log \frac{P (x, z)}{P (z)}] \\ = H (Y | X, Z) + H (X | Z) \end{array}$

相对熵(KL-散度)

\begin{array}{lr} D_{K L} (P ∣∣ Q) \\ = \sum_{x \in X} P (x) \log \frac{P (x)}{Q (x)} \\ = E_{x \sim P} [\log \frac{P (x)}{Q (x)}] \\ = E_{x \sim P} [\log P (x) - \log Q (x)] \end{array}

note: $D_{K L} (P ∣∣ Q) \geq 0$ ,用于衡量两个分布的相似性

交叉熵

\begin{array}{lr} H (P, Q) = H (P) + D_{K L} (P ∣∣ Q) \\ H (P, Q) = - E_{x \sim P} \log Q (x) \end{array}

边缘概率，条件概率，联合概率

信息科学原理第一章(香农熵，条件熵，相对熵)
- 边缘概率就是计算每一边
- 联合概率计算的是 $P (X = x, Y = y) = P (y | x) P (x)$

- 条件概率计算的是 $P (y | x) = \frac{P (x, y)}{P (x)}$

对于离散的随机变量：
信息科学原理第一章(香农熵，条件熵，相对熵)

对于连续的随机变量：
信息科学原理第一章(香农熵，条件熵，相对熵)

example

\begin{array}{lr} H (X) = - \sum_{x \in X} P (x) \log p (x) \\ = \frac{1}{2} \log 2 + \frac{1}{4} \log 4 + \frac{1}{8} \log 8 + \frac{1}{8} \log 8 \\ = \frac{7}{4} \log 2 = \frac{7}{4} b i t s \end{array}

\begin{array}{lr} H (X | Y) = - \sum_{x \in X y \in Y} P (x, y) l o g \frac{P (x, y)}{P (y)} \\ = \frac{4}{32} \log \frac{1 / 4}{4 / 32} + \frac{2}{32} \log \frac{1 / 4}{2 / 32} + \frac{2}{32} \log \frac{1 / 4}{2 / 32} + \cdot \cdot \cdot \\ = \frac{11}{8} b i t s \end{array}

\begin{array}{lr} H (X, Y) = - \sum_{x \in X y \in Y} P (x, y) l o g P (x, y) \\ = \frac{27}{8} b i t s \end{array}

导论

香农熵

联合熵

互信息

条件熵

相对熵(KL-散度)

交叉熵

边缘概率，条件概率，联合概率

- 条件概率计算的是P(y|x)=P(x,y)P(x)P(y|x)=P(x,y)P(x)

example

- 条件概率计算的是 $P (y | x) = \frac{P (x, y)}{P (x)}$