理解香浓熵

随机变量的有趣与乏味
香浓熵
均匀分布下的香浓熵
不均匀分布下的香浓熵

随机变量的有趣与乏味

香浓熵用来度量一个随机变量的信息量。
举个例子，假设有一台收音机，每秒钟发出一个单音，这个单音的频率就是随机变量的值。
如果它每次发的音都是一样的，比如，都是440Hz（钢琴上的A4），那么它就很单调乏味，信息量很小。
如果它有时候发440Hz，有时候发261Hz(中央C)，那么信息量就大一点，也有趣一点。
以此类推，如果它能发出钢琴上的全部88个key的音，就更加丰富多彩了，甚至可以演奏起音乐来了。

香浓熵

那么，怎样量化这个“信息量”或者“有趣程度”呢？
香浓给出一个公式：
$\Eta(X) = - \sum_{i=1}^n P(x_i)log_b P(x_i)$
其中， $x_i$ 是随机变量的每一个可能的值， $P(x_i)$ 是该值出现的概率。b是一个参数，常用的有 $2, 10, e$ (自然对数）。

例1
极端情况，随机变量只有一个可能的值，其概率是1 (100%).
香浓熵：
$\Eta(X) = -1log1 = 0$
这是香浓熵的最小值。
例2
随机变量有2个可能的值，概率各0.5 (50%).
香浓熵：
$\Eta(X) = -(0.5log_{2}0.5+0.5log_{2}0.5) = 1$

此处令 $b=2$ , 即用 $log_{2}$ 。下面的例子都用 $b=2$ 。
这就比例1中的值要高了。

均匀分布下的香浓熵

在保持均匀概率分布的条件下，增加随机变量的可能值的个数，我们看一下香浓熵的变化情况。
假设随机变量 $X$ 有 $n$ 个取值，由于是均匀分布，那么每个值的概率为 $\frac 1 n$ 。
香浓熵：
$\Eta(X) = - \sum_{i=1}^n \frac 1 n log\frac 1 n = - \sum_{i=1}^n \frac 1 n (- log n) = log{n}$

函数曲线长这样（就是 $log$ 函数）：
理解香浓熵
所以，当随机变量的所有可能取值均匀概率分布时，随着取值个数的增加，香浓熵是这样增长的。

不均匀分布下的香浓熵

我们记住，当随机变量只有2个可能值，且概率各位50%时，香浓熵的值是1（参数 $b=2$ ，即用 $log_2$ )。
现在我们看看，如果这两个值的概率不等会怎样？

例1
$x_1$ 的概率为10%， $x_2$ 的概率为90%，那么：
$\Eta(X) = - ( 0.1 log_{2}0.1 + 0.9 log_{2} 0.9) \approx 0.469$
例2
$x_1$ 的概率为30%， $x_2$ 的概率为70%，那么：
$\Eta(X) = - ( 0.3 log_{2}0.3 + 0.7 log_{2} 0.7) \approx 0.881$

当可能值的个数不变时，其分布得越均匀（概率彼此接近），则香浓熵越大。
举个极端的例子，如果上述那台收音机，在一万年中一直发440Hz，只有一次发出了261Hz，那么可以想见，其带来的丰富性是微不足道的，其香浓熵的值也更接近于0（即：始终只发一个音的情况）。