随机变量的有趣与乏味

香浓熵用来度量一个随机变量的信息量。
举个例子,假设有一台收音机,每秒钟发出一个单音,这个单音的频率就是随机变量的值。
如果它每次发的音都是一样的,比如,都是440Hz(钢琴上的A4),那么它就很单调乏味,信息量很小。
如果它有时候发440Hz,有时候发261Hz(中央C),那么信息量就大一点,也有趣一点。
以此类推,如果它能发出钢琴上的全部88个key的音,就更加丰富多彩了,甚至可以演奏起音乐来了。

香浓熵

那么,怎样量化这个“信息量”或者“有趣程度”呢?
香浓给出一个公式:
H(X)=i=1nP(xi)logbP(xi) \Eta(X) = - \sum_{i=1}^n P(x_i)log_b P(x_i)
其中,xix_i是随机变量的每一个可能的值,P(xi)P(x_i)是该值出现的概率。b是一个参数,常用的有2,10,e2, 10, e(自然对数)。

  • 例1
    极端情况,随机变量只有一个可能的值,其概率是1 (100%).
    香浓熵:
    H(X)=1log1=0 \Eta(X) = -1log1 = 0
    这是香浓熵的最小值。

  • 例2
    随机变量有2个可能的值,概率各0.5 (50%).
    香浓熵:
    H(X)=(0.5log20.5+0.5log20.5)=1 \Eta(X) = -(0.5log_{2}0.5+0.5log_{2}0.5) = 1

此处令b=2b=2, 即用log2log_{2}。下面的例子都用b=2b=2
这就比例1中的值要高了。

均匀分布下的香浓熵

在保持均匀概率分布的条件下,增加随机变量的可能值的个数,我们看一下香浓熵的变化情况。
假设随机变量XXnn个取值,由于是均匀分布,那么每个值的概率为 1n\frac 1 n
香浓熵:
H(X)=i=1n1nlog1n=i=1n1n(logn)=logn \Eta(X) = - \sum_{i=1}^n \frac 1 n log\frac 1 n = - \sum_{i=1}^n \frac 1 n (- log n) = log{n}

函数曲线长这样(就是loglog函数):
理解香浓熵
所以,当随机变量的所有可能取值均匀概率分布时,随着取值个数的增加,香浓熵是这样增长的。

不均匀分布下的香浓熵

我们记住,当随机变量只有2个可能值,且概率各位50%时,香浓熵的值是1(参数b=2b=2,即用log2log_2)。
现在我们看看,如果这两个值的概率不等会怎样?

  • 例1
    x1x_1的概率为10%,x2x_2的概率为90%,那么:
    H(X)=(0.1log20.1+0.9log20.9)0.469 \Eta(X) = - ( 0.1 log_{2}0.1 + 0.9 log_{2} 0.9) \approx 0.469
  • 例2
    x1x_1的概率为30%,x2x_2的概率为70%,那么:
    H(X)=(0.3log20.3+0.7log20.7)0.881 \Eta(X) = - ( 0.3 log_{2}0.3 + 0.7 log_{2} 0.7) \approx 0.881

当可能值的个数不变时,其分布得越均匀(概率彼此接近),则香浓熵越大。
举个极端的例子,如果上述那台收音机,在一万年中一直发440Hz,只有一次发出了261Hz,那么可以想见,其带来的丰富性是微不足道的,其香浓熵的值也更接近于0(即:始终只发一个音的情况)。

相关文章: