随机变量的有趣与乏味
香浓熵用来度量一个随机变量的信息量。
举个例子,假设有一台收音机,每秒钟发出一个单音,这个单音的频率就是随机变量的值。
如果它每次发的音都是一样的,比如,都是440Hz(钢琴上的A4),那么它就很单调乏味,信息量很小。
如果它有时候发440Hz,有时候发261Hz(中央C),那么信息量就大一点,也有趣一点。
以此类推,如果它能发出钢琴上的全部88个key的音,就更加丰富多彩了,甚至可以演奏起音乐来了。
香浓熵
那么,怎样量化这个“信息量”或者“有趣程度”呢?
香浓给出一个公式:
H(X)=−i=1∑nP(xi)logbP(xi)
其中,xi是随机变量的每一个可能的值,P(xi)是该值出现的概率。b是一个参数,常用的有2,10,e(自然对数)。
-
例1
极端情况,随机变量只有一个可能的值,其概率是1 (100%).
香浓熵:
H(X)=−1log1=0
这是香浓熵的最小值。
-
例2
随机变量有2个可能的值,概率各0.5 (50%).
香浓熵:
H(X)=−(0.5log20.5+0.5log20.5)=1
此处令b=2, 即用log2。下面的例子都用b=2。
这就比例1中的值要高了。
均匀分布下的香浓熵
在保持均匀概率分布的条件下,增加随机变量的可能值的个数,我们看一下香浓熵的变化情况。
假设随机变量X有n个取值,由于是均匀分布,那么每个值的概率为 n1。
香浓熵:
H(X)=−i=1∑nn1logn1=−i=1∑nn1(−logn)=logn
函数曲线长这样(就是log函数):

所以,当随机变量的所有可能取值均匀概率分布时,随着取值个数的增加,香浓熵是这样增长的。
不均匀分布下的香浓熵
我们记住,当随机变量只有2个可能值,且概率各位50%时,香浓熵的值是1(参数b=2,即用log2)。
现在我们看看,如果这两个值的概率不等会怎样?
- 例1
x1的概率为10%,x2的概率为90%,那么:
H(X)=−(0.1log20.1+0.9log20.9)≈0.469
- 例2
x1的概率为30%,x2的概率为70%,那么:
H(X)=−(0.3log20.3+0.7log20.7)≈0.881
当可能值的个数不变时,其分布得越均匀(概率彼此接近),则香浓熵越大。
举个极端的例子,如果上述那台收音机,在一万年中一直发440Hz,只有一次发出了261Hz,那么可以想见,其带来的丰富性是微不足道的,其香浓熵的值也更接近于0(即:始终只发一个音的情况)。