1854年,德国物理学家鲁道夫·克劳修斯(T.Clausius) 首次提出熵的概念,我国物理学家胡刚复教授于1923年根据“热温商”之意首次把entropy译为“熵”。

物理学中的熵
19世纪,物理学家开始认识到,世界的动力是能量,并且提出"能量守恒定律",即能量的总和是不变的。但是,有一个现象让他们很困惑。物理学家发现,能量无法百分百地转换。比如,蒸汽机使用的是热能,将其转换为推动机器的机械能。这个过程中,总是有一些热能损耗掉,无法完全转变为机械能。一开始,物理学家以为是技术水平不高导致的,但后来发现,技术再进步,也无法将能量损耗降到零。他们就将那些在能量转换过程中浪费掉的、无法再利用的能量称为熵。后来,这个概念被总结成了"热力学第二定律":能量转换总是会产生熵,如果是封闭系统,所有能量最终都会变成熵。

多种解释之一:能量转换的时候,大部分能量会转换成预先设定的状态,比如热能变成机械能、电能变成光能。但是,就像细胞突变那样,还有一部分能量会生成新的状态。这部分能量就是熵,由于状态不同,所以很难利用,除非外部注入新的能量,专门处理熵。

总之,能量转换会创造出新的状态,熵就是进入这些状态的能量。状态多,就是可能性多,表示比较混乱;状态少,就是可能性少,相对来说就比较有秩序。因此,上面结论的另一种表达是:能量转换会让系统的混乱度增加,熵就是系统的混乱度。

宏观态与微观态
一个一分为二的气缸,4个不同的分子,那么有多少种放置的可能?
熵、信息量、信息熵、交叉熵、联合熵、条件熵
显然一共有5种宏观态。
对于第1种情况—左4右0,有1种微观态;
对于第2种情况—左3右1,有4种微观态;
对于第3种情况—左2右2,有6种微观态;
对于第4种情况—左2右3,有4种微观态;
对于第5种情况—左0右4,有1种微观态;

再来看一个例子:
一副扑克牌54张
1、从中随机抽1张,共有多少可能?C541=54C_{54}^1=54
  这种情况下的微观态数是54个。
2、从中随机抽3张,共有多少可能?C543=545352321=24804C_{54}^3=\frac{54*53*52}{3*2*1}=24804
  这种情况下的微观态数是24804个。
3、从中随机抽3张且这3张是同花的情况?4C133=11444*C_{13}^3=1144
  这种情况下的微观态数是1144个。

那么抽取的3张中是同花的概率为p()=114424804=4.6%p(同花)=\frac{1144}{24804}=4.6\%
那么抽取的3张中不是同花的概率为1p()=95.4%1-p(同花)=95.4\%

显然同花的概率小,非同花的概率大,为什么呢?
  3张是同花的微观态数是1144;
  3张不是同花的微观态数是24804-1144=23660;
  因为非同花微观态 > 同花微观态

如何定量描述这种问题呢?—产生了熵(Entropy)的概念
熵的公式:E=ϵlnΩE=\epsilon*ln\Omega
其中:ϵ\epsilon为玻尔兹曼参数,ϵ=1.381023J/K\epsilon=1.38*10^{-23} J/K
   Ω\Omega就是某种情况下的微观态个数。

大自然总是倾向于熵最大化;而人类总是倾向于熵最小化,即规则化。

因为自然界总是从微观态个数少向微观态个数多的方向发展,所以Ω\Omega总是由少向多变化,熵总是由小向大变化。
熵增加理论:在一个孤立系统中,熵是不减少的!

熵可以作为一个系统混乱程度的标准 。
如果一个系统随机性很大、非常混乱、毫无秩序,则此系统的信息熵越大;反之,如果一个系统是确定的、具有一定的规则、服从一定的秩序,则此系统的信息熵越小。

信息量

信息量是对信息的度量,就跟温度的度量是摄氏度一样,信息的大小跟随机事件的概率有关。
信息论创始人C.E.Shannon定义的一个事件的信息量为:

I=log2(1p(x))=log2(p(x))I= log_2(\frac{1}{p(x)}) =-log_2(p(x))

其中p(x)p(x)为事件xx发生的概率。信息量的单位是bits,1bit=log2(2)1 bit=log_2(2)
熵、信息量、信息熵、交叉熵、联合熵、条件熵
0p(x)10 \leqslant p(x) \leqslant 1,当p(x)=0.02p(x)=0.02时,其信息量为5.644

例子:
小明国际象棋下的很一般,假设他在一次国际象棋比赛中获得冠军的概率为0.1;小红国际象棋下的很好,假设他在一次国际象棋比赛中获得冠军的概率为0.9。

如果我告诉你小明在一场国际象棋比赛中获得了冠军,你肯定很惊讶,因为你觉得小明下棋一般,不太可能获得冠军,也就是说你得到的信息量很大,即I=log2(p())=log2(p(0.1))3.32I_{小明得冠军}=-log_2(p(小明得冠军))=-log_2(p(0.1))\approx 3.32比特
如果我告诉你小红在一场国际象棋比赛中获得了冠军,你可能不觉得奇怪,对你来说这个信息量很小,即I=log2(p())=log2(p(0.9))0.152I_{小红得冠军}=-log_2(p(小红得冠军))=-log_2(p(0.9))\approx 0.152 比特

信息熵

信息熵是信息价值大小的度量指标。
香农(Shannon)给出的信息熵公式:
E=ki=1npi(lognpi)=ki=1npilognpiE=k\sum_{i=1}^np_i*(-log_n*p_i)=-k\sum_{i=1}^np_i*log_n*p_i
一般我们让n=2n=2,并去掉系数kk,所以有:
E=i=1npilog2piE=-\sum_{i=1}^np_i*log_2*p_i

例1:
某天气预报报道哈尔滨的冬天气温为30摄氏度。这一听很震惊,因为信息量很大,但是细细一想,觉得这十有八九是假的,也就是说这条报道的价值很低。如果说哈尔滨的夏天气温为30摄氏度,这很常见,也就是说其信息量很低,那么其价值呢?如何去衡量?
例2:
假如有32个足球对进行比赛,每一队的实力相当,那么每一队胜出的概率都是132\frac{1}{32},那么要猜哪个队胜出很困难,其信息熵为:
E=32(132log2(132)=5E=-32*(\frac{1}{32}*log_2(\frac{1}{32})=5

交叉熵

L=1nj=0n(yjlogn(Hj)+(1yj)logn(1Hj))L=\frac{1}{n}\sum_{j=0}^n\biggl(y_j*log_n(H_j)+(1-y_j)*log_n(1-H_j)\biggr)   (1)
为了计算简便,我们可以使用log2log_2lnln替代上式中的lognlog_n
损失函数LL越大(约有价值),证明我们得到的wi,bw_i,b越好,但是我们习惯损失函数越小越好,所以对右边取负:

L=1nj=0n(yjlog(Hj)+(1yj)log(1Hj))L=-\frac{1}{n}\sum_{j=0}^n\biggl(y_j*log(H_j)+(1-y_j)*log(1-H_j)\biggr)
=1nj=0n(yjln(Hj)+(1yj)ln(1Hj))\quad=-\frac{1}{n}\sum_{j=0}^n\biggl(y_j*ln(H_j)+(1-y_j)*ln(1-H_j)\biggr)

极大似然估计(Maximum Likelihood Estimation,MLE)角度理解:

MLE=1nj=0n(Hjyj(1Hj)1yj)MLE=\frac{1}{n}\prod_{j=0}^n\biggl(H_j^{y_j}*(1-H_j)^{1-y_j}\biggr)

对MLE做等价变形:两边同时取对数就等同于上面的公式(1)了。

相对熵

联合熵

相关文章:

  • 2021-09-08
  • 2019-07-31
  • 2021-01-28
  • 2017-12-05
  • 2018-09-28
  • 2018-05-25
  • 2021-09-13
  • 2021-08-05
猜你喜欢
  • 2021-06-06
  • 2021-10-13
  • 2021-06-29
  • 2020-07-29
  • 2018-04-05
  • 2019-08-10
  • 2021-11-13
  • 2021-09-08
相关资源
相似解决方案