熵、信息量、信息熵、交叉熵、联合熵、条件熵

熵

1854年，德国物理学家鲁道夫·克劳修斯(T.Clausius) 首次提出熵的概念，我国物理学家胡刚复教授于1923年根据“热温商”之意首次把entropy译为“熵”。

物理学中的熵
19世纪，物理学家开始认识到，世界的动力是能量，并且提出"能量守恒定律"，即能量的总和是不变的。但是，有一个现象让他们很困惑。物理学家发现，能量无法百分百地转换。比如，蒸汽机使用的是热能，将其转换为推动机器的机械能。这个过程中，总是有一些热能损耗掉，无法完全转变为机械能。一开始，物理学家以为是技术水平不高导致的，但后来发现，技术再进步，也无法将能量损耗降到零。他们就将那些在能量转换过程中浪费掉的、无法再利用的能量称为熵。后来，这个概念被总结成了"热力学第二定律"：能量转换总是会产生熵，如果是封闭系统，所有能量最终都会变成熵。

多种解释之一：能量转换的时候，大部分能量会转换成预先设定的状态，比如热能变成机械能、电能变成光能。但是，就像细胞突变那样，还有一部分能量会生成新的状态。这部分能量就是熵，由于状态不同，所以很难利用，除非外部注入新的能量，专门处理熵。

总之，能量转换会创造出新的状态，熵就是进入这些状态的能量。状态多，就是可能性多，表示比较混乱；状态少，就是可能性少，相对来说就比较有秩序。因此，上面结论的另一种表达是：能量转换会让系统的混乱度增加，熵就是系统的混乱度。

宏观态与微观态
一个一分为二的气缸，4个不同的分子，那么有多少种放置的可能？
熵、信息量、信息熵、交叉熵、联合熵、条件熵
显然一共有5种宏观态。
对于第1种情况—左4右0，有1种微观态；
对于第2种情况—左3右1，有4种微观态；
对于第3种情况—左2右2，有6种微观态；
对于第4种情况—左2右3，有4种微观态；
对于第5种情况—左0右4，有1种微观态；

再来看一个例子：
一副扑克牌54张
1、从中随机抽1张，共有多少可能？ $C_{54}^1=54$
这种情况下的微观态数是54个。
2、从中随机抽3张，共有多少可能？ $C_{54}^3=\frac{54*53*52}{3*2*1}=24804$
这种情况下的微观态数是24804个。
3、从中随机抽3张且这3张是同花的情况？ $4*C_{13}^3=1144$
这种情况下的微观态数是1144个。

那么抽取的3张中是同花的概率为 $p(同花)=\frac{1144}{24804}=4.6\%$
那么抽取的3张中不是同花的概率为 $1-p(同花)=95.4\%$

显然同花的概率小，非同花的概率大，为什么呢？
3张是同花的微观态数是1144；
3张不是同花的微观态数是24804-1144=23660；
因为非同花微观态 > 同花微观态

如何定量描述这种问题呢？—产生了熵（Entropy）的概念
熵的公式： $E=\epsilon*ln\Omega$
其中： $\epsilon$ 为玻尔兹曼参数， $\epsilon=1.38*10^{-23} J/K$
$\Omega$ 就是某种情况下的微观态个数。

大自然总是倾向于熵最大化；而人类总是倾向于熵最小化，即规则化。

因为自然界总是从微观态个数少向微观态个数多的方向发展，所以 $\Omega$ 总是由少向多变化，熵总是由小向大变化。
熵增加理论：在一个孤立系统中，熵是不减少的！

熵可以作为一个系统混乱程度的标准。
如果一个系统随机性很大、非常混乱、毫无秩序，则此系统的信息熵越大；反之，如果一个系统是确定的、具有一定的规则、服从一定的秩序，则此系统的信息熵越小。

信息量

信息量是对信息的度量，就跟温度的度量是摄氏度一样，信息的大小跟随机事件的概率有关。
信息论创始人C.E.Shannon定义的一个事件的信息量为：

$I= log_2(\frac{1}{p(x)}) =-log_2(p(x))$ ；

其中 $p(x)$ 为事件 $x$ 发生的概率。信息量的单位是bits, $1 bit=log_2(2)$ 。
熵、信息量、信息熵、交叉熵、联合熵、条件熵
$0 \leqslant p(x) \leqslant 1$ ，当 $p(x)=0.02$ 时，其信息量为5.644

例子：
小明国际象棋下的很一般，假设他在一次国际象棋比赛中获得冠军的概率为0.1；小红国际象棋下的很好，假设他在一次国际象棋比赛中获得冠军的概率为0.9。

如果我告诉你小明在一场国际象棋比赛中获得了冠军，你肯定很惊讶，因为你觉得小明下棋一般，不太可能获得冠军，也就是说你得到的信息量很大，即 $I_{小明得冠军}=-log_2(p(小明得冠军))=-log_2(p(0.1))\approx 3.32比特$ 。
如果我告诉你小红在一场国际象棋比赛中获得了冠军，你可能不觉得奇怪，对你来说这个信息量很小，即 $I_{小红得冠军}=-log_2(p(小红得冠军))=-log_2(p(0.9))\approx 0.152 比特$ 。

信息熵

信息熵是信息价值大小的度量指标。
香农(Shannon)给出的信息熵公式：
$E=k\sum_{i=1}^np_i*(-log_n*p_i)=-k\sum_{i=1}^np_i*log_n*p_i$
一般我们让 $n=2$ ，并去掉系数 $k$ ，所以有：
$E=-\sum_{i=1}^np_i*log_2*p_i$

例1：
某天气预报报道哈尔滨的冬天气温为30摄氏度。这一听很震惊，因为信息量很大，但是细细一想，觉得这十有八九是假的，也就是说这条报道的价值很低。如果说哈尔滨的夏天气温为30摄氏度，这很常见，也就是说其信息量很低，那么其价值呢？如何去衡量？
例2：
假如有32个足球对进行比赛，每一队的实力相当，那么每一队胜出的概率都是 $\frac{1}{32}$ ，那么要猜哪个队胜出很困难，其信息熵为：
$E=-32*(\frac{1}{32}*log_2(\frac{1}{32})=5$

交叉熵

$L=\frac{1}{n}\sum_{j=0}^n\biggl(y_j*log_n(H_j)+(1-y_j)*log_n(1-H_j)\biggr)$ （1）
为了计算简便，我们可以使用 $log_2$ 或 $ln$ 替代上式中的 $log_n$ 。
损失函数 $L$ 越大（约有价值），证明我们得到的 $w_i,b$ 越好，但是我们习惯损失函数越小越好，所以对右边取负：

$L=-\frac{1}{n}\sum_{j=0}^n\biggl(y_j*log(H_j)+(1-y_j)*log(1-H_j)\biggr)$
$\quad=-\frac{1}{n}\sum_{j=0}^n\biggl(y_j*ln(H_j)+(1-y_j)*ln(1-H_j)\biggr)$

极大似然估计（Maximum Likelihood Estimation，MLE）角度理解：

$MLE=\frac{1}{n}\prod_{j=0}^n\biggl(H_j^{y_j}*(1-H_j)^{1-y_j}\biggr)$

对MLE做等价变形：两边同时取对数就等同于上面的公式(1)了。

熵

信息量

信息熵

交叉熵

相对熵

联合熵