老卫带你学---最大熵模型与EM算法

最大熵模型与EM算法

最大熵模型与EM算法在机器学习里面尤为重要。接下来我们一步一步的介绍相关细节：

先验概率与后验概率

后验概率就是通过已有的数据来推断未知的数据，先验概率就是直接对未知的数据进行预测。
所以，我们机器学习的目标就是求后验概率，即通过已有的训练样本来推断测试样本

极大似然估计

老卫语录：就是求得θ，使得似然函数取最大值，这种方法称为极大似然估计

老卫带你学---最大熵模型与EM算法
为了计算方便，我们一般将似然函数转化为对数似然函数。
下面是最大似然函数的一般形式。warning：指数部分可以看成m/n，m代表P(x)这个概率出现的次数，n代表样本总数为n,加入这个指数是为了归一化
老卫带你学---最大熵模型与EM算法

自信息

老卫语录：概率就是确定性的度量，信息就是对不确定性的度量（例如两个男人要结婚了，这个概率很低，但是信息量很大！！！）；概率越高，信息越少，概率越低，信息越多
老卫语录：之所以是log的形式，是因为如果两个事件X与Y是独立分布，则他们同时发出的信息因为log的存在，为两个信息之和
老卫带你学---最大熵模型与EM算法
老卫语录：熵是对随机变量的平均不确定性的度量

老卫语录：不确定性越大，熵越大；若随机变量退化成定量，则熵为0
老卫语录：熵其实定义了函数（概率分布函数）到数（熵）的映射，这样的映射在数学上称为泛函
老卫带你学---最大熵模型与EM算法

互信息

老卫语录：互信息就是在知道一个信息的前提下，对另一个信息确定性的度量
老卫带你学---最大熵模型与EM算法

老卫语录：熵是信息的平均值，而平均互信息是是互信息的平均值

信息论与机器学习的关系：

条件熵，联合熵以及平均互信息的关系：
平均互信息=熵-条件熵

老卫语录：交叉熵就是衡量两个概率分布的差异性；例如一个概率分布是1/4，一个概率分布是1/3，衡量他们的差异性
交叉熵与交叉熵代价函数公式如下：（warning：交叉熵代价函数中，y代表真实值，a代表预测值）
老卫带你学---最大熵模型与EM算法
老卫语录：相对熵也是衡量两个概率分布的差异性

为了方便记忆，下面是各个熵之间的关系：

左边这一列代表名字分别是（联合熵，平均互信息，条件熵，交叉熵，相对熵）
第二列是公式；
第三列代表其衡量的目标（既不衡量相似也不衡量差异，相似性，差异性，差异性，差异性）
第四列代表对称性（对称，对称，不对称，不对称，不对称）
老卫带你学---最大熵模型与EM算法
最大熵模型：（李航《统计学习方法》 p80）
老卫语录：最大熵原理就是在满足约束条件的概率模型中选择熵最大的模型
老卫语录：何为熵最大。因为0=<H(X)<=log|X|，所以当X均匀分布时右边等号成立，也就是在满足约束条件的概率模型中选择等可能性的模型
对应最大熵的计算请看李航的书：
老卫语录：
1.先将最大值问题转化为最小值问题
2.引进拉格朗日乘子，定义拉格朗日函数
3.根据拉格朗日函数的对偶性，我们可以将原始问题min max L(P,w)转化为max min L(P,w)，首先先对L函数求p的各个偏导，令各偏导等于0后，求得新的L函数，接着再对L函数求w的各个偏导，并令其等于0，最终就得到结果
老卫带你学---最大熵模型与EM算法

另外这里推荐一篇博客：
最大熵： https://blog.csdn.net/Hearthougan/article/details/81488588
经验分布： https://blog.csdn.net/tian_panda/article/details/80742801