最大熵模型与EM算法

最大熵模型与EM算法在机器学习里面尤为重要。接下来我们一步一步的介绍相关细节:

先验概率与后验概率

后验概率就是通过已有的数据来推断未知的数据,先验概率就是直接对未知的数据进行预测。
所以,我们机器学习的目标就是求后验概率,即通过已有的训练样本来推断测试样本

极大似然估计

老卫语录:就是求得θ,使得似然函数取最大值,这种方法称为极大似然估计

老卫带你学---最大熵模型与EM算法
为了计算方便,我们一般将似然函数转化为对数似然函数。老卫带你学---最大熵模型与EM算法
下面是最大似然函数的一般形式。warning:指数部分可以看成m/n,m代表P(x)这个概率出现的次数,n代表样本总数为n,加入这个指数是为了归一化
老卫带你学---最大熵模型与EM算法

自信息

老卫语录:概率就是确定性的度量,信息就是对不确定性的度量(例如两个男人要结婚了,这个概率很低,但是信息量很大!!!);概率越高,信息越少,概率越低,信息越多
老卫语录:之所以是log的形式,是因为如果两个事件X与Y是独立分布,则他们同时发出的信息因为log的存在,为两个信息之和
老卫带你学---最大熵模型与EM算法
老卫语录:熵是对随机变量的平均不确定性的度量
老卫带你学---最大熵模型与EM算法
老卫语录:不确定性越大,熵越大;若随机变量退化成定量,则熵为0
老卫语录:熵其实定义了函数(概率分布函数)到数(熵)的映射,这样的映射在数学上称为泛函
老卫带你学---最大熵模型与EM算法

互信息

老卫语录:互信息就是在知道一个信息的前提下,对另一个信息确定性的度量
老卫带你学---最大熵模型与EM算法
老卫带你学---最大熵模型与EM算法
老卫语录:熵是信息的平均值,而平均互信息是是互信息的平均值
老卫带你学---最大熵模型与EM算法
信息论与机器学习的关系:
老卫带你学---最大熵模型与EM算法
条件熵,联合熵以及平均互信息的关系:
平均互信息=熵-条件熵
老卫带你学---最大熵模型与EM算法
老卫语录:交叉熵就是衡量两个概率分布的差异性;例如一个概率分布是1/4,一个概率分布是1/3,衡量他们的差异性
交叉熵与交叉熵代价函数公式如下:(warning:交叉熵代价函数中,y代表真实值,a代表预测值)
老卫带你学---最大熵模型与EM算法
老卫语录:相对熵也是衡量两个概率分布的差异性
老卫带你学---最大熵模型与EM算法
为了方便记忆,下面是各个熵之间的关系:
老卫带你学---最大熵模型与EM算法
左边这一列代表名字分别是(联合熵,平均互信息,条件熵,交叉熵,相对熵)
第二列是公式;
第三列代表其衡量的目标(既不衡量相似也不衡量差异,相似性,差异性,差异性,差异性)
第四列代表对称性(对称,对称,不对称,不对称,不对称)
老卫带你学---最大熵模型与EM算法
最大熵模型:(李航《统计学习方法》 p80)
老卫语录:最大熵原理就是在满足约束条件的概率模型中选择熵最大的模型
老卫语录:何为熵最大。因为0=<H(X)<=log|X|,所以当X均匀分布时右边等号成立,也就是在满足约束条件的概率模型中选择等可能性的模型
对应最大熵的计算请看李航的书:
老卫语录:
1.先将最大值问题转化为最小值问题
2.引进拉格朗日乘子,定义拉格朗日函数
3.根据拉格朗日函数的对偶性,我们可以将原始问题min max L(P,w)转化为max min L(P,w),首先先对L函数求p的各个偏导,令各偏导等于0后,求得新的L函数,接着再对L函数求w的各个偏导,并令其等于0,最终就得到结果

老卫带你学---最大熵模型与EM算法
老卫带你学---最大熵模型与EM算法
另外这里推荐一篇博客:
最大熵: https://blog.csdn.net/Hearthougan/article/details/81488588
经验分布: https://blog.csdn.net/tian_panda/article/details/80742801

相关文章:

  • 2022-01-13
  • 2021-07-29
  • 2021-06-09
  • 2021-04-06
  • 2022-01-20
  • 2021-11-18
猜你喜欢
  • 2021-10-10
  • 2021-10-28
  • 2022-02-04
  • 2021-08-07
  • 2021-09-20
  • 2021-11-19
  • 2022-01-17
相关资源
相似解决方案