最大熵模型

1.自信息量：定义为最大熵模型，表示事件发生概率越大，自信息量越少，反之，自信息量越多。

2.熵(香浓熵)：自信息量的期望最大熵模型。熵越大系统越混乱，也越稳定，因为事物总是自发的变得无序。熵越大系统不确定性越大。当时，熵值达到最大，不确定性达到最大，见下图。

最大熵模型

熵的值总是满足最大熵模型

用拉格朗日乘子法来证明右不等式：

已知条件最大熵模型

最大化最大熵模型

构建拉格朗日函数最大熵模型

令函数对最大熵模型求偏导且等于0

最大熵模型在极值点出取得

用一个例子来粗暴地理解熵：

假如一个班级有32号人，在不给定任何信息的条件下让你猜第一名是谁，用二分查找法你可能会猜：

—— 是1-16吗？ ——是！

—— 是1-8吗？ ——是！

—— 是1-4吗？ ——是！

—— 是1-2吗？ ——是！

—— 是1号吗？ ——是！

此种情况你用5次就可以达到目的，因此熵可以不科学地理解为是一种代价最大熵模型。

但是在你知道他们班的学生学号是根据平时成绩优劣来排的且第一名跟班上其他人的成绩差距很大的前提下你可能会猜

—— 是1号 ——是！

这也说明了给定条件会使得熵值变小，代价变小。

熵定义的实际上是一个随机变量的不确定性，熵最大的时候说明随机变量最不确定，换句话说也就是随机变量最随机，对其行为做预测也最难。因此从这个定义上讲最大熵原理的实质就是在已知部分知识的前提下，关于位置分布最合理的推断就是符合已知条件最不确定最随机最差的推断，任意偏倚的选择都会是给推断增加约束和假设，而这些假设和推断是虚假的，我们根本无法掌握到这些信息。

相对熵(relative entropy)又称为KL散度（Kullback-Leibler divergence），KL距离，是两个随机分布间距离的度量。记为DKL(p||q)DKL(p||q)。若假定q真实分布p的一个估计，则相对熵表示假设分布q的无效性或是假设分布q多出的离散程度。

最大熵模型

最大熵模型

最大熵模型

4.交叉熵：等于相对熵加上真实熵。我们知道

最大熵模型

令最大熵模型

则交叉熵实际上是求估计分布下的估计熵。

5.条件熵：设最大熵模型 ,。在X发生的条件下Y的条件熵定义为：

最大熵模型

------未完待续

[1]最大熵学习笔记(一) 预备知识. [Online] https://blog.csdn.net/itplus/article/details/26549871

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode