最大熵原理
近期在学习信息论,看到了最大熵原理。关于最大熵原理,之前有所了解,也知道它在信息论中的一些基本应用和推论。最近我定量地学习了最大熵原理并结合热力学问题加深了理解。
最大熵原理的思想
最大熵原理的思想就是如果对一个系统存在未知部分,则不应作主观假设,而保留最大的混乱程度。即对于系统已知条件为X,那么最大熵分布
简单例子
例如骰子,求6个面概率最合理分布p。
最合理分布为最大熵分布
由Jensen不等式,
即骰子是均匀分布的。
对数似然函数
在统计学习中,perceptron,CRF,sigmoid,tanh,softmax等各种概率计算的函数都有一个共同点,概率的对数似然函数,往往是约束或者条件特征的线性函数。那么,我们称它们为指数族函数。这个背后蕴含着深刻的道理。我们可以用最大熵来解释。以下为一个推导:
指数函数—最大熵分布在热力学中的应用
下面给两个热力学的例子: