机器学习：Kullback-Leibler Divergence （KL 散度）

今天，我们介绍机器学习里非常常用的一个概念，KL 散度，这是一个用来衡量两个概率分布的相似性的一个度量指标。我们知道，现实世界里的任何观察都可以看成表示成信息和数据，一般来说，我们无法获取数据的总体，我们只能拿到数据的部分样本，根据数据的部分样本，我们会对数据的整体做一个近似的估计，而数据整体本身有一个真实的分布（我们可能永远无法知道），那么近似估计的概率分布和数据整体真实的概率分布的相似度，或者说差异程度，可以用 KL 散度来表示。

KL 散度，最早是从信息论里演化而来的，所以在介绍 KL 散度之前，我们要先介绍一下信息熵。信息熵的定义如下：

)

xi 发生的概率，信息熵其实反映的就是要表示一个概率分布需要的平均信息量。

在信息熵的基础上，我们定义 KL 散度为：

)

或者表示成下面这种形式：

)

p 之间越接近，那么估计的概率分布于真实的概率分布也就越接近。

KL 散度可以帮助我们选择最优的参数，比如 N 个样本，构建如下的目标函数：

}

因为我们要预估的是参数 )，而这个就是我们熟悉的最大似然估计。