极大似然估计与贝叶斯估计

贝叶斯估计与极大似然估计在思想上有很大的不同，代表着统计学中贝叶斯学派和频率学派对统计的不同认识。

极大似然估计是频率学派观点，它的观点可以这样理解：待估计参数 $\theta$ 是客观存在的，只是未知而已，已知观测样本 $D$ ，求得 $\hat{\theta}$ ，使得在 $\theta = \hat{\theta}$ 时，产生观测样本数据 $D$ 的可能性最大，我们就说 $\hat{\theta}$ 是 $\theta$ 的极大似然估计。
$\hat{\theta} = arg\ {\underset {\theta}{\operatorname {max} }}\ P(D|\theta)$
贝叶斯估计是贝叶斯学派观点，它的观点可以这样理解：待估计参数 $\theta$ 也是随机变量，因此只能根据观测样本估计参数 $\theta$ 的分布。
$\begin{aligned} \hat{P}(\theta|D)&=\frac{P(\theta)P(D|\theta)}{P(D)} \\ &= \frac{P(\theta)P(D|\theta)}{\sum^n_{j=1}P(\theta_j)P(D|\theta_j)} \end{aligned}$
其中， $P(\theta)$ 是 $\theta$ 的先验分布。由于后验分布是一个条件分布，通常我们取后验分布的期望作为参数的估计值。

因此，极大似然估计是在观测样本数据 $D$ 后，求出 $\theta$ 最有可能的值(即在这个值下，观测到 $D$ 的可能性最大)；而贝叶斯估计则是在假定 $\theta$ 服从 $P(\theta)$ 的先验分布下(对于极大似然估计来说，默认 $\theta$ 是均匀分布的)，通过观测样本数据 $D$ , 求出 $\theta$ 的后验分布。

其实，可以简单地把两者联系起来，假设先验分布是均匀分布，取后验概率最大，就能从贝叶斯估计得到极大似然估计。
极大似然估计与贝叶斯估计