[贝叶斯八]之极大似然估计

一、简单介绍

极大似然估计是根据观察数据来估计模型参数的方法，即“模型已定，模型未知”。它是参数估计的一种方法，请参考《概率论与数理统计(浙大第四版)》中参数估计。

举个例子，大家都知道抛硬币的实验：假设有一枚不规则的硬币，要计算它正面朝上的概率。其实就是估计一个二分布的参数。现在我们开始做实验，抛了10次，得到相应的结果。那么如何根据这些结果来估计我们的参数呢？这就是极大似然估计要处理的一个场景。

二、理论推导

我们假设 $[x_{1}, x_{2}, x_{3}, x_{4}, . . . . . . ., x_{n}]$ 是独立同分布的采样， $θ$ 是模型参数。因为采样是独立的，所以该采样出现的概率可以用如下连乘表示。

\begin{aligned} (1) & L (θ) & = L (x_{1}, x_{2}, . . . . . ., x_{n}; θ) \\ (2) & = \prod_{i = 1}^{n} p (x_{i}; θ), θ \in Θ . \end{aligned}

这一概率随着 $θ$ 取值而变化，它是 $θ$ 的函数， $L (θ)$ 称为样本的似然函数(注意，这里 $[x_{1}, x_{2}, x_{3}, x_{4} \dots \dots x_{n}]$ 是已知的样本值，他们都是常数)。显然，这个事件已经发生了，那么按照人类的常理来说，我们认为概率越大的事件越可能发生，也就是我们可以认为 $θ$ 参数肯定是在 $L (θ)$ 最大的时候取得的。由此，我们的问题变成了如何来最大化 $L (θ)$ 。这也就是极大似然估计的想法。

对于计算来说连乘不太好算，所以一般取对数。

\begin{aligned} (3) & L L (θ) & = l o g \prod_{i = 1}^{n} p (x_{i}; θ) \\ (4) & = \sum_{i = 1}^{n} l o g p (x_{i}; θ) \end{aligned}

最终我们要求的 $\hat{θ}$ 可以写成如下式子。

\begin{aligned} (5) & \hat{θ} & = \underset{θ}{a r g m a x} L L (θ) \end{aligned}

三、例题

例题均来自于概率论浙大第4版(在此再次表示感谢~)。

例题1：

例题2：

四、参考文献

[1] 《概率论与数理统计(浙大第4版)》
[2] 周志华. 《机器学习》[M]. 清华大学出版社, 2016.
[3] http://jermmy.xyz/2017/09/30/2017-9-30-maximum-likelihood-estimation/

<个人网页blog已经上线，一大波干货即将来袭：https://faiculty.com/>