参数估计、点估计、极大似然估计

快速了解：
参数估计，估计的是随机变量分布的参数。可以先去博主的另一篇文章了解随机变量及其分布。
所谓分布的参数，例如正态分布 $X$ ~ $N(u,\sigma^2)$ ， $u,\sigma$ 就是正态分布的参数。
后面要讲的点估计就是已知总体的一个样本，估计分布的参数。例如知道正态分布的一个样本，估计总体参数 $u$ , $\sigma$ 。

参数估计指估计分布的参数。
点估计，是已知一个样本集的情况下，估计分布的参数。

1 参数估计

随机变量 $X$ 的分布函数已知，但它的一个或多个参数未知，根据已有样本，估计 $X$ 分布的参数。

2 点估计

根据 $X$ 的一个样本集估计总体未知参数的问题称为参数的点估计问题。

点估计问题的一般提法为：
设总体 $X$ 的分布函数 $F(x;\theta)$ 的形式已知， $\theta$ 是待估参数。
$X_1,X_2,\cdot \cdot \cdot,X_n$ 是 $X$ 的一个样本集， $x_1,2_2,\cdot \cdot \cdot,x_n$ 是对应的样本值。
点估计问题就是要构造一个估计量 $\widehat \theta(X_1,X_2,\cdot \cdot \cdot,X_n)$ ，用它的观察值 $\widehat \theta(x_1,x_2,\cdot \cdot \cdot,x_n)$ 作为未知参数 $\theta$ 的近似值。我们称 $\widehat \theta(X_1,X_2,\cdot \cdot \cdot,X_n)$ 为 $\theta$ 的估计量， $\widehat \theta(x_1,x_2,\cdot \cdot \cdot,x_n)$ 为 $\theta$ 的估计值。不致混淆的情况下将估计量和估计值统称为估计，并都简记为 $\widehat\theta$ 。

由上面对点估计问题的描述，可以看出估计量是样本集的函数，对于不同的样本集 $\theta$ 的估计值一般不同。

下面的极大似然估计法即用于构造估计量。

3 极大似然估计

快速了解
以离散型随机变量为例，进行快速总结：

$X_1,X_2,\cdot \cdot \cdot ,X_n$ 的联合分布律
$X_1,X_2,\cdot \cdot \cdot ,X_n$ 是 $X$ 的样本集，则 $X_1,X_2,\cdot \cdot \cdot ,X_n$ 的联合分布律为
$\prod_{i=1}^np(x_i；\theta).$
事件{ $X_1=x_1,X_2=x_2,\cdot \cdot \cdot ,X_n=x_n$ }发生的概率为下式，该事件的概率（ $L(\theta)$ ）称为样本的似然函数。
$L(\theta)=L(x_1,x_2,\cdot \cdot \cdot ,x_n；\theta)=\prod_{i=1}^np(x_i；\theta)$
使似然函数 $L(\theta)$ 达到最大的参数值 $\widehat \theta$ ，称为参数 $\theta$ 的最大似然估计值。
$p(x_i；\theta)$ 关于 $\theta$ 可微，这时 $\widehat \theta$ 可通过下述方程（对似然函数求导，令其等于0）获得
$\frac{d}{d\theta}L(\theta)=0$
因为 $L(\theta)$ 与 $lnL(\theta)$ 在同一 $\theta$ 处取到极值，因此， $\theta$ 的最大似然估计也可以从下面的方程求得。从这一方程求解往往更简便。下面的方程称为对数似然方程。
$\frac{d}{d\theta}L(ln\theta)=0$

关于极大似然估计，下面贴上笔者标注后的浙江大学版《概率论与数理统计》的原文，这篇文章的解释实在是太过棒棒了，经典至极。
参数估计、点估计、极大似然估计

至此，困惑笔者已久的极大似然估计，通过随机变量及其分布和本文的复习总结，总算是明白了。呼~ 轻松嘤~

趣味阅读：极大似然估计的能力体现
给出一堆线性数据，用线性回归模拟，线性回归的参数很容易就能求得。
若给出另一堆数据，中间多，两边少，用线性回归就很难模拟，这适合用高斯分布曲线模拟。可是高斯分布的参数难求，这时就显示出极大似然估计的能力了。
参照网址：对数损失函数是如何度量损失的