机器学习与数理统计——点估计

对于分布函数的形式已知，对于其中的未知参数，应用样本X1、X2…Xn所提供的信息去对其一个或者多个未知参数进行估计，这类问题称为参数估计问题。
参数估计在机器学习中的应用最为广泛。接下来就做一个简单的介绍学习。

一、矩估计
机器学习与数理统计——点估计
设 $\theta _1,\theta _2,...\theta _k$ 为待估参数， $X_1,X_2,...X_n$ 为来自X的样本。
设 $EX^l=\mu _l,l=1,2,..k$ 存在，根据 $A_l=\frac{1}{n}\sum X_i^{l}$
建立包含k个未知参数的联立方程组，从而解出方程组的解 $\widehat{\theta_1},...,\widehat{\theta_k}$
这种求估计量的方法称为矩估计法。

比如：设总体X在 $(0,\theta)$ 上服从均匀分布， $\theta$ 未知， $X_1,...X_n$ 是来自X的样本，求 $\theta$ 的矩估计量。

解： $\mu_1=E(X)=\frac{\theta}{2}$
得 $\theta=2\mu_1$
得： $\widehat{\theta }=2A_1=2\overline{X}$

二、极大似然法
极大似然估计得基本思想：
比如一孩子和一个猎人外出打猎，这时打死一个兔子，问是谁打死的？这时你肯定想，猎人打中的概率大得多，所以应该是猎人打死的。
这种选择一个参数使得实验结果具有最大概率的思想就是极大似然法。

求极大似然估计（MLE）的一般步骤是：
1）由总体分布导出样本的联合分布律（或联合密度）
2）把样本联合分布律（或联合密度）中自变量看成已知常数，而把参数 $\theta$ 看做自变量，得到似然函数 $L(\theta)$
3）求似然函数 $L(\theta)$ 的最大值（通常转化为求 $lnL(\theta)$ 的最大值点），即 $\theta$ 的MLE。
4）在最大值点的表达式中，用样本值带入就得参数的极大似然估计值。

$x_1,x_2..$ 是 $X_1,X_2....$ 样本的对应概率，
$L(\theta)=\prod_{i=1}^{n}p(x_i;\theta )$
$L(\theta)$ 称为样本的似然函数。
由极大似然估计法：固定 $x_1,..,x_n$ ，挑选使得概率L达到最大的参数 $\widehat{\theta}$ ，作为 $\theta$ 的估计值，称为参数的极大似然估计值。

举个例子就很明白这个计算过程了。
例如：直接贴图好了
机器学习与数理统计——点估计