【机器学习】最大似然估计与最大后验估计

一、一些概率公式

联合概率：假设有随机变量 $A$ 和 $B$ ，此时 $P(A=a,B=b)$ 用于表示 $A=a$ 且 $B=b$ 同时发生的概率。这类包含多个条件且所有条件同时成立的概率称为联合概率。
边缘概率： $P(A=a)$ 或 $P(B=b)$ 这类仅与单个随机变量有关的概率称为边缘概率: $P(A=a)=∑_bP(A=a,B=b)$ $P(B=b)=∑_aP(A=a,B=b)$
条件概率:条件概率表示在条件 $B=b$ 成立的情况下， $A=a$ 的概率，记作 $P(A=a|B=b)$ $P(A│B)=P(A,B)/P(B)$ 即： $P(A,B)=P(B)*P(A|B)=P(A)*P(B|A)$
全概率公式：如果事件 $A_1,A_2,A_3,…,A_n$ 构成一个完备事件组，即它们两两互不相容(互斥),其和为全集；并且$ P(A_i)$ 大于0，则对任意事件 $B$ 有: $P(B)=P(B|A_1)P(A_1)+P(B|A_2)P(A_2)+⋯+P(B|A_n)P(A_n)=∑_i^nP(B|A_i)P(A_i)$
贝叶斯公式: $P(A│B)=\frac{P(A,B)}{P(B)} =\frac{P(B│A)*P(A)}{P(B)}$ 由全概率公式贝叶斯法则可得： $P(A_i│B)=\frac{P(B│A_i )*P(A_i)}{P(B)} =\frac{P(B│A_i )*P(A_i)}{∑_{i=1}^nP(B|A_i)P(A_i)}=\frac{P(B│A_i )*P(A_i)}{P(B│A_i )P(A_i )+P(B|\hat{A}_i)P(\hat{A}_i)}$ 其中 $\hat{A}_i$ 表示非 $A_i$
贝叶斯公式的解读：
- 用一个例子来解读贝叶斯公式，B表示一辆车的警报响了， $A_i$ 表示这辆汽车被砸了， $\hat{A}_i=A_1+A_2+⋯+A_{i-1}+A_{i+i}+A_n$ 表示被小孩子皮球踢了一下、被行人碰了一下等等其他情况。现在我们需要求 $P(A_i│B)$ ，即警报响了车被砸了的概率。按照常识来说这种情况是非常少的，即 $P(A_i│B)$ 是非常小的。现在我们从贝叶斯公式的角度来分析一下原因。
- 如果我们想要 $P(A_i│B)$ 比较大：
  - 先考虑分母：减少分母，即 $P(B|\hat{A}_i)P(\hat{A}_i)$ 较小，因为 $P(B|\hat{A}_i)⊆P(\hat{A}_i)$ ，所以只要 $P(\hat{A}_i)$ 较小就行，即需要 $\hat{A}_i$ 发生的概率较小，也就是 $A_i$ 发生的概率较大。也就是说，假若杜绝了汽车被球踢、被行人碰到等等其他所有情况 $(P(\hat{A}_i)=0)$ ，那自然，警报响了，只剩下一种可能——汽车被砸了。从这个角度总结贝叶斯公式：做判断的时候，要考虑所有的因素(即需要考虑 $\hat{A}_i)$ 。老板骂你，不一定是你把什么工作搞砸了，可能只是他今天出门前和太太吵了一架。
  - 再考虑分子：我们知道 $P(B│A_i )$ 概率是非常大的，即车被砸了警报响了。姑且认为 $P(B│A_i )=1$ 。但是，若 $P(A_i)$ 很小，即汽车被砸的概率本身就很小，则 $P(B│A_i )*P(A_i)$ 仍然很小，即分子很小 $P(A_i│B)$ 还是大不起来。 $P(A_i)$ 也是常说的先验概率。即如果 $A_i$ 的先验概率很小，就算 $P(B│A_i )$ 较大，A的后验概率 $P(A_i│B)$ 还是不会大。这样我们就明白为啥我下意识知道，警报响了车被砸了的概率很小，是因为车被砸了的概率太小。

二、统计学中两大学派

频率学派：频率学派认为我们得到的样本数据冥冥之中是服从一个概率分布的，这个概率分布的参数是固定的,即参数是一个固定值只是我们不知道，反过来想，我们得到的样本数是用这个分布制造的。频率学派的出发点是制造这些数据的概率分布的参数是唯一固定的，我们要做的就是考虑哪个值最有可能是这个参数，于是就有了最大似然估计法
贝叶斯学派：贝叶斯学派认为我们得到的样本数据冥冥之中是服从一个概率分布的，这个概率分布的参数也是服从某个分布的随机变量，这个分布称为先验分布，于是就有了最大后验概率法。那么这个先验假设又是怎么出来的呢，只能依靠经验。

三、最大似然估计法(MLE)

对于一个概率分布 $P(x|θ)$ ,其中 $x$ 表示某一个具体的数据； $θ$ 表示分布的参数。
- 如果 $θ$ 是已知确定， $x$ 是变量，这个函数叫做概率函数,它描述对于不同的样本点 $x$ ，样本出现概率是多少。
- 如果 $x$ 是已知确定， $θ$ 是变量，这个函数叫做似然函数,它描述对于不同的概率分布(不同的θ对应不同的概率分布)中出现 $x$ 这个样本点的概率是多少。通常记作 $L(θ|x)$
最大似然估计的核心思想是：能够被我们观测到或者抽样到的样本一定是真实概率分布中概率较大的样本，即我们需要找到参数 $θ$ 的一个估计值，使得当前样本出现的概率最大。
最大似然估计(MLE)：
- 给定一组随机变量： $X_1,X_2,…,X_N$ ，并得到他们的观测值(我们手里的样本数据)： $x_1,x_2,…,x_N$ ，假设这组随机变量独立同分布并且服从概率分布： $f(x;θ)$ 其中 $θ$ 为分布的参数，也就是我们要估计的参数.那么我们这一组观测值的联合概率为： $P(x_1,x_2,…,x_N )=∏_{i=1}^Nf(x_i;θ)$
- 上式也叫似然函数,记作： $L(θ│x_1,x_2,…,x_N )=P(x_1,x_2,…,x_N )=∏_{i=1}^N f(x_i;θ)$
- 根据极大似然估计的思想，使得 $P(x_1,x_2,…,x_N )$ 最大的 $θ$ ，就是我们要求的 $\hat{θ}$ 。
- 一般情况下连乘比较难处理，所以我们将似然函数取对数得到对数似然函数： $L(θ│x_1,x_2,…,x_N )=ln⁡(L(θ│x_1,x_2,…,x_N ))=∑_{i=1}^Nf(x_i;θ)$ 之所以能取对数，是因为 $ln$ 函数是单调递增的，所以不会影响似然函数的极大值点。
- 通过求导，既可以求得对数似然函数的极大值点 $\hat{θ}$ 。
例子：
- 假设现在我们拿到了一枚这种硬币，想知道抛这枚硬币，正反面出现的概率各是多少？
- 我们将证明朝上记为1，反面朝上记为0，并知道他们服从0-1分布 $P(x)=\begin{cases} θ &,x=1 \\1-θ &,x=0\end{cases}$ 其中θ为需要估计的参数
- 现在我们拿这枚硬币抛了10次，得到的数据是：0111101110。即现在我们的样本为：{0,1,1,1,1,1,0,1,1,1,0},现在我们使用这些样本来估计估计参数 $θ$ 。
- 求样本的联合概率(似然函数)： $L(θ)=(1-θ)*θ*θ*θ*θ*(1-θ)*θ*θ*θ*(1-θ)=θ^7 (1-θ)^3$
- 取对数： $l(θ)=7*lnθ+3*ln(1-θ)$
- 求导并令为0： $\frac{∂l(θ)}{∂θ}=\frac{7}{θ}-\frac{3}{1-θ}=0$  得： $\hat{θ}=0.7$
- 这可能与我们的常识不太一样，一般情况可能大家为觉得 $θ=0.5$ ，这里就包含了贝叶斯学派的思想了——要考虑先验概率。

四、最大后验估计(MAP)

最大后验估计,它与极大似然估计最大的区别就是,它考虑了参数本身的分布,也就是先验分布。
假设我们要求的样本的概率分布为： $P(x|θ)$ ,如果我们知道了 $θ$ ，通过它可得到任意样本出现的概率。现在我们需要估计 $θ$ ，如果我们将 $θ$ 也看作是一个随机变量，那么它就是一个条件概率，根据贝叶斯公式： $P(x│θ)=\frac{P(θ│x)*P(x)}{P(θ)}$ 其中 $P(θ)$ 称为先先验分布， $P(θ│x)$ 称为后验分布。
变形可得后验分布： $P(θ│x)=\frac{P(x│θ)*P(θ)}{P(x)}$ $P(x)$ 为样本的边缘分布： $P(x)=∫P(x│θ)*P(θ) dθ$ 其中 $θ$ 为变量， $x$ 为常量，所以 $P(x)$ 相对 $θ$ 为常数。
所以极大化后验概率就等价于： $\hat{θ}=arg\max_{θ}⁡P(θ│x)=arg\max_{θ}⁡P(x│θ)*P(θ)$
最大后验概率估计求得的 $\hat{θ}$ 不单单让似然函数大， $\hat{θ}$ 自己出现的先验概率也得大。这有点像正则化里加惩罚项的思想。
在频率派中的极大似然估计法中是直接极大化 $P(x│θ)$ ，因为他们认为 $θ$ 为常数所以 $P(θ)$ 也是一个常数。
例子：
- 接着上面抛硬币的例子，假设我们认为（先验地知道） $θ$ 取 $0.5$ 的概率很大，取其他值的概率小一些。我们用一个高斯分布(均值 $0.5$ ,方差 $0.1$ )来表示先验分布 $P(θ)$ : $P(θ)=\frac{1}{\sqrt{2π}*0.1} exp⁡(\frac{-(θ-0.5)^2}{2*0.1^2 })$ 如下图：
- 则 $P(x│θ)*P(θ)$ 的函数图像为：
- 此时函数取最大值时， $θ$ 取值已向左偏移，不再是 $0.7$ 。实际上，在 $θ=0.558$ 时函数取得了最大值。