1. 最大似然估计(MLE)

       概念:给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参数,即“模型已定,参数未知”。例如,已知分布是正态分布,但是不知道均值和方差;或者已知是二项分布,但是不知道均值。 最大似然估计(MLE,Maximum Likelihood Estimation)就可以用来估计模型的参数

      MLE的目标是找出一组参数数学基础:高斯分布,使得模型产生出观测数据数学基础:高斯分布的概率P(x|θ)最大。

1)概率和统计是一个东西吗?      

       概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。    

       一句话总结:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

2) 贝叶斯公式到底在说什么?      

     贝叶斯公式就是在描述,你有多大把握能相信一件证据?      

     从一个角度总结贝叶斯公式:做判断的时候,要考虑所有的因素;      

     从另一个角度思考贝叶斯公式:一个本来就难以发生的事情,就算出现某个证据和他强烈相关,也要谨慎。证据很可能来自别的虽然不是很相关,但发生概率较高的事情。

3)似然函数      

       似然(likelihood)这个词其实和概率(probability)是差不多的意思。但是在统计里面,似然函数和概率函数却是两个不同的概念(其实也很相近就是了)。

       对于这个函数:P(x|θ),输入有两个:x表示具体的数据;θ表示模型的参数。

       (1)如果θ是已知确定的,x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。

       (2)如果x是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。

2. 最大后验概率估计(MAP)        

      与最大似然估计类似,但最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。          

      (1)最大似然估计:是求参数θ, 使似然函数P(x|θ)最大。

      (2)最大后验概率估计:则是想求θ使P(x|θ)P(θ)最大。求得的θ不单单让似然函数大,θ自己出现的先验概率也得大。 (这有点像正则化里加惩罚项的思想,不过正则化里是利用加法,而MAP里是利用乘法)          

      MAP,其实是在最大化P(θ|x)=P(x|θ)P(θ)/P(x),不过因为x是确定的(即投出的“反正正正正反正正正反”),P(x)是一个已知值,所以去掉了分母P(x)(假设“投10次硬币”是一次实验,实验做了1000次,“反正正正正反正正正反”出现了n次,则P(x)=n/1000。总之,这是一个可以由数据集得到的值)。最大化P(θ|x)的意义也很明确,x已经出现了,要求θ取什么值使P(θ|x)最大。顺带一提,P(θ|x)即后验概率,这就是“最大后验概率估计”名字的由来。

数学基础:高斯分布

无偏估计: 估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估计参数的无偏估计,即数学基础:高斯分布

有偏估计: 若θ^的数学期望不为θ,即E数学基础:高斯分布,则称为θ的有偏估计。
数学基础:高斯分布

                                                       数学基础:高斯分布

        如果数学基础:高斯分布(E为单位矩阵,AT表示“矩阵A的转置矩阵”)或数学基础:高斯分布,则n阶实矩阵A称为正交矩阵,正交矩阵数学基础:高斯分布

3. 概率密度函数角度

      以高维高斯分布为例:

 

4. 局限性

(1)参数多

(2)用一个高斯分布无法准确表示模型,因此有了GMM高斯混合模型(多个高斯)

 

相关文章:

  • 2022-12-23
  • 2021-12-14
  • 2021-12-07
猜你喜欢
  • 2021-09-24
  • 2021-05-12
  • 2021-11-23
  • 2021-06-24
  • 2021-09-05
  • 2021-12-04
相关资源
相似解决方案