摘要:
关键字:共轭先验,贝叶斯估计的增量学习,极大似然估计,最大后验估计
1.最大似然估计
1.推导过程
考虑有N个样本X,每个样本都是m维的,所以这是一个m类的问题。第i类服从分布,这里的i=1,2,...,m。假设各个样本相互独立,并且各类的参数不相互影响,每个类都服从高斯分布。所以每类的形式已知,只是参数(均值和方差)未知。假设对某一类,联合概率密度函数为
,seta代表与均值和方差有关的函数。如果要使得这个联合概率密度函数最大,应该对seta求导,如下:
2.性质
极大似然估计有两个重要性质,对于我们估计出的值seta,满足渐进无偏和渐进一致性。即:
如果seta在标准值周围震荡,就只满足无偏性不满足一致性。
3.与最大后验估计
最大似然估计就是求出某个未知参数seta的值,这个求出来的seta使得各个概率乘积最大,看起来这个seta是最可能的一个,所以叫极大似然估计。把参数seta看成一个固定的值,只是我们还不知道seta具体的值而已。seta虽然会随着样本的变化而变化,但是我们本质还是把它看成一个固定值,因为我们认为它没有自己的分布。
而最大后验估计就把seta看成一个随机变量,动态的,有自己分布的随机变量。核心公式(公式详细含义参见 https://blog.csdn.net/qq_40597317/article/details/82388164)为:,
就是先验估计乘以此处的似然估计
2.最大后验估计
1.推导过程
见1.3,之所以叫后验,是因为它是在已知X之后推测seta的
2.相关性质
当p(seta)近似于均匀分布时,最大后验估计和最大似然估计结果将非常接近
3.贝叶斯估计
1.推导 此时把样本集记为D,是seta在x点的似然估计。
x是测试样本,此时核心公式为
假设样本,
,没有样本进入的时候是
,样本进入后逐渐更新
,这个过程叫贝叶斯递归法,也叫贝叶斯估计的增量学习。这是一个在线学习算法,和随机梯度下降法很相似。
4.贝叶斯线性回归
1.优点
因为极大似然估计会使得模型过于复杂产生过拟合,虽然交叉验证可以防止过拟合,但是交叉验证需要将数据分类为训练集和测试集,样本浪费严重。所以贝叶斯线性回归产生了。
此时线性模型为,x对于的输出是t,
,假设w满足先验分布
,一般称p(w)为共轭先验,
是样本和w的高斯分布的方差。
线性模型的对数后验概率函数为
,T是数据样本的目标值向量,
,const为与w无关的量
5.贝叶斯线性回归的学习过程
1.核心公式
2.图像描述(重点)
重点关注p(x|seta)的求法,似然估计的结果是给出的(x,y)的表达式的对偶式。得到
,这就是第一列的直线的画法。
3.贝叶斯回归优缺点
优点:
1. 贝叶斯回归对数据有自适应能力,可以重复的利用实验数据,并防止过拟合
2. 贝叶斯回归可以在估计过程中引入正则项
缺点:
1. 贝叶斯回归的学习过程开销太大
5.贝叶斯脊回归
最终后验分布为,这个相当于脊回归,所以将这种特殊情况称为贝叶斯脊回归,它拥有脊回归的所有特性
侵删,参考:https://blog.csdn.net/daunxx/article/details/51725086#%E8%B4%9D%E5%8F%B6%E6%96%AF%E4%BC%B0%E8%AE%A1