摘要:

关键字:共轭先验,贝叶斯估计的增量学习,极大似然估计,最大后验估计

1.最大似然估计 

1.推导过程

    考虑有N个样本X,每个样本都是m维的,所以这是一个m类的问题。第i类服从贝叶斯线性回归分布,这里的i=1,2,...,m。假设各个样本相互独立,并且各类的参数不相互影响,每个类都服从高斯分布。所以每类的形式已知,只是参数(均值和方差)未知。假设对某一类,联合概率密度函数为贝叶斯线性回归,seta代表与均值和方差有关的函数。如果要使得这个联合概率密度函数最大,应该对seta求导,如下:

贝叶斯线性回归  贝叶斯线性回归贝叶斯线性回归贝叶斯线性回归

2.性质

    极大似然估计有两个重要性质,对于我们估计出的值seta,满足渐进无偏和渐进一致性。即:

贝叶斯线性回归贝叶斯线性回归

如果seta在标准值周围震荡,就只满足无偏性不满足一致性。

3.与最大后验估计

 最大似然估计就是求出某个未知参数seta的值,这个求出来的seta使得各个概率乘积最大,看起来这个seta是最可能的一个,所以叫极大似然估计。把参数seta看成一个固定的值,只是我们还不知道seta具体的值而已。seta虽然会随着样本的变化而变化,但是我们本质还是把它看成一个固定值,因为我们认为它没有自己的分布。

    而最大后验估计就把seta看成一个随机变量,动态的,有自己分布的随机变量。核心公式(公式详细含义参见 https://blog.csdn.net/qq_40597317/article/details/82388164)为:贝叶斯线性回归贝叶斯线性回归贝叶斯线性回归就是先验估计乘以此处的似然估计

2.最大后验估计

1.推导过程

    见1.3,之所以叫后验,是因为它是在已知X之后推测seta的

2.相关性质  

    当p(seta)近似于均匀分布时,最大后验估计和最大似然估计结果将非常接近

3.贝叶斯估计

1.推导  此时把样本集记为D,贝叶斯线性回归是seta在x点的似然估计。

    x是测试样本,此时核心公式为贝叶斯线性回归

                                                    贝叶斯线性回归

    假设样本贝叶斯线性回归贝叶斯线性回归,没有样本进入的时候是贝叶斯线性回归,样本进入后逐渐更新贝叶斯线性回归,这个过程叫贝叶斯递归法,也叫贝叶斯估计的增量学习。这是一个在线学习算法,和随机梯度下降法很相似。

4.贝叶斯线性回归

1.优点

    因为极大似然估计会使得模型过于复杂产生过拟合,虽然交叉验证可以防止过拟合,但是交叉验证需要将数据分类为训练集和测试集,样本浪费严重。所以贝叶斯线性回归产生了。

    此时线性模型为贝叶斯线性回归,x对于的输出是t,贝叶斯线性回归,假设w满足先验分布贝叶斯线性回归,一般称p(w)为共轭先验贝叶斯线性回归是样本和w的高斯分布的方差。

    线性模型的对数后验概率函数为

    贝叶斯线性回归,T是数据样本的目标值向量,贝叶斯线性回归,const为与w无关的量

5.贝叶斯线性回归的学习过程

 1.核心公式

    贝叶斯线性回归

2.图像描述(重点)

贝叶斯线性回归

重点关注p(x|seta)的求法,似然估计的结果是给出的(x,y)的表达式的对偶式。贝叶斯线性回归得到贝叶斯线性回归,这就是第一列的直线的画法。

3.贝叶斯回归优缺点

优点:
1. 贝叶斯回归对数据有自适应能力,可以重复的利用实验数据,并防止过拟合
2. 贝叶斯回归可以在估计过程中引入正则项
缺点:
1. 贝叶斯回归的学习过程开销太大

5.贝叶斯脊回归

    最终后验分布为贝叶斯线性回归,这个相当于脊回归,所以将这种特殊情况称为贝叶斯脊回归,它拥有脊回归的所有特性

侵删,参考:https://blog.csdn.net/daunxx/article/details/51725086#%E8%B4%9D%E5%8F%B6%E6%96%AF%E4%BC%B0%E8%AE%A1

 

相关文章: