这一课基本上就回忆了一下前面的各种regression ,然后和传统统计与贝叶斯思想联系起来。

还是线性回归

对于一个线性系统

Xw = y

假设y为观测值,那么观测值 为 真实值和噪音的和。y = Real + noise

加入正则化

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)


【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

那么现在对w求解,使用最小二乘法,满足预测值与观测值得平方差最小。

也就是他们的差的向量(y - Xw)的dot product 点积。

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)


对偶写法

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

求出w和α的关系,把W用α表示。

然后用w表示α,

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

α是 m *1 , XT 是n * m


再用α表示w

把w = XTα代入 α的表达式中,消去w

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

我们可以求出另一个解(对偶解

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

预测函数表达式为

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)


贝叶斯就是先后验的解释。

假设数据的y是由真实值加上随机正太误差合成的。那么给定w 和数据x,产生y的概率为:

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

这是单个样本的概率。


给定w 和整个数据集,产生标签集(m个样本)的概率为

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

不给定w下,考虑产生w又产生y的概率为

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

通过观察,发现指数项多了一个项 ||w||^2/2

这是因为假设w为多元正态分布P(w)的概率为:

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

而实际上这又是一个正态分布,(合成正态分布)

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

这里这个正态分布是多元的。不过依然遵循基本法

我们复习一下正态分布

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

上面的是1维的正态分布,也就是1元。

而对于多变量,多元正态分布,函数的结构是相似的,只不过把sigma换成了一个矩阵。

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

联系上面的概率分布,我们发现W,Wmap也符合这个多元正态分布。其中W是一个多维变量(向量),Wmap是一个确定的变量,也就是当W在最大后验下的取值。

那么我们就可以把w的二次项和sigma矩阵表达式写出来:

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

推导过程:

根据初中学的平方公式: (a  - b)^2 = a^2 + b^2 - 2ab

也就是说,这里必然有w的二次项,而w二次项的系数必然是多余的(实际上不是系数,而是一个矩阵,这里为了方便理解称呼为系数)。

原式:

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

分子二次项

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

很明显X'X/σ^2就是二次项系数。||w||前面的-1也是二次项系数。考虑到需要矩阵形式和前面的负号,系数应该是I(identity matrix)

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

中间的括号就是sigma矩阵


【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

Wmap表达式如上图

前面我们证明了ridge regression的W 的解为

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

对于ridge regression

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

回归预测函数为

【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)


相关文章: