这一课基本上就回忆了一下前面的各种regression ,然后和传统统计与贝叶斯思想联系起来。
还是线性回归
对于一个线性系统
Xw = y
假设y为观测值,那么观测值 为 真实值和噪音的和。y = Real + noise
加入正则化
那么现在对w求解,使用最小二乘法,满足预测值与观测值得平方差最小。
也就是他们的差的向量(y - Xw)的dot product 点积。
对偶写法
求出w和α的关系,把W用α表示。
然后用w表示α,
α是 m *1 , XT 是n * m
再用α表示w
把w = XTα代入 α的表达式中,消去w
我们可以求出另一个解(对偶解)
预测函数表达式为
贝叶斯就是先后验的解释。
假设数据的y是由真实值加上随机正太误差合成的。那么给定w 和数据x,产生y的概率为:
这是单个样本的概率。
给定w 和整个数据集,产生标签集(m个样本)的概率为
不给定w下,考虑产生w又产生y的概率为
通过观察,发现指数项多了一个项 ||w||^2/2
这是因为假设w为多元正态分布P(w)的概率为:
而实际上这又是一个正态分布,(合成正态分布)
这里这个正态分布是多元的。不过依然遵循基本法。
我们复习一下正态分布。
上面的是1维的正态分布,也就是1元。
而对于多变量,多元正态分布,函数的结构是相似的,只不过把sigma换成了一个矩阵。
联系上面的概率分布,我们发现W,Wmap也符合这个多元正态分布。其中W是一个多维变量(向量),Wmap是一个确定的变量,也就是当W在最大后验下的取值。
那么我们就可以把w的二次项和sigma矩阵表达式写出来:
推导过程:
根据初中学的平方公式: (a - b)^2 = a^2 + b^2 - 2ab
也就是说,这里必然有w的二次项,而w二次项的系数必然是多余的(实际上不是系数,而是一个矩阵,这里为了方便理解称呼为系数)。
原式:
分子二次项
很明显X'X/σ^2就是二次项系数。||w||前面的-1也是二次项系数。考虑到需要矩阵形式和前面的负号,系数应该是I(identity matrix)
中间的括号就是sigma矩阵。
Wmap表达式如上图
前面我们证明了ridge regression的W 的解为
而
即
对于ridge regression
回归预测函数为