2.回归
对于一组数据
(xi,yi),i=1,2,3,...,m
其中,x是特征向量,y为标记。
对于连续变化的标记,我们对其进行建模的过程,叫做回归;如果是离散的标记,对其建模的过程叫做分类。
2.1 线性回归
1.问题引入

对于图中的数据点,如果要做线性回归,需要确定K和b,但是该如何确定呢。
2.解决办法——最小二乘法
y1,=k1x1+b1
其中,y1称为标签计算值,所以计算的总标签值和为:
ys,=i=1∑i=nkixi+bi
那么,要求最合适的k和b,我们先求计算的总标签值和实际值的偏差,即:
εi=∣y−ys,∣
其中,偏差误差服从均值为0,方差为某定值的高斯分布,接着对偏差求其概率密度函数并利用对数似然函数求解,可得最小二乘法的损失函数为:
J=21i=1∑n(ys,−y)2
只要满足损失函数最小,即可求得最优的k和b
2.2 多目标问题线性回归
如果是多变量问题,则需要化为向量形式,如:
$$
h(x)=k_0+k_1x_1+k_2x_2
向量形式为:
h(x)=i=0∑nkixi=kTx
损失函数为:
J=21i=1∑n(ys,−y)2=21(Xk−y)T(Xk−y)
通过对J求梯度和驻点得:
k=(XTX)−1XTy
为防止不可逆和过拟合问题,增加λ扰动,得:
k=(XTX+λI)−1XTy
2.3 线性回归的复杂度惩罚因子
线性回归的目标函数为:
J=21i=1∑n(ys,−y)2
将目标函数增加平方和损失:
J=21i=1∑n(ys,−y)2+λj=1∑nkj2
2.4 正则项和防止过拟合
