Regression

第一步:找模型

(1)线性模型:y=b+wixiy=b+{\sum}w_ix_i
xx:特征。
xix_i:特征xx的一个属性值。
wiw_i:(weight)对应xix_i的一个权值。
bb:(bias)

第二步:损失函数

input: function.
output:how bad the function is.

L(w,b)=i=1n(yi(b+wxi))2L(w,b)=\sum^n_{i=1}(y_i-(b+w·x_i))^2
f=argminfL(f)f^*=argmin_fL(f)
w,b=argminw,bL(w,b)w^*,b^*=argmin_{w,b}L(w,b)
=argminw,bi=1n(yi(b+wxi))2=argmin_{w,b}\sum^n_{i=1}(y_i-(b+w·x_i))^2
机器学习(李宏毅)lecture01 学习笔记

第三步:梯度下降

损失函数只有一个参数ww
机器学习(李宏毅)lecture01 学习笔记
w0w^0:随机设
w1=w0ηdLdww=w0w^1=w^0-{\eta}\frac{dL}{dw}|w=w^0
w2=w0ηdLdww=w1w^2=w^0-{\eta}\frac{dL}{dw}|w=w^1
......
η\eta:学习率或步长。

多个参数时,同理分别更新。

GradientL=[Lw,Lb,...]T{\nabla}L=[\frac{{\partial}L}{{\partial}w},\frac{{\partial}L}{{\partial}b},...]^T

过拟合(overfitting):在训练时效果很好,但在测试时效果不好。

Regularization:
L(w,b)=i=1n(yi(b+wxi))2+λ(wi)2L(w,b)=\sum^n_{i=1}(y_i-(b+w·x_i))^2+\lambda\sum(w_i)^2
wiw_i越小时,函数比较平滑,比较好,但不能过于平滑。(原因:噪声的影响比较小)b和平滑程度无关。

相关文章: