机器学习（李宏毅）lecture01 学习笔记

Regression

第一步:找模型

（1）线性模型： $y=b+{\sum}w_ix_i$
$x$ ：特征。
$x_i$ ：特征 $x$ 的一个属性值。
$w_i$ ：（weight）对应 $x_i$ 的一个权值。
$b$ ：（bias）

第二步：损失函数

input： function.
output：how bad the function is.

$L(w,b)=\sum^n_{i=1}(y_i-(b+w·x_i))^2$
$f^*=argmin_fL(f)$
$w^*,b^*=argmin_{w,b}L(w,b)$
$=argmin_{w,b}\sum^n_{i=1}(y_i-(b+w·x_i))^2$
机器学习（李宏毅）lecture01 学习笔记

第三步：梯度下降

损失函数只有一个参数 $w$ ：
机器学习（李宏毅）lecture01 学习笔记
$w^0$ ：随机设
$w^1=w^0-{\eta}\frac{dL}{dw}|w=w^0$
$w^2=w^0-{\eta}\frac{dL}{dw}|w=w^1$
$...$
$\eta$ ：学习率或步长。

多个参数时，同理分别更新。

Gradient： ${\nabla}L=[\frac{{\partial}L}{{\partial}w},\frac{{\partial}L}{{\partial}b},...]^T$

过拟合（overfitting）：在训练时效果很好，但在测试时效果不好。

Regularization：
$L(w,b)=\sum^n_{i=1}(y_i-(b+w·x_i))^2+\lambda\sum(w_i)^2$
当 $w_i$ 越小时，函数比较平滑，比较好，但不能过于平滑。（原因：噪声的影响比较小）b和平滑程度无关。