李宏毅机器学习笔记——回归

回归

A set of function: $y=b+w\cdot x_{cp}$
Goodness of function: $L(f)=\sum(\hat{y}-f(x_{cp}^n))^2$ ,
Pick the “best” function $f^*=arg \min_{f} L(f)$

Gradient Descent: $w^1 \leftarrow w^0- \eta\frac{\partial L}{\partial w}|_{w=w^0,b=b^0}, b^1 \leftarrow b^0- \eta\frac{\partial L}{\partial b}|_{w=w^0,b=b^0}$
把所有偏微分写成向量，就是gradient
Training data: $(x^1,\hat{y}^1),...,(x^n,\hat{y}^n)$

选择更高次的线性模型（低次的是高次的子集合），训练数据的average error减小，但是注意过拟合
Regularization：
$\lambda \sum(w_i)^2$

Smoother function is more likely to be correct

bias and variance

简单的模型受到数据的影响较小，
复杂模型variance更高，bias更小
李宏毅机器学习笔记——回归
bias（欠拟合）：增加features；more complex model
variance（过拟合）：增加data；regularization

Cross Validation

李宏毅机器学习笔记——回归

梯度下降

李宏毅机器学习笔记——回归

调Learning Rate，可以visualize No.参数update 和 loss
- 自适应（Adagrad）：
  
  分子说梯度越大update越大，分母说梯度越大update越小。反差
  The best step is 一次微分除以二次微分
- 随机梯度
  看一个example就update一次参数
- Feature Scaling
  $x^r_i \leftarrow \frac{x^r_i-m_i}{\sigma_i}$ 第 $r$ 个example的第 $i$ 个feature

理论基础

泰勒展开
$h(x)=h(x_0)+h'(x_0)(x-x_0)+\frac{h''(x_0)}{2!}(x-x_0)^2+...$

当 $x$ 很接近 $x_0$ 时， $h(x)\approx h(x_0)+h'(x_0)(x-x_0)$

多元泰勒展开：
$h(x, y) \approx h\left(x_{0}, y_{0}\right)+\frac{\partial h\left(x_{0}, y_{0}\right)}{\partial x}\left(x-x_{0}\right)+\frac{\partial h\left(x_{0}, y_{0}\right)}{\partial y}\left(y-y_{0}\right)$

所以可以对损失函数泰勒展开（两个参数）
李宏毅机器学习笔记——回归
圆的半径足够小才能满足泰勒近似，圆的半径和学习速率成正比

回归

bias and variance

Cross Validation

梯度下降

理论基础

局限：局部最小