回归

  1. A set of function: y=b+wxcpy=b+w\cdot x_{cp}

  2. Goodness of function: L(f)=(y^f(xcpn))2L(f)=\sum(\hat{y}-f(x_{cp}^n))^2,
    Pick the “best” function f=argminfL(f)f^*=arg \min_{f} L(f)

    Gradient Descent: w1w0ηLww=w0,b=b0,b1b0ηLbw=w0,b=b0 w^1 \leftarrow w^0- \eta\frac{\partial L}{\partial w}|_{w=w^0,b=b^0}, b^1 \leftarrow b^0- \eta\frac{\partial L}{\partial b}|_{w=w^0,b=b^0}
    把所有偏微分写成向量,就是gradient

  3. Training data: (x1,y^1),...,(xn,y^n)(x^1,\hat{y}^1),...,(x^n,\hat{y}^n)

选择更高次的线性模型(低次的是高次的子集合),训练数据的average error减小,但是注意过拟合
Regularization:
λ(wi)2\lambda \sum(w_i)^2

Smoother function is more likely to be correct

bias and variance

简单的模型受到数据的影响较小,
复杂模型variance更高,bias更小
李宏毅机器学习笔记——回归
bias(欠拟合):增加features;more complex model
variance(过拟合):增加data;regularization

Cross Validation

李宏毅机器学习笔记——回归

梯度下降

李宏毅机器学习笔记——回归

  • 调Learning Rate,可以visualize No.参数updateloss
    • 自适应(Adagrad):
      李宏毅机器学习笔记——回归
      分子说梯度越大update越大,分母说梯度越大update越小。反差
      The best step is 一次微分除以二次微分
    • 随机梯度
      看一个example就update一次参数
    • Feature Scaling
      xirxirmiσi x^r_i \leftarrow \frac{x^r_i-m_i}{\sigma_i} rr个example的第ii个feature

理论基础

泰勒展开
h(x)=h(x0)+h(x0)(xx0)+h(x0)2!(xx0)2+... h(x)=h(x_0)+h'(x_0)(x-x_0)+\frac{h''(x_0)}{2!}(x-x_0)^2+...

xx 很接近 x0x_0 时,h(x)h(x0)+h(x0)(xx0)h(x)\approx h(x_0)+h'(x_0)(x-x_0)

多元泰勒展开:
h(x,y)h(x0,y0)+h(x0,y0)x(xx0)+h(x0,y0)y(yy0) h(x, y) \approx h\left(x_{0}, y_{0}\right)+\frac{\partial h\left(x_{0}, y_{0}\right)}{\partial x}\left(x-x_{0}\right)+\frac{\partial h\left(x_{0}, y_{0}\right)}{\partial y}\left(y-y_{0}\right)

所以可以对损失函数泰勒展开(两个参数)
李宏毅机器学习笔记——回归
圆的半径足够小才能满足泰勒近似,圆的半径和学习速率成正比

局限:局部最小

相关文章: