回归
-
A set of function: y=b+w⋅xcp
-
Goodness of function: L(f)=∑(y^−f(xcpn))2,
Pick the “best” function f∗=argfminL(f)
Gradient Descent: w1←w0−η∂w∂L∣w=w0,b=b0,b1←b0−η∂b∂L∣w=w0,b=b0
把所有偏微分写成向量,就是gradient
-
Training data: (x1,y^1),...,(xn,y^n)
选择更高次的线性模型(低次的是高次的子集合),训练数据的average error减小,但是注意过拟合
Regularization:
λ∑(wi)2
Smoother function is more likely to be correct
bias and variance
简单的模型受到数据的影响较小,
复杂模型variance更高,bias更小

bias(欠拟合):增加features;more complex model
variance(过拟合):增加data;regularization
Cross Validation

梯度下降

- 调Learning Rate,可以visualize No.参数update 和 loss
- 自适应(Adagrad):

分子说梯度越大update越大,分母说梯度越大update越小。反差
The best step is 一次微分除以二次微分
- 随机梯度
看一个example就update一次参数
- Feature Scaling
xir←σixir−mi第r个example的第i个feature
理论基础
泰勒展开
h(x)=h(x0)+h′(x0)(x−x0)+2!h′′(x0)(x−x0)2+...
当 x 很接近 x0 时,h(x)≈h(x0)+h′(x0)(x−x0)
多元泰勒展开:
h(x,y)≈h(x0,y0)+∂x∂h(x0,y0)(x−x0)+∂y∂h(x0,y0)(y−y0)
所以可以对损失函数泰勒展开(两个参数)

圆的半径足够小才能满足泰勒近似,圆的半径和学习速率成正比
局限:局部最小