pre

为了便于理解使用只含有一个特征的线性回归进行陈述:
假设函数:
hθ(x(i))=θ1x(i)+θ0h_{\theta}(x^{(i)})=\theta_{1}x^{(i)}+\theta_{0}
使用MSE损失函数
J(θ0,θ1)=12mi=1m(hθ(x(i))y(i))2J_{(\theta_{0},\theta_{1})} =\frac{1}{2m}\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})^2
使用MSE + L2L_2 正则化
J(θ0,θ1)=12mi=1m(hθ(x(i))y(i))2+12mθ12J_{(\theta_{0},\theta_{1})} =\frac{1}{2m}\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})^2 + \frac{1}{2m}||\theta_1||^2
3种不同形式的梯度下降算法(SGD、MBGD、BGD)

批梯度下降

公式

代码demo

随机梯度下降

公式

代码demo

小批量梯度下降

公式

代码demo

参考文献

REF1
REF2
REF3
REF4
其中REF3在BGD上的公式有误,参考REF1

相关文章: