从Gradient Descent 到 Stochastic Gradient Descent(SGD)

目标是调节每一个 θ \theta θ让 L ( θ ) L(\theta) L(θ)最小.
Gradient Descent 每次调整 θ \theta θ时会加上(减去)一个最大的变化率(梯度)乘以一个变换量(学习率),使得 θ \theta θ会尽快地进入一个平滑地带,也就是我们想要得到的那个极值.

可是如果n为全样本数的话,像阿里数据库里面有上亿的样本数据,最后的计算可能是一个无法完成的任务.所以可以把n值用一个固定的数来近似,这个固定的数是mini batch,获取mini batch的方法是从样本里面随机抽取的,所以Gradient Descent 变成了Stochastic(随机) Gradient Descent.
从Gradient Descent 到 Stochastic Gradient Descent(SGD)

可以看到最终 θ \theta θ会以曲线的方式无限接近最优解.