SGD和它的朋友们优化算法原理

参考:: 一个框架看懂优化算法之异同 SGD/AdaGrad/Adam.
推荐Deep learning specialization 吴恩达-Gradient descent with momentum
梯度下降算法(Gradient descent)

牛顿法和它的朋友

相关文章: