Andrew 机器学习课——多元梯度下降

先放上一张梯度下降的公式，其中，a为学习率。

梯度下降的目的是不断一小步一小步的将参数按照往最小值的方向移动，直到理论上为最小值时，后面的偏导数为0.

当参数只有一个时，偏导数就是这个图像的切线的斜率随着⊙1变化的值。如果放在两个参数的图像里，就会类似成一个碗状的图形

Andrew 机器学习课——多元梯度下降

再多参数的估计就画不出来了。。。

Andrew 机器学习课——多元梯度下降

代价函数和迭代轮数的图像应该时这样的。纵坐标是代价函数值，横坐标是迭代的轮数。应该随着轮数增加参数应越来越拟合。

这里跟学习率相关了。如果学习率太小，则需要迭代的时间就会很长，而如果学习率太大，则会导致可能在梯度下降过程中一不小心就超过了最优点，而且越来越偏离。

Andrew 机器学习课——多元梯度下降

可以通过取一系列的学习率来判断最佳的学习率。通过画出代价函数和迭代轮数之间的函数图像来判断。