从头开始深度学习之旅（3）

上一节提到了一个叫学习效率的参数，这个参数很重要，它直接决定了我们能否迭代成功。

还是上一节的例子，这次我们选不同的学习效率（rate），先看看效果：
从头开始深度学习之旅（3）

这两个分别选取的是： $0.0001$ $0.01$ $0.001$ 。第一个收敛较慢，第二个不收敛，第三个收敛较快。第一节的例子中用的就是 $0.001$ 。

学习效率太小就会收敛太慢，如果很大就会错过最小值。这就是欠拟合与过拟合。

如何选择合适的学习效率是一个很大的问题。比较高明的方法是刚开始先选的比较大，然后根据梯度的变化情况慢慢减小。这样既不会出现欠拟合，又不会过拟合，还能收敛点足够快。在讲解原理的时候就先用一个固定的学习效率吧，如果出现了过拟合，就减小它。

下一节讲解对于多个样本如何进行线性回归。