从头开始深度学习之旅(3)

  • 欠拟合与过拟合

  上一节提到了一个叫学习效率的参数,这个参数很重要,它直接决定了我们能否迭代成功。

  还是上一节的例子,这次我们选不同的学习效率(rate),先看看效果:
从头开始深度学习之旅(3)
从头开始深度学习之旅(3)
从头开始深度学习之旅(3)
  这两个分别选取的是:0.0001 0.01 0.001 。第一个收敛较慢,第二个不收敛,第三个收敛较快。第一节的例子中用的就是0.001

  学习效率太小就会收敛太慢,如果很大就会错过最小值。这就是欠拟合与过拟合。

  如何选择合适的学习效率是一个很大的问题。比较高明的方法是刚开始先选的比较大,然后根据梯度的变化情况慢慢减小。这样既不会出现欠拟合,又不会过拟合,还能收敛点足够快。在讲解原理的时候就先用一个固定的学习效率吧,如果出现了过拟合,就减小它。

  下一节讲解对于多个样本如何进行线性回归。

相关文章: