[李宏毅-机器学习]Tips for deep learning

 

Activation fucntion

sigmoid对深层网络效果不好,可能会导致梯度消失问题

sigmoid对输入比较大,得到的输出比较小

[李宏毅-机器学习]Tips for deep learning

[李宏毅-机器学习]Tips for deep learning

ReLU

[李宏毅-机器学习]Tips for deep learning

[李宏毅-机器学习]Tips for deep learning

 

Maxout

自动学习出来需要的activation function

[李宏毅-机器学习]Tips for deep learning

 

梯度下降优化方式

AdaGrad

[李宏毅-机器学习]Tips for deep learning

 

RMSProp

Adagrad改进版,对过去和现在的梯度(不带方向,平方去掉了方向)进行加权

[李宏毅-机器学习]Tips for deep learning

 

动量Momentum

用于避开local minima

[李宏毅-机器学习]Tips for deep learning

动量就是之前梯度的累计,相当于惯性(带方向)

[李宏毅-机器学习]Tips for deep learning

[李宏毅-机器学习]Tips for deep learning

 

Adam=RMSprop+Momentum

[李宏毅-机器学习]Tips for deep learning

 

Early Stopping

[李宏毅-机器学习]Tips for deep learning

 

正则化 Regularization

[李宏毅-机器学习]Tips for deep learning

 

Dropout

[李宏毅-机器学习]Tips for deep learning

使用dropout时,在training时效果会变差,但是主要用于test

[李宏毅-机器学习]Tips for deep learning

[李宏毅-机器学习]Tips for deep learning

相关文章:

  • 2022-01-09
  • 2021-09-02
  • 2021-09-11
  • 2021-10-12
  • 2021-07-11
  • 2021-08-18
  • 2021-07-03
  • 2021-08-09
猜你喜欢
  • 2021-11-30
  • 2021-10-12
  • 2021-12-19
  • 2021-11-28
  • 2021-09-01
  • 2021-09-21
  • 2021-04-05
相关资源
相似解决方案