一、梯度消失与爆炸

13权值初始化
从上图可知,每一网络层输出不能太大或太小,否则会导致梯度爆炸或者梯度消失

13权值初始化
对权重W进行处理,使其方差为1/n1/n,则隐藏输出的方差也为1,这样使得经过累乘,依然保持到一个很小的数

二、Xavier方法与Kaiming方法

2.1 Xavier方法

方差一致性: 保持数据尺度维持在恰当范围,通常方差为1
**函数: 饱和函数, 如Sigmoid, Tanh
13权值初始化

2.2 Kaiming方法

方差一致性:保持数据尺度维持在恰当范围,通常方差为1
**函数: ReLU及其变种
13权值初始化

三、常用初始化方法

13权值初始化

相关文章:

  • 2022-12-23
  • 2021-11-19
  • 2021-07-29
  • 2021-09-26
  • 2021-11-08
  • 2021-04-16
  • 2022-12-23
猜你喜欢
  • 2021-06-18
  • 2021-12-27
  • 2022-12-23
  • 2021-07-23
  • 2019-06-13
相关资源
相似解决方案