转载：常用**函数（激励函数）理解与总结

关于ReLU死亡的解释：设学习速率为r, ReLU的梯度为d(ReLU(wx+b))，那么权重更新公式为：w = w - rd(ReLU(wx+b)); 如果d(ReLU(wx+b))为1，那么权重更新公式变成了：w = w - r；如果学习率 r 较大使更新后的值w为较大的负值，那么很可能在下次迭代中由于wx+b<0, 使d(ReLU(wx+b))变为0，此时w再也无法更新，神经元节点就“死了”。简单来说：Relu在输入<0的时候，导数为0，在反向传播的过程中，无法更新参数w，如果恰好此时的w使神经元的Relu在输入<0，那么该神经元dead
转载：常用**函数（激励函数）理解与总结