relu不可微为什么可用于深度学习

首先确定relu数学上来讲不可微的，提供伪梯度使其可分，faux gradient是伪梯度，使得在0值不可分；

relu不可微为什么可用于深度学习

这里讲到了本质，反馈神经网络正常工作需要的条件就是每一个点提供一个方向，即导数；0值不可微，本质上来说是因为这个地方可画多条切线，但我们需要的只是一条；由于这出现的0值的概率极低，任意选择一个子梯度就OK了，在0处的次微分集合是【0，1】；即选择其中一个就OK了；一般默认是0；