【发布时间】:2016-05-13 13:40:11
【问题描述】:
我有点困惑,为什么反向传播中的激活导数是这样的。
首先,当我从反向传播算法中删除激活导数并将其替换为常数时,网络仍在训练,尽管速度稍慢。所以我认为它对算法来说不是必需的,但它确实提供了性能优势。
但是,如果激活导数(简单地说)是激活函数相对于当前输入的变化率,那么为什么这会提供性能提升?
当然,在激活函数变化最快的值处,我们想要一个较小的值,以便权重更新更小?这将防止由于激活函数上陡峭斜坡附近的权重变化而发生大的输出变化。然而,这与算法的实际工作方式完全相反。
有人可以向我解释为什么它是这样设置的,以及为什么它提供了这样的性能改进?
【问题讨论】:
标签: machine-learning neural-network artificial-intelligence