【发布时间】:2020-08-07 02:07:36
【问题描述】:
tanh(x) 激活函数的导数是1-tanh^2(x)。
在对这个函数执行梯度下降时,这个导数成为权重梯度的一部分。
例如,Mean Squared Error:dL/dw = (tanh(x) - y)*(1 - tanh^2(x))*dx/dw
当tanh(x) 等于1 或-1 时,术语tanh^2(x) 变为1。
这意味着如果预测到了正确的类别,那么1-tanh^2(x) 等于0,因此损失的梯度变为0,因此权重不会更新。
但是,出于同样的原因,这似乎意味着如果预测到了完全错误的类,那么梯度仍然是0,因此不会导致更新。据推测,这与您想要发生的事情相反。
这是个问题吗?如果是这样,如何避免/修正这个问题?
【问题讨论】:
-
请注意,更新帖子时在帖子中包含“编辑:轻微数学错误”这样的短语是没有意义的,应该避免,因为它只会造成不必要的混乱(已删除) .
标签: machine-learning gradient-descent loss-function