使用 Tanh 进行梯度下降，错误分类时梯度为 0？答案

【问题标题】：Gradient Descent with Tanh, 0 gradient on incorrect classification?使用 Tanh 进行梯度下降，错误分类时梯度为 0？
【发布时间】：2020-08-07 02:07:36
【问题描述】：

tanh(x) 激活函数的导数是1-tanh^2(x)。在对这个函数执行梯度下降时，这个导数成为权重梯度的一部分。

例如，Mean Squared Error：dL/dw = (tanh(x) - y)*(1 - tanh^2(x))*dx/dw

当tanh(x) 等于1 或-1 时，术语tanh^2(x) 变为1。

这意味着如果预测到了正确的类别，那么1-tanh^2(x) 等于0，因此损失的梯度变为0，因此权重不会更新。

但是，出于同样的原因，这似乎意味着如果预测到了完全错误的类，那么梯度仍然是0，因此不会导致更新。据推测，这与您想要发生的事情相反。

这是个问题吗？如果是这样，如何避免/修正这个问题？

【问题讨论】：

【解决方案1】：

通过为每个类别选择0 和1 的预测值来避免该问题（在两个类别的分类情况下）。 IE。您通常不会将 one-hot-encode 编码为负值。

【讨论】：

【解决方案2】：

好消息是，tanh(x) 仅在 x 为 +/- 无穷大时才变为 +/- 1，因此您无需为此担心太多。

但是，对于绝对值较高的x，渐变确实会受到抑制，因此您应该：

如需进一步阅读，请搜索“消失的渐变”。

【讨论】：