【发布时间】:2018-03-18 10:37:21
【问题描述】:
分类器网络的隐藏层使用 sigmoid 或其他激活函数来引入非线性和规范化数据,但最后一层是否使用 sigmoid 和 softmax 结合?
我觉得这无关紧要,网络会以任何一种方式进行训练——但是否应该单独使用 softmax 层?还是应该先应用sigmoid函数?
【问题讨论】:
标签: neural-network classification softmax sigmoid
分类器网络的隐藏层使用 sigmoid 或其他激活函数来引入非线性和规范化数据,但最后一层是否使用 sigmoid 和 softmax 结合?
我觉得这无关紧要,网络会以任何一种方式进行训练——但是否应该单独使用 softmax 层?还是应该先应用sigmoid函数?
【问题讨论】:
标签: neural-network classification softmax sigmoid
一般来说,在 softmax 输出层之前进行额外的 sigmoid 激活是没有意义的。由于 sigmoid 函数是a partial case of softmax,它只会将值连续两次压缩到[0, 1] 区间中,这将产生几乎均匀的输出分布。当然,你可以通过这个传播,但是效率会低很多。
顺便说一句,如果你选择不使用 ReLu,那么 tanh 绝对是 a better activation function 而不是 sigmoid。
【讨论】: