【发布时间】:2017-11-10 10:25:06
【问题描述】:
我已经在 R 中从头开始破解了一个深度前馈 NN,它使用“硬 sigmoid”激活 - max(0,min(1,x)) - 似乎比 ReLU 更稳定。尝试将其移植到 TensorFlow,并注意到他们没有内置这个激活函数,只有 relu6,它在 6 处使用了上限。这是有原因的吗? (我知道你可以做 relu6(x*6)/6,但如果 TF 的家伙把 6 放在那里是有充分理由的,我想知道。) 另外,我想知道其他人在前馈网络中是否存在 ReLU 爆炸问题(我知道 RNN 问题)。
【问题讨论】:
标签: tensorflow