Sina Weibo:小锋子Shawn
Tencent E-mail:[email protected]
http://blog.csdn.net/dgyuanshaofeng/article/details/80209816

Sigmoid**函数虽然具有概率解释(probabilistic interpretation),但是具有如下缺点:1、使得网络收敛较慢(slow);2、使得网络参数解收敛不准确(inaccurate)。
ReLU**函数虽然性能好于Sigmoid,但是缺乏概率解释。
文中提出GELU高斯误差线性单元bridge确定性**函数ReLU和随机正则子Dropout之间的gap,也就是希望GELU这种随机性**函数替代ReLU。文中提到,在几个任务中,GELU好于ReLU和ELU。
GELU定义如下:

GELU(x)=xP(Xx)XN(μ,σ2)

文中使用μ=0σ=1
如图1所示。蓝线表示GELU,非凸和非单调。在正半轴,GELU不是线性的,在所有点上具有一定的曲率。橙线ReLU和绿线ELU,在正半轴,是凸和单调的,缺乏曲率。GELU具有较好的性能,可能是由于具有一定的曲率和非单调,更容易逼近复制函数。另外,GELU具有概率解释,它的期望是SOI图(stochastic 0-I map),结合了dropout和zoneout。
「Deep Learning」Note on GELU(Gaussian Error Linear Unit)

图 1

[1] Bridging Nonlinearities and Stochastic Regularizers with Gaussian Error Linear Units 2016 [paper]

相关文章: