GELU的全称是GAUSSIAN ERROR LINEAR UNIT

与Sigmoids相比,像ReLU,ELU和PReLU这样的**可以使神经网络更快更好地收敛。

此外,Dropout通过将一些**数乘以0来规范化模型。

以上两种方法共同决定了神经元的输出。但是,两者彼此独立工作。GELU旨在将它们结合起来。

另外,称为Zoneout的新RNN正则化器将输入随机乘以1

我们希望通过将输入乘以0或1并确定性地获得(**函数的)输出值来合并所有3个功能。

GELU **函数

 

我们选择这种分布是因为神经元的输入遵循正态分布尤其是在批归一化之后

但是任何**函数的输出都应该是确定性的,而不是随机的。因此,我们找到了转换的期望值。

GELU **函数

由于Φ(x)是高斯分布的累积分布,并且通常使用误差函数进行计算,因此我们将高斯误差线性单位(GELU)定义为:

GELU **函数

 

 

 

 

 

 

 

 

 

 

 

相关文章:

  • 2021-11-05
  • 2021-11-26
  • 2021-12-20
  • 2022-12-23
  • 2021-04-05
  • 2022-12-23
  • 2021-09-04
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2021-11-26
  • 2022-01-13
  • 2022-12-23
  • 2021-10-01
  • 2022-02-28
  • 2021-08-18
相关资源
相似解决方案