Mish: A Self Regularized Non-Monotonic Neural Activation Function论文笔记

作者:Diganta Misra
下载连接:https://arxiv.org/abs/1908.08681

这篇论文提出了一种全新的**函数,并且在大多数任务下的指标都要优于ReLU和Swish。

Introduction

**函数在神经网络中的意义主要是为模型引入非线性,而当前广泛使用的**函数主要有两种,分别是ReLU: f(x) = max⁡(0, x)Swish:f(x) = x⋅sigmoid(x)。其中ReLU作为**函数主要是有无上界和有下界的特点,而Swish相比ReLU又增加了平滑和非单调的特点,这也使得其在ImageNet上的效果更好。本文中提出的Mish**函数与Swish函数相同也是一个平滑的非单调的**函数,具体表达式为:
f(x) = ⁡x ⋅ tanh(softplus(x)) = ⁡x ⋅ tanh(ln⁡(1 + ex))
在CIFAR-100数据集上,且同样以Squeeze Excite -18 Network作为基础网络的情况下,Mish相比Swish和ReLU,其Top-1准确率分别提高了0.494% 和 1.671%。

Mish

Mish函数的曲线如下图:
Mish: A Self Regularized Non-Monotonic Neural Activation Function论文笔记
从图中可以看到Mish函数的一些特点,其在x=-1.2左右时有最小值,大概为-0.31,并且无最大值,函数整体平滑且非单调。Mish与Swish的一阶导数和二阶导数如下图:
Mish: A Self Regularized Non-Monotonic Neural Activation Function论文笔记
从图中可以看到,Mish和Swish的一阶导和二阶导的曲线都比较相近,这也说明这两者具有比较相似的特性。

Properties of Mish

作者主要指出了Mish的四个特性,分别是:无上界(unbounded above)、有下界(bounded below)、平滑(smooth)和非单调(nonmonotonic)。 这四个特性都对函数的性能有所提升。
无上界:可以防止网络饱和也就是梯度消失。
有下界:提升网络的正则化效果。
平滑:首先在0值点连续相比ReLU可以减少一些不可预料的问题,其次可以使网络更容易优化并且提高泛化性能。
非单调:可以使一些小的负输入也被保留为负输出,提高网络的可解释能力和梯度流(我的理解是可以使更多的单元得到学习)

Comparison of variation in hyper-parameters

这一章作者在MNIST和Cifar-10数据集上针对不同的超参数(例如batch_size,dropout等等)对Mish、Swish和ReLU做了很多的实验。总的来说就是Mish的效果最好,具体就不在这里写了,大家有兴趣的话可以自己去论文里看????。

Experiments

这部分是Mish和其他35个**函数在75个benchmark上的比较,结论就是Mish赢了ReLU55次,赢了Swish53次。
Mish: A Self Regularized Non-Monotonic Neural Activation Function论文笔记

相关文章:

  • 2021-06-14
  • 2021-11-05
  • 2021-12-07
  • 2022-12-23
  • 2022-12-23
  • 2021-12-19
  • 2021-06-26
  • 2021-05-17
猜你喜欢
  • 2021-07-16
  • 2021-11-18
  • 2021-08-25
  • 2021-07-16
  • 2021-07-31
  • 2022-01-14
  • 2021-12-10
相关资源
相似解决方案