Mish: A Self Regularized Non-Monotonic Neural Activation Function论文笔记

作者：Diganta Misra
下载连接：https://arxiv.org/abs/1908.08681

这篇论文提出了一种全新的**函数，并且在大多数任务下的指标都要优于ReLU和Swish。

Introduction

**函数在神经网络中的意义主要是为模型引入非线性，而当前广泛使用的**函数主要有两种，分别是ReLU: f(x) = max⁡(0, x) 和Swish：f(x) = x⋅sigmoid(x)。其中ReLU作为**函数主要是有无上界和有下界的特点，而Swish相比ReLU又增加了平滑和非单调的特点，这也使得其在ImageNet上的效果更好。本文中提出的Mish**函数与Swish函数相同也是一个平滑的非单调的**函数，具体表达式为：
f(x) = ⁡x ⋅ tanh(softplus(x)) = ⁡x ⋅ tanh(ln⁡(1 + e^x))
在CIFAR-100数据集上，且同样以Squeeze Excite -18 Network作为基础网络的情况下，Mish相比Swish和ReLU，其Top-1准确率分别提高了0.494% 和 1.671%。

Mish

Mish函数的曲线如下图：
Mish: A Self Regularized Non-Monotonic Neural Activation Function论文笔记
从图中可以看到Mish函数的一些特点，其在x=-1.2左右时有最小值，大概为-0.31，并且无最大值，函数整体平滑且非单调。Mish与Swish的一阶导数和二阶导数如下图：

从图中可以看到，Mish和Swish的一阶导和二阶导的曲线都比较相近，这也说明这两者具有比较相似的特性。

Properties of Mish

作者主要指出了Mish的四个特性，分别是：无上界(unbounded above)、有下界(bounded below)、平滑(smooth)和非单调(nonmonotonic)。 这四个特性都对函数的性能有所提升。
无上界：可以防止网络饱和也就是梯度消失。
有下界：提升网络的正则化效果。
平滑：首先在0值点连续相比ReLU可以减少一些不可预料的问题，其次可以使网络更容易优化并且提高泛化性能。
非单调：可以使一些小的负输入也被保留为负输出，提高网络的可解释能力和梯度流（我的理解是可以使更多的单元得到学习）

Comparison of variation in hyper-parameters

这一章作者在MNIST和Cifar-10数据集上针对不同的超参数（例如batch_size,dropout等等）对Mish、Swish和ReLU做了很多的实验。总的来说就是Mish的效果最好，具体就不在这里写了，大家有兴趣的话可以自己去论文里看????。

Experiments

这部分是Mish和其他35个**函数在75个benchmark上的比较，结论就是Mish赢了ReLU55次，赢了Swish53次。
Mish: A Self Regularized Non-Monotonic Neural Activation Function论文笔记