SMU激活函数提升6.22%

选择一个好的激活函数可以对提高网络性能产生重要的影响。Handcrafted Activation是神经网络模型中最常见的选择。尽管ReLU有一些严重的缺点，但由于其简单性，ReLU成为深度学习中最常见的选择。
本文在已知激活函数Leaky ReLU近似的基础上，提出了一种新的激活函数，称之为Smooth Maximum Unit(SMU)。用SMU替换ReLU，ShuffleNet V2模型在CIFAR100数据集上得到了6.22%的提升。

1介绍

神经网络是深度学习的支柱。激活函数是神经网络的大脑，在深度神经网络的有效性和训练中起着核心作用。ReLU由于其简单性而成为深度学习领域的常用选择。尽管它很简单，但ReLU有一个主要的缺点，即ReLU死亡问题，在这种情况下，多达50%的神经元在网络训练期间死亡。

为了克服ReLU的不足，近年来提出了大量的激活方法，其中Leaky ReLU、Parametric ReLU 、ELU、Softplus、随机化Leaky ReLU是其中的几种，它们在一定程度上改善了ReLU的性能。

Swish是谷歌脑组提出的非线性激活函数，对ReLU有一定的改善；GELU是另一种常用的平滑激活函数。可以看出，Swish和GELU都是ReLU的光滑近似。近年来，人们提出了一些提高ReLU、Swish或GELU性能的非线性激活方法，其中一些是ReLU或Leaky ReLU的光滑逼近方法，还有TanhSoft、EIS、Padé激活单元、正交Padé激活单元、Mish、ErfAct等。

maximum function在原点处是非光滑的。在本文中，作者将探讨maximum function的平滑逼近如何影响网络的训练和性能。