CVPR 2021 | 大幅涨点！新型动态激活函数ACON和轻量级网络TFNet - 极术社区

首发：旷视研究院
作者：R

知乎：https://zhuanlan.zhihu.com/p/...

论文地址：https://arxiv.org/pdf/2009.0475

本文提出一种新的激活函数 ACON (activate or not)，可以自适应地学习激活与否。

ReLU 是最常见的激活函数，最近 NAS 搜到的 Swish 在各种 SOTA 网络结构中逐渐取代 ReLU。有趣的是，我们发现虽然两者形式看起来很不一样，但 Swish 可以解释为 ReLU 的一种平滑近似。基于这个发现，本文进一步分析 ReLU 的一般形式 Maxout 系列激活函数，从而得到 Swish 的一般形式、简单且有效的 ACON 激活函数。

本文在多个任务上验证了此方法的涨点性能和泛化性能（例如在 MobileNet-0.25 和 ResNet-152 上，分别将 ImageNet 准确率提高了 6.7% 和 1.8%），这表明 ACON 对已有的激活函数中是一种有效的替代方法。

一. ReLU 和 Swish 的关系

前面提到，NAS 在现代激活函数方面取得了成功，NAS 搜索到的 Swish 已经在 EfficientNet 等许多 SOTA 模型中已经成为默认配置，但如何解释 Swish 背后的原理呢？（SENet 也是近年的 SOTA 标配，我们在另一个工作 WeightNet: Revisiting the Design Space of Weight Networks 中也做过一些有意思的探讨）

本文的一个目标是提出一个新的视角，去解释这个搜索结果背后的机制，并研究更有效的激活功能。下面会详细讲解如何把Swish理解为ReLU的一种平滑近似：