首发:旷视研究院
作者:R
知乎:https://zhuanlan.zhihu.com/p/...
论文地址:https://arxiv.org/pdf/2009.0475
论文代码:https://github.com/nmaac/acon
本文提出一种新的激活函数 ACON (activate or not),可以自适应地学习激活与否。
ReLU 是最常见的激活函数,最近 NAS 搜到的 Swish 在各种 SOTA 网络结构中逐渐取代 ReLU。有趣的是,我们发现虽然两者形式看起来很不一样,但 Swish 可以解释为 ReLU 的一种平滑近似。基于这个发现,本文进一步分析 ReLU 的一般形式 Maxout 系列激活函数,从而得到 Swish 的一般形式、简单且有效的 ACON 激活函数。
本文在多个任务上验证了此方法的涨点性能和泛化性能(例如在 MobileNet-0.25 和 ResNet-152 上,分别将 ImageNet 准确率提高了 6.7% 和 1.8%),这表明 ACON 对已有的激活函数中是一种有效的替代方法。
一. ReLU 和 Swish 的关系
前面提到,NAS 在现代激活函数方面取得了成功,NAS 搜索到的 Swish 已经在 EfficientNet 等许多 SOTA 模型中已经成为默认配置,但如何解释 Swish 背后的原理呢?(SENet 也是近年的 SOTA 标配,我们在另一个工作 WeightNet: Revisiting the Design Space of Weight Networks 中也做过一些有意思的探讨)
本文的一个目标是提出一个新的视角,去解释这个搜索结果背后的机制,并研究更有效的激活功能。下面会详细讲解如何把Swish理解为ReLU的一种平滑近似:
二、ReLU 的一般式和 Swish 的一般式的关系
三、ACON 的更多特例 ACON-FReLU
四、Meta-ACON
更多细节请参考原文和代码。
- 知乎原文:https://zhuanlan.zhihu.com/p/...
- 论文地址:https://arxiv.org/pdf/2009.0475
- 论文代码:https://github.com/nmaac/acon
专栏文章推荐
欢迎关注旷视研究院极术社区专栏,定期更新最新旷视研究院成果
加入旷视:career@megvii.com