Dynamic ReLU

[2003.10027] Dynamic ReLU

“Dynamic ReLU”由Yinpeng Chen等人撰写。文章提出动态ReLU（DY-ReLU）激活函数，其参数由超函数根据输入生成，能将全局上下文编码到激活函数中，提升模型表示能力，在图像分类和关键点检测任务中效果显著。

研究背景：ReLU及其变体在深度学习中广泛应用，但它们是静态的，对所有输入样本执行相同操作。本文研究动态整流器，提出DY-ReLU，根据输入动态调整激活函数。
相关工作
- 激活函数：介绍ReLU及其多种变体，如LeakyReLU、PReLU等，以及其他平滑激活函数，DY-ReLU与这些静态激活函数不同，它能根据输入自适应调整。
- 动态神经网络：相关工作包括学习控制器跳过模型部分、基于预测置信度提前退出等，DY-ReLU将重点从内核权重转移到激活函数。
- 高效CNNs：设计高效CNN架构是热门研究领域，DY-ReLU可用于这些网络，以低成本提升表示能力。
动态ReLU
- 动态激活：动态激活函数 $f_{\theta(x)}(x)$ 的参数 $\theta(x)$ 由超函数计算，超函数编码输入全局上下文，使激活函数更具表示力。
- 定义与实现：DY-ReLU将传统ReLU扩展为参数化分段线性函数，系数由超函数 $\theta(x)$ 输出。超函数用轻量级网络实现，类似SE模块，通过全局平均池化、全连接层和归一化层生成参数。
- 与先前工作关系：ReLU、LeakyReLU、PReLU和SE是DY-ReLU的特殊情况，DY-ReLU是动态且高效的Maxout，计算量更少且性能更好。
动态ReLU的变体
- 网络结构与复杂度：介绍DY-ReLU-A、DY-ReLU-B、DY-ReLU-C三种变体。DY-ReLU-A在空间和通道上共享激活函数，计算成本低但表示能力较弱；DY-ReLU-B在空间上共享、通道上独立；DY-ReLU-C在空间和通道上都独立，通过引入空间注意力分支解决输出维度过大问题。三种变体计算复杂度不同，但都比1×1卷积计算量小。
- 消融实验：在ImageNet分类和COCO关键点检测任务上研究变体差异。分类任务中，通道相关变体（DY-ReLU-B和DY-ReLU-C）优于通道共享变体（DY-ReLU-A）；关键点检测任务中，通道相关变体在骨干网络中表现更好，空间相关变体（DY-ReLU-C）在头部网络中更有效。
实验结果
- ImageNet分类：在MobileNetV2、MobileNetV3和ResNet等网络上用DY-ReLU替换默认激活函数，在不同训练设置下进行实验。结果表明，DY-ReLU在所有网络上均优于静态对应函数，计算成本仅增加约5%，在小模型上提升更明显。与先前工作对比，DY-ReLU性能更优且计算效率更高。
- DY-ReLU的动态性检验：通过检查不同图像上的输入输出，发现DY-ReLU的激活值随图像变化，具有动态性，且不同层级的动态范围和斜率差异不同。
- ImageNet上的消融实验：研究动态分段函数、不同层使用DY-ReLU、超函数中第一个全连接层的缩减比R、超参数初始化等对性能的影响。结果表明，使ReLU动态化可提升精度，在更多层使用DY-ReLU效果更好， $R = 8$ 时能达到较好平衡，超参数也有合适的取值范围。
- COCO单人关键点检测：在COCO 2017数据集上，用DY-ReLU在MobileNetV2和MobileNetV3等骨干网络及头部网络进行实验。结果显示，DY-ReLU在所有骨干网络上均优于基线，证明其在关键点检测任务上的有效性。
研究结论：DY-ReLU能动态适应输入，显著提升模型表示能力，计算成本可忽略不计，易于集成到现有CNN架构中，在图像分类和人体姿态估计任务中取得良好效果，有望成为高效网络架构的有用组件。

Dynamic ReLU

激活函数相关文章

最近热门

最常浏览