“Dynamic ReLU”由Yinpeng Chen等人撰写。文章提出动态ReLU(DY-ReLU)激活函数,其参数由超函数根据输入生成,能将全局上下文编码到激活函数中,提升模型表示能力,在图像分类和关键点检测任务中效果显著。
-
研究背景:ReLU及其变体在深度学习中广泛应用,但它们是静态的,对所有输入样本执行相同操作。本文研究动态整流器,提出DY-ReLU,根据输入动态调整激活函数。
-
相关工作
- 激活函数:介绍ReLU及其多种变体,如LeakyReLU、PReLU等,以及其他平滑激活函数,DY-ReLU与这些静态激活函数不同,它能根据输入自适应调整。
- 动态神经网络:相关工作包括学习控制器跳过模型部分、基于预测置信度提前退出等,DY-ReLU将重点从内核权重转移到激活函数。
- 高效CNNs:设计高效CNN架构是热门研究领域,DY-ReLU可用于这些网络,以低成本提升表示能力。
-
动态ReLU
- 动态激活:动态激活函数的参数由超函数计算,超函数编码输入全局上下文,使激活函数更具表示力。
- 定义与实现:DY-ReLU将传统ReLU扩展为参数化分段线性函数,系数由超函数输出。超函数用轻量级网络实现,类似SE模块,通过全局平均池化、全连接层和归一化层生成参数。
- 与先前工作关系:ReLU、LeakyReLU、PReLU和SE是DY-ReLU的特殊情况,DY-ReLU是动态且高效的Maxout,计算量更少且性能更好。
-
动态ReLU的变体
- 网络结构与复杂度:介绍DY-ReLU-A、DY-ReLU-B、DY-ReLU-C三种变体。DY-ReLU-A在空间和通道上共享激活函数,计算成本低但表示能力较弱;DY-ReLU-B在空间上共享、通道上独立;DY-ReLU-C在空间和通道上都独立,通过引入空间注意力分支解决输出维度过大问题。三种变体计算复杂度不同,但都比1×1卷积计算量小。
- 消融实验:在ImageNet分类和COCO关键点检测任务上研究变体差异。分类任务中,通道相关变体(DY-ReLU-B和DY-ReLU-C)优于通道共享变体(DY-ReLU-A);关键点检测任务中,通道相关变体在骨干网络中表现更好,空间相关变体(DY-ReLU-C)在头部网络中更有效。
-
实验结果
- ImageNet分类:在MobileNetV2、MobileNetV3和ResNet等网络上用DY-ReLU替换默认激活函数,在不同训练设置下进行实验。结果表明,DY-ReLU在所有网络上均优于静态对应函数,计算成本仅增加约5%,在小模型上提升更明显。与先前工作对比,DY-ReLU性能更优且计算效率更高。
- DY-ReLU的动态性检验:通过检查不同图像上的输入输出,发现DY-ReLU的激活值随图像变化,具有动态性,且不同层级的动态范围和斜率差异不同。
- ImageNet上的消融实验:研究动态分段函数、不同层使用DY-ReLU、超函数中第一个全连接层的缩减比R、超参数初始化等对性能的影响。结果表明,使ReLU动态化可提升精度,在更多层使用DY-ReLU效果更好,时能达到较好平衡,超参数也有合适的取值范围。
- COCO单人关键点检测:在COCO 2017数据集上,用DY-ReLU在MobileNetV2和MobileNetV3等骨干网络及头部网络进行实验。结果显示,DY-ReLU在所有骨干网络上均优于基线,证明其在关键点检测任务上的有效性。
-
研究结论:DY-ReLU能动态适应输入,显著提升模型表示能力,计算成本可忽略不计,易于集成到现有CNN架构中,在图像分类和人体姿态估计任务中取得良好效果,有望成为高效网络架构的有用组件。