论文地址

[1910.07467] Root Mean Square Layer Normalization

论文总结

《Root Mean Square Layer Normalization》总结

  1. 研究背景

    • LayerNorm的重要性与不足:LayerNorm能稳定深度神经网络的训练,但引入了计算开销,在处理大规模和深度网络时效率问题突出,其重中心不变性对模型成功的贡献存疑。
  2. 相关工作

    • BatchNorm:基于每个训练小批量的均值和方差统计来稳定激活,但在处理变长序列时存在局限性。
    • WeightNorm:通过重新参数化权重矩阵来解耦权重向量的长度和方向。
    • 其他改进方法:如数据无关的方法估计均值和方差、批重归一化、用实例归一化代替批归一化、使用l1 - norm代替方差等,但仍遵循原始归一化结构并利用均值统计。
  3. 背景知识

    • LayerNorm回顾:通过均值和方差统计对神经元的输入进行归一化,以减少内部协变量偏移问题。
  4. RMSNorm

    • 提出:基于重缩放不变性假设,仅使用均方根(RMS)统计来归一化神经元的输入。
    • 不变性分析:对权重矩阵和输入的重缩放具有不变性,但对某些重中心操作不具有不变性。
    • 梯度分析:模型梯度对输入和权重矩阵的缩放具有一定的稳定性,梯度的权重与输入和权重矩阵的缩放呈负相关,起到了隐式学习率适配器的作用。
  5. pRMSNorm

    • 提出:基于神经元的独立同分布结构假设,从部分输入中估计RMS。
    • 性质:与RMSNorm具有相同的不变性性质,但RMS的估计存在偏差,在实践中部分比例为6.25%时模型能成功收敛。
  6. 实验

    • 机器翻译:在RNNSearch和Transformer模型上进行实验,RMSNorm与LayerNorm性能相当,但计算效率更高,速度提升约7% - 64%。
    • CNN / Daily Mail阅读理解:在双向注意力读者模型上进行实验,RMSNorm和LayerNorm比BatchNorm收敛更快,验证误差率更低,RMSNorm比LayerNorm快约15%。
    • 图像 - 字幕检索:在订单嵌入模型上进行实验,RMSNorm和LayerNorm在模型收敛和性能上优于基线,RMSNorm比LayerNorm训练速度快40% - 64%。
    • CIFAR - 10分类:在ConvPool - CNN - C模型上进行实验,BatchNorm性能最佳,RMSNorm比LayerNorm测试误差低0.013%,训练时间节省约20.5%。
  7. 结论与未来工作

    • 结论:RMSNorm保留了LayerNorm的重缩放不变性,计算开销更小,可作为LayerNorm的替代方案应用于不同模型架构,在多个NLP任务中表现出与LayerNorm相当的质量,但加速了运行速度。
    • 未来工作:进一步分析RMSNorm成功的原因,探索不同的范数,简化其他归一化技术,如BatchNorm;研究如何通过代码优化提高pRMSNorm的性能。