论文：Root Mean Square Layer Normalization（RMSNorm）

论文地址
论文总结

论文地址

[1910.07467] Root Mean Square Layer Normalization

论文总结

《Root Mean Square Layer Normalization》总结

研究背景：
- LayerNorm的重要性与不足：LayerNorm能稳定深度神经网络的训练，但引入了计算开销，在处理大规模和深度网络时效率问题突出，其重中心不变性对模型成功的贡献存疑。
相关工作：
- BatchNorm：基于每个训练小批量的均值和方差统计来稳定激活，但在处理变长序列时存在局限性。
- WeightNorm：通过重新参数化权重矩阵来解耦权重向量的长度和方向。
- 其他改进方法：如数据无关的方法估计均值和方差、批重归一化、用实例归一化代替批归一化、使用l1 - norm代替方差等，但仍遵循原始归一化结构并利用均值统计。
背景知识：
- LayerNorm回顾：通过均值和方差统计对神经元的输入进行归一化，以减少内部协变量偏移问题。
RMSNorm：
- 提出：基于重缩放不变性假设，仅使用均方根（RMS）统计来归一化神经元的输入。
- 不变性分析：对权重矩阵和输入的重缩放具有不变性，但对某些重中心操作不具有不变性。
- 梯度分析：模型梯度对输入和权重矩阵的缩放具有一定的稳定性，梯度的权重与输入和权重矩阵的缩放呈负相关，起到了隐式学习率适配器的作用。
pRMSNorm：
- 提出：基于神经元的独立同分布结构假设，从部分输入中估计RMS。
- 性质：与RMSNorm具有相同的不变性性质，但RMS的估计存在偏差，在实践中部分比例为6.25%时模型能成功收敛。
实验：
- 机器翻译：在RNNSearch和Transformer模型上进行实验，RMSNorm与LayerNorm性能相当，但计算效率更高，速度提升约7% - 64%。
- CNN / Daily Mail阅读理解：在双向注意力读者模型上进行实验，RMSNorm和LayerNorm比BatchNorm收敛更快，验证误差率更低，RMSNorm比LayerNorm快约15%。
- 图像 - 字幕检索：在订单嵌入模型上进行实验，RMSNorm和LayerNorm在模型收敛和性能上优于基线，RMSNorm比LayerNorm训练速度快40% - 64%。
- CIFAR - 10分类：在ConvPool - CNN - C模型上进行实验，BatchNorm性能最佳，RMSNorm比LayerNorm测试误差低0.013%，训练时间节省约20.5%。
结论与未来工作：
- 结论：RMSNorm保留了LayerNorm的重缩放不变性，计算开销更小，可作为LayerNorm的替代方案应用于不同模型架构，在多个NLP任务中表现出与LayerNorm相当的质量，但加速了运行速度。
- 未来工作：进一步分析RMSNorm成功的原因，探索不同的范数，简化其他归一化技术，如BatchNorm；研究如何通过代码优化提高pRMSNorm的性能。

论文：Root Mean Square Layer Normalization（RMSNorm）

论文地址

论文总结

相关文档

论文相关文章

最近热门

最常浏览