论文The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in Transformers由Zonglin Li等人撰写,主要研究了Transformer架构中出现的激活稀疏现象,探讨其普遍性、优势、成因及影响,为提升模型效率、鲁棒性和校准性提供了新视角与方法,对深度学习领域具有重要意义。
研究背景与动机
- 生物与DNN的差异:生物大脑神经活动稀疏,而DNNs通常进行密集计算,资源需求大且在鲁棒性、校准性等方面表现不佳。
- Transformer中的发现:观察到训练后的Transformer中间层激活呈现稀疏性,与生物大脑有相似之处,促使对其深入研究。
激活稀疏性的普遍性
- 多场景验证:在T5(自然语言处理)和ViT(视觉)模型上,无论是训练还是评估数据、不同规模数据集、各种配置以及所有层中均出现激活稀疏现象,且多数神经元激活频率低,无完全不激活的“死神经元”。
- 模型尺寸影响:实验表明,更深、更宽的Transformer模型激活稀疏性更显著,以非零元素百分比衡量,其激活神经元比例更低。
稀疏性的优势
- 计算效率提升:利用激活稀疏性,可避免大量零值乘法运算,显著降低MLP计算成本。如在推理时,第二MLP层 FLOP 可大幅减少,第一 MLP 层可借助近似最近邻搜索降低计算复杂度。
- Top - k Transformer:引入Top - k Transformer,通过对激活图阈值处理控制稀疏度。实验显示,合理设置k时其性能与普通Transformer相当,且在TPUv4上进行无批次解码任务时,较大模型可减少约10%的推理时间延迟。
- 鲁棒性与校准改善:Top - k Transformer能增强模型对噪声标签、输入扰动的鲁棒性,改善预测置信度校准。如在ImageNet - 1k数据集上,Top - 128 ViT在有标签噪声、输入扰动情况下表现更好,校准误差更低。
相关工作
- 稀疏性的不同应用:以往研究将稀疏性用于提高效率、增强鲁棒性、辅助可解释性、数据建模和理解过参数化模型理论等,但大多基于模型权重或其他方式,本文聚焦于Transformer激活稀疏性。
讨论与展望
- 奥卡姆剃刀原则的体现:Transformer中激活稀疏性的自然出现符合奥卡姆剃刀原则,且通过实验证明其对提高模型泛化能力有益,为深度学习模型引入稀疏性提供了理论支持。
- 跨学科影响:研究Transformer激活稀疏性有助于将人工智能应用于生物学和神经科学研究,促进跨学科发展。
附录内容
- 实验细节:介绍了T5和ViT模型训练的超参数设置、配置信息等。
- 稀疏性的扩展研究:在其他架构(如BERT、MLP - Mixer、ConvNets)和优化器中验证了稀疏性的存在,且表明在模型微调时稀疏性依然存在。
- 稀疏性优势的补充:Top - k Transformer不会显著影响训练收敛;范数诱导的稀疏性也有类似优势;进一步展示了Top - k ViT在训练中的校准和对输入扰动的鲁棒性结果。
- 稀疏性成因探究:通过随机标签、随机图像和无限数据实验,分析了标签、数据和数据拟合对稀疏性的影响,推测稀疏性可能源于训练动态,并给出理论依据。
- 两层MLP的研究:在两层MLP中验证了稀疏性的出现,发现其与模型的过/欠参数化有关,且学习率会影响稀疏性。