“DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models”由Damai Dai等人撰写。文章提出了DeepSeekMoE架构,通过细粒度专家分割和共享专家隔离策略提升专家专业化程度,在多个规模模型上验证了该架构的有效性和优势。
-
研究背景:大语言模型时代,MoE架构可在扩展参数时控制计算成本,但传统MoE架构存在知识混合和冗余问题,限制专家专业化。
-
相关工作:MoE技术被引入语言模型训练,诸多研究基于MoE架构构建语言模型,但大多基于传统路由策略,专家专业化有待提升。
-
DeepSeekMoE架构
- 细粒度专家分割:在保持专家参数数量和计算成本不变的情况下,将专家FFN分割为$m$个更小的专家,增加激活专家数量,提升激活专家组合的灵活性,增强知识获取的准确性和针对性。
- 共享专家隔离:隔离$K_{s}$个专家作为共享专家,捕获和整合通用知识,减轻其他路由专家的参数冗余,提高参数效率。
- 负载均衡考虑:采用专家级平衡损失和设备级平衡损失,缓解路由崩溃风险,确保设备间计算平衡。
-
验证实验
- 实验设置:使用大规模多语言语料库训练模型,基于HAI-LLM框架在NVIDIA A100或H800 GPU集群上实验,设置模型和训练超参数,并使用多种基准测试评估模型。
- 评估结果:DeepSeekMoE在与其他MoE架构对比中表现出显著优势,与更大的GShard模型性能相当,接近MoE模型理论上限。
- 消融实验:验证了细粒度专家分割和共享专家隔离策略的有效性,确定了共享专家和路由专家的合适比例。
- 专家专业化分析:DeepSeekMoE的路由专家冗余度低,共享专家不可替代,能更准确高效地获取知识。
-
扩展到DeepSeekMoE 16B
- 实验设置:使用更大的训练数据和调整后的超参数训练DeepSeekMoE 16B,采用更多基准测试进行评估。
- 评估结果:与DeepSeek 7B和LLaMA2 7B相比,DeepSeekMoE 16B在计算量约为40%的情况下性能相当,在数学推理、代码生成和中文任务上表现出色。
-
DeepSeekMoE 16B的对齐:对DeepSeekMoE 16B进行监督微调构建聊天模型,实验结果表明其在多数基准测试中与7B密集模型性能相当或更优,展现了双语能力和适应性。
-
DeepSeekMoE 145B进展:初步将DeepSeekMoE扩展到145B,在与GShard 137B和DeepSeek 67B的对比中展现优势,更大规模下部分激活的DeepSeekMoE 142B也表现良好。
-
研究结论:DeepSeekMoE架构通过创新策略实现了更高的专家专业化和性能,在多个规模模型上验证了优势,为大语言模型发展提供了有价值的参考。