Soft MoE《FROM SPARSE TO SOFT MIXTURES OF EXPERTS》

一段话总结

论文《FROM SPARSE TO SOFT MIXTURES OF EXPERTS》提出Soft MoE，一种全可微的稀疏Transformer，解决了稀疏混合专家（MoE）架构训练不稳定、令牌丢弃、专家数量难以扩展和微调效果不佳等问题。Soft MoE通过对所有输入令牌进行加权平均实现软分配，让每个专家处理不同加权组合的令牌。实验表明，在视觉识别任务中，Soft MoE在训练成本、推理速度和性能上优于密集Transformer和其他流行的MoE方法，且能有效扩展到其他任务，但在自回归解码和内存消耗方面存在局限性。

详细总结

研究背景：大Transformer模型性能提升的同时计算成本增加，稀疏混合专家（MoE）架构可在不显著增加成本的情况下扩展模型容量，但存在训练不稳定、令牌丢弃、专家数量难以扩展和微调效果不佳等问题。
Soft MoE算法
- 算法描述：输入令牌$X\in \mathbb{R}^{m×d}$，每个MoE层有$n$个专家函数$f_{i}$，通过计算$D_{ij}=\frac{exp((X\Phi){ij})}{\sum^{m}exp((X\Phi){i'j})}$得到输入插槽$\tilde{X}=D^{\top}X$，再经专家函数处理后，用$C=\frac{exp((X\Phi){ij})}{\sum^{n\cdot p}exp((X\Phi)_{ij'})}$计算输出令牌$Y = C\tilde{Y}$。通常用Soft MoE块替换Transformer中后半部分的MLP块。
- 算法特性：全可微，避免了离散分配的优化和实现问题；不存在令牌丢弃和专家不平衡现象；速度快，计算成本取决于插槽数量而非专家数量，且避免了慢且不适合硬件加速的排序或top - k操作；兼具稀疏和密集模型的特点；具有序列级确定性。
- 实现细节：时间复杂度为$O(mnpd + npk)$，选择$p = O(m/n)$时可降为$O(m^{2}d+mk)$；采用L2归一化解决模型维度$d$增大时的稳定性问题；专家数量增加时采用标准技术分布式训练模型。
实验
- 训练和评估数据：在JFT - 4B数据集上预训练，用上游验证精度、ImageNet 10-shot准确率评估，在ImageNet - 1k数据集上微调后用验证集准确率评估。
- 稀疏路由算法对比：Tokens Choice每个令牌选择得分最高的$K$个专家；Experts Choice专家选择得分最高的$C$个令牌。对比发现Soft MoE在训练成本/性能帕累托前沿上表现更优。
- 模型训练实验：训练多种模型，结果表明Soft MoE在固定训练预算下性能优于ViT，如Soft MoE S/16在JFT和10-shot ImageNet上表现优于ViT B/16，且训练和推理成本更低。
- 消融实验：研究插槽和专家数量变化对模型的影响，发现Soft MoE每个令牌插槽数相同时，专家越多性能越好；对比不同路由方式，证明Soft MoE的有效性。
对比学习：在图像文本对比学习任务中，Soft MoE在零样本学习的下游数据集上表现优于ViT，且从数据增强中受益更多。
相关工作：与减少序列长度的方法、多头注意力机制、其他MoE方法存在差异，Soft MoE目的不是减少序列长度，专家为非线性且组合$d$维向量，计算成本相对较低。
局限性：难以应用于自回归解码，因需保留因果关系且避免令牌和插槽索引相关；一个专家对应一个插槽更优，导致模型内存需求可能较大。

模型	参数	训练步数	训练TPUv3天数	训练ExaFLOP	推理ms/img	推理GFLOP/img	JFT @1 P@1	INet 10shot	INet finetune
ViT S/16	33M	4M (50k)	153.5	227.1	0.5	9.2	51.3	67.6	84.0
ViT B/16	108M	4M (50k)	410.1	864.1	1.3	35.1	56.2	76.8	86.6
Soft MoE S/16 128E	933M	4M (50k)	175.1	211.9	0.7	8.6	58.1	78.8	86.8
Soft MoE B/16 128E	3.7B	4M (50k)	449.5	786.4	1.5	32.0	60.0	82.0	88.0
---

关键问题

Soft MoE与传统稀疏MoE相比，在训练和推理方面有哪些优势？
- 答案：在训练方面，Soft MoE全可微，避免了离散分配带来的优化和实现问题，不存在令牌丢弃和专家不平衡现象；在推理方面，速度更快，计算成本取决于插槽数量而非专家数量，避免了排序或top - k等慢操作，且在相同性能下推理速度比ViT快很多，如Soft MoE B/16推理速度比ViT H/14快5.7倍。
从实验结果看，Soft MoE在不同规模模型中的表现如何？
- 答案：在小模型如Soft MoE S/16中，训练时间更短，在JFT和10-shot ImageNet上性能优于ViT B/16；中等模型Soft MoE B/16在少样本学习和微调任务中表现出色，匹配或超越ViT H/14，且推理速度更快、成本更低；大模型Soft MoE L/16性能超过所有ViT模型，推理速度比ViT H/14快近2倍。
Soft MoE在应用中存在哪些局限性？
- 答案：一是在自回归解码方面存在困难，由于需要学习合并所有输入令牌，难以在训练中保留过去和未来令牌之间的因果关系，使用因果掩码时需避免引入令牌和插槽索引的相关性；二是内存消耗问题，一个专家对应一个插槽往往是最优选择，这使得模型在利用大量专家时，内存需求可能会显著增加。

Soft MoE《FROM SPARSE TO SOFT MIXTURES OF EXPERTS》

一段话总结

详细总结

关键问题

论文相关文章

最近热门

最常浏览