论文地址
[2408.05430] HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou
论文简介
“HoME - Hierarchy of Multi - Gate Experts for Multi - Task Learning at Kuaishou”提出了一种用于多任务学习的层次化多门专家(HoME)模型,解决了混合专家(MoE)范式在短视频服务中的实际问题,提高了模型的稳定性和性能。
1. 研究背景
- 在短视频推荐等多任务学习场景中,MoE范式被广泛应用,但存在专家崩溃、专家退化和专家欠拟合等问题。
- 以MMoE为例,实际应用中存在一些问题:如专家输出分布差异大,部分专家激活值多为0;共享专家可能被某一任务独占,失去通用性;稀疏任务倾向于依赖共享专家,导致特定专家欠拟合。
2. HoME模型
-
专家归一化和Swish机制
- 对每个专家引入归一化操作,使其输出近似正态分布,但归一化后ReLU函数会导致过多0值,因此用Swish函数替代ReLU,平衡专家输出方差,避免专家崩溃,使门网络能更合理地分配权重。
-
层次掩码机制
-
插入预排序元专家网络,将任务分组为不同类别(如主动交互任务和被动观看时间任务),构建全局共享专家、类别内局部共享专家和特定任务专家,减少专家占用问题和专家退化,提高任务间共享效率。
-
特征门和自门机制
-
特征门机制通过私有化灵活的专家输入,为不同任务专家生成不同的输入特征表示,缓解梯度冲突,保护稀疏任务专家训练。
- 自门机制在专家输出层面添加残差连接,确保顶层梯度能有效传递到底层,稳定更深层次的MMoE系统训练。
3. 实验结果
-
离线实验
- 在短视频数据集上与MMoE、CGC、PLE、AdaTT等模型进行比较,HoME在所有任务上均有统计显著提升,同时引入更少的参数。
- 通过消融实验验证了各个机制的有效性,如层次掩码机制能有效缓解专家退化问题,且不引入大量额外参数;添加不同层专家间的残差连接有助于训练专家,且第一层特征门的改进效果更显著。
-
超参数敏感性讨论
-
对于专家数量,增加专家数量可稳定提高预测精度,表明HoME是一个平衡的MoE系统。
- 对于特征门LoRA数量,实验表明两个LoRA的变体效果最佳,存在平衡LoRA数量和其建模能力的瓶颈。
-
在线A/B测试
-
在快手的三个短视频场景中进行在线测试,结果表明HoME在播放时间、视频观看量以及各种交互指标上均有显著提升,尤其对稀疏行为任务提升更大,能使多任务系统收敛到更平衡的状态。
4. 研究结论
- 深入分析了当前MoE系统的专家问题,提出了HoME模型,提高了多任务MoE系统的稳定性。
- 通过大量离线和在线实验验证了HoME的有效性,该模型已在快手的各种服务中广泛部署,为4亿活跃用户提供支持。