《DHEN: A Deep and Hierarchical Ensemble Network for Large - Scale Click - Through Rate Prediction》 作者是Buyun Zhang、Liang Luo、Xi Liu等人,该论文提出了一种用于大规模点击率预测的深度分层集成网络(DHEN),并介绍了与之协同设计的训练系统。
-
研究背景:
- 点击率预测在在线广告中至关重要,深度学习模型在该领域取得了显著进展,但不同的特征交互模块在不同数据集上的表现存在差异,且学习更高阶交互有时会带来负面效果。
- 传统的堆叠模型结构只能捕获一种高阶交互,存在局限性,需要具有异构交互模块的模型来解决这些问题。
-
DHEN架构:
- 特征处理层:使用与DLRM相同的特征处理层,将离散的分类特征映射为数值嵌入向量,数值特征通过密集层处理,最终输出的特征表示为。
- 分层集成:包括多种交互模块和集成组件,通过递归堆叠DHEN层,学习不同阶交互的层次结构并捕获异构模块的相关性。
- 交互模块:应用了五种交互模块,包括AdvancedDLRM、self - attention、Linear、Deep Cross Net和Convolution。
-
训练系统:
- 训练策略:利用ZionEX全同步训练系统,将嵌入表分布在一个“超级节点”(pod)中,密集模块在每个GPU上复制并以数据并行(DP)方式训练,还使用了完全分片数据并行(FSDP)来解决DP的参数大小限制问题。
- 训练优化:包括常见的优化,如大批次训练、FP16嵌入、BF16优化器等,还提出了混合分片数据并行(HSDP)训练范式,以提高训练效率。
-
实验:
- 实验设置:使用工业数据集,以归一化熵损失评估CTR预测精度,所有模型都使用数百个稀疏特征和数千个密集特征进行训练。
- 模型变化与不同交互模块:通过实验验证了不同交互模块的组合对模型性能的影响,发现self - attention和Linear交互模块的分层集成表现最佳,且分层集成机制对DHEN的性能至关重要。
- 与工业AdvancedDLRM的实验:
- 模型预测性能:DHEN模型优于工业AdvancedDLRM模型,更深的DHEN模型能实现更大的归一化熵改进,且性能具有一致性和泛化性。
- 缩放效率:DHEN在准确性方面优于通过MoE扩展的AdvancedDLRM,堆叠DHEN层是一种有效的缩放机制。
- 训练吞吐量:通过实验证明了系统级优化的有效性,HSDP相比FSDP能支持更大的模型尺寸且具有更高的训练吞吐量。
-
相关工作与讨论:
- CTR预测模型:早期使用LR和DT,后来引入FMs及其扩展模型,但存在表达能力有限和计算成本高等问题。深度学习模型通过深度隐藏层和非线性激活函数来捕获非线性高阶特征交互,但一些研究表明高阶交互的重要性不同,且不同交互模块捕获的信息存在差异。
- 与其他模型的比较:DHEN与GIN和AutoInt有显著差异,GIN和AutoInt的每个头仍然是同质的,不能补充非重叠信息和捕获不同模块的相关性以及层次结构,而AutoInt需要第二阶段的重新训练,DHEN则采用端到端的方式,只需要训练一次。
-
结论:
- DHEN是一种能够利用异构交互模块的优势并学习不同阶交互层次结构的分层集成架构。
- 协同设计的训练系统提高了训练DHEN的效率,在CTR预测的归一化熵上提高了0.27%,训练吞吐量提高了1.2倍。
未来工作:可以为DHEN的各个层应用专用的门控激活,为DHEN的每一层引入Mixture - of - Experts结构,还可以为不同的任务启用DHEN的共享和专用层,以实现多任务场景。