《APG: Adaptive Parameter Generation Network for Click - Through Rate Prediction》 作者为Bencheng Yan、Pengjie Wang等,来自阿里巴巴集团。

研究背景和动机

  • 传统的深度CTR模型以静态方式学习模式,所有实例共享相同的网络参数,限制了模型的表示能力,导致结果次优。
  • 现有工作主要关注输入特征和模型架构的改进,很少关注模型参数的优化。

核心贡献

  • 提出新的学习范式:在深度CTR模型中,模型参数是输入感知的并动态生成,以增强表示能力,且该方法可应用于大多数现有深度CTR模型,是一个通用模块。
  • 提出APG网络:以高效且有效的方式生成自适应参数,并对其计算和内存复杂性进行了理论分析。
  • 实验验证有效性:通过大量实验评估,证明了该方法的通用性和有效性,能提高大多数现有深度CTR模型的性能,同时对APG在训练时间和内存消耗方面进行了系统评估,在工业赞助搜索系统中取得了较好的效果,CTR增益3%,RPM增益1%。

相关工作

  • Deep CTR Models:传统CTR预测方法采用深度神经网络捕捉用户和项目之间的复杂关系,但采用静态参数方式限制了模型容量和性能。
  • Coarse - grained Parameter Allocating:多领域学习和多任务学习采用粗粒度参数分配策略,但难以扩展到细粒度方式,且存在内存消耗和灵活性不足的问题。
  • Dynamic Deep Neural Networks:本文将动态神经网络的思想引入深度CTR模型,并在实际应用中发展。

方法

  • 基本模型(3.1节)

    • 条件设计:提出三种策略(group - wise、mix - wise、self - wise)来设计不同的条件zi。
    • 参数生成:采用多层感知机根据条件生成参数,将生成的参数应用于深度CTR模型。
  • 有效且高效的自适应参数生成网络(3.2节)

    • 低秩参数化:将权重矩阵参数化为低秩矩阵,以降低计算和内存成本。
    • 分解前馈:避免权重矩阵重建的繁重计算,降低时间成本。
    • 参数共享:将矩阵分解为特定参数和共享参数,以捕获自定义模式和公共模式。
    • 过参数化:通过引入更多共享参数来扩大模型容量,同时在推理阶段不增加额外的延迟和内存成本。
  • 复杂性分析(3.3节):详细分析了模型的内存和计算复杂性,APG在内存和计算成本上比常规深度CTR模型更小。

实验

  • 实验设置(4.1节)

    • 数据集:使用四个真实世界数据集,包括Amazon、MovieLens、IAAC和IndusData。
    • 基线:与现有CTR预测方法(如WDL、PNN、FIBINET等)和粗粒度参数分配方法(如MMoE、Star)进行比较。
    • 训练细节:见附录B.3。
  • 性能评估(4.2节)

    • 公共数据集结果:APG使所有方法在所有数据集上都取得了显著改进,证明了其通用性和有效性。
    • 工业应用结果:在工业赞助搜索系统中取得了0.2%的AUC增益,3%的CTR增益和1%的RPM增益。
  • 有效性评估(4.3节)

    • 基本模型的影响:引入特定参数能有效理解不同实例,提高AUC结果。
    • 低秩参数化的影响:在降低计算和内存成本的同时保持高性能。
    • 参数共享的影响:通过引入共享参数,进一步提高了性能,并有助于提高效率。
    • 过参数化的影响:添加更多共享参数可丰富模型容量,导致更好的性能。
  • 效率评估(4.4节)

    • 时间和内存效率:APG在内存使用和时间要求方面具有良好的性能,适合网络规模应用。
    • 与粗粒度参数分配方法的比较(4.5节):APG在效率和有效性方面优于Star和MMoE,具有更好的泛化能力。
    • 可视化(4.6节):APG学习到的特定参数有意义,能够隐式捕获不同特定参数之间的关系。

结论: APG能够自适应地为不同实例生成参数,提升模型对不同实例模式的刻画能力,实验结果表明其能有效改进现有深度CTR模型的性能,未来将尝试自动实现APG的不同设置以适应不同情况。